摘要：问题描述：如何将具有缺失值的 pandas 数据框转换为 NumPy 数组，以便结果必须np.nan表示缺失值？数据框：import numpy as np import pandas as pd index = [1, 2, 3, 4, 5, 6, 7] a = [np.nan, np.nan, np.n...

问题描述：

如何将具有缺失值的 pandas 数据框转换为 NumPy 数组，以便结果必须np.nan表示缺失值？

数据框：

import numpy as np
import pandas as pd

index = [1, 2, 3, 4, 5, 6, 7]
a = [np.nan, np.nan, np.nan, 0.1, 0.1, 0.1, 0.1]
b = [0.2, np.nan, 0.2, 0.2, 0.2, np.nan, np.nan]
c = [np.nan, 0.5, 0.5, np.nan, 0.5, 0.5, np.nan]
df = pd.DataFrame({'A': a, 'B': b, 'C': c}, index=index)
df = df.rename_axis('ID')

给出

      A    B    C
ID                                 
1   NaN  0.2  NaN
2   NaN  NaN  0.5
3   NaN  0.2  0.5
4   0.1  0.2  NaN
5   0.1  0.2  0.5
6   0.1  NaN  0.5
7   0.1  NaN  NaN

我想将其转换为 NumPy 数组，如下所示：

array([[ nan,  0.2,  nan],
       [ nan,  nan,  0.5],
       [ nan,  0.2,  0.5],
       [ 0.1,  0.2,  nan],
       [ 0.1,  0.2,  0.5],
       [ 0.1,  nan,  0.5],
       [ 0.1,  nan,  nan]])

另外，是否可以像这样保留 dtypes？

array([[ 1, nan,  0.2,  nan],
       [ 2, nan,  nan,  0.5],
       [ 3, nan,  0.2,  0.5],
       [ 4, 0.1,  0.2,  nan],
       [ 5, 0.1,  0.2,  0.5],
       [ 6, 0.1,  nan,  0.5],
       [ 7, 0.1,  nan,  nan]],
     dtype=[('ID', '<i4'), ('A', '<f8'), ('B', '<f8'), ('B', '<f8')])

解决方案 1：

使用`df.to_numpy()`

它比更好df.values，原因如下。*

现在是时候弃用values和了as_matrix()。

pandas v0.24.0 引入了两种从 pandas 对象获取 NumPy 数组的新方法：

to_numpy()，它定义在Index、Series和DataFrame对象上，并且
arrayIndex，它仅在和对象上定义Series。

如果你访问 v0.24 文档.values，你会看到一个大红色警告，上面写着：

警告：我们建议使用DataFrame.to_numpy()。

请参阅v0.24.0 发行说明的此部分和此答案以获取更多信息。

-to_numpy()是我推荐的任何需要在未来多个版本中可靠运行的生产代码的方法。但是，如果您只是在 jupyter 或终端中制作暂存器，则使用它.values来节省几毫秒的输入时间是允许的例外。您以后可以随时添加 fit n finish。

实现更好的一致性：`to_numpy()`

本着提高整个 API 的一致性的精神，to_numpy我们引入了一种新方法，从 DataFrames 中提取底层 NumPy 数组。

# Setup
df = pd.DataFrame(data={'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}, 
                  index=['a', 'b', 'c'])

# Convert the entire DataFrame
df.to_numpy()
# array([[1, 4, 7],
#        [2, 5, 8],
#        [3, 6, 9]])

# Convert specific columns
df[['A', 'C']].to_numpy()
# array([[1, 7],
#        [2, 8],
#        [3, 9]])

如上所述，此方法也在Index和Series对象上定义（参见此处）。

df.index.to_numpy()
# array(['a', 'b', 'c'], dtype=object)

df['A'].to_numpy()
#  array([1, 2, 3])

默认情况下，会返回一个视图，因此所做的任何修改都会影响原始视图。

v = df.to_numpy()
v[0, 0] = -1
 
df
   A  B  C
a -1  4  7
b  2  5  8
c  3  6  9

如果您需要副本，请使用to_numpy(copy=True)。

pandas >= 1.0 扩展类型更新

如果您使用的是 pandas 1.x，则可能会更多地处理扩展类型。您必须更加小心，确保正确转换这些扩展类型。

a = pd.array([1, 2, None], dtype="Int64")                                  
a                                                                          

<IntegerArray>
[1, 2, <NA>]
Length: 3, dtype: Int64 

# Wrong
a.to_numpy()                                                               
# array([1, 2, <NA>], dtype=object)  # yuck, objects

# Correct
a.to_numpy(dtype='float', na_value=np.nan)                                 
# array([ 1.,  2., nan])

# Also correct
a.to_numpy(dtype='int', na_value=-1)
# array([ 1,  2, -1])

文档中已经提到了这一点。

如果您需要`dtypes`结果...

正如另一个答案所示，DataFrame.to_records这是一个好方法。

df.to_records()
# rec.array([('a', 1, 4, 7), ('b', 2, 5, 8), ('c', 3, 6, 9)],
#           dtype=[('index', 'O'), ('A', '<i8'), ('B', '<i8'), ('C', '<i8')])

遗憾的是，这无法通过实现to_numpy。但是，作为替代方案，您可以使用np.rec.fromrecords：

v = df.reset_index()
np.rec.fromrecords(v, names=v.columns.tolist())
# rec.array([('a', 1, 4, 7), ('b', 2, 5, 8), ('c', 3, 6, 9)],
#           dtype=[('index', '<U1'), ('A', '<i8'), ('B', '<i8'), ('C', '<i8')])

性能方面，几乎相同（实际上，使用rec.fromrecords速度更快一些）。

df2 = pd.concat([df] * 10000)

%timeit df2.to_records()
%%timeit
v = df2.reset_index()
np.rec.fromrecords(v, names=v.columns.tolist())

12.9 ms ± 511 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
9.56 ms ± 291 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

添加新方法的理由

to_numpy()（除了）是根据两个 GitHub 问题GH19954和GH23623array下的讨论结果添加的。

具体来说，文档提到了其理由：

[...].values不清楚返回的值是实际数组、数组的某种变换，还是 pandas 自定义数组之一（如Categorical）。例如，使用PeriodIndex，每次.values
都会生成一个新的period 对象。[...]ndarray

to_numpy旨在提高 API 的一致性，这是朝着正确方向迈出的重要一步。.values在当前版本中不会被弃用，但我预计这可能会在未来的某个时候发生，因此我敦促用户尽快迁移到更新的 API。

对其他解决方案的批评

DataFrame.values行为不一致，如前所述。

DataFrame.get_values()在 v1.0 中被悄悄移除，并在 v0.25 中被弃用。在此之前，它只是的一个包装器DataFrame.values，因此上述所有内容均适用。

DataFrame.as_matrix()已在 v1.0 中删除，并已在 v0.23 中弃用。请勿使用！

解决方案 2：

要将 pandas 数据框 (df) 转换为 numpy ndarray，请使用以下代码：

df.values

array([[nan, 0.2, nan],
       [nan, nan, 0.5],
       [nan, 0.2, 0.5],
       [0.1, 0.2, nan],
       [0.1, 0.2, 0.5],
       [0.1, nan, 0.5],
       [0.1, nan, nan]])

如果需要特定列：

df['column'].values

解决方案 3：

注意：.as_matrix()此答案中使用的方法已被弃用。 Pandas 0.23.4 警告：

该方法.as_matrix将在未来的版本中被删除。请改用 .values。

Pandas 内置了一些功能......

numpy_matrix = df.as_matrix()

给出

array([[nan, 0.2, nan],
       [nan, nan, 0.5],
       [nan, 0.2, 0.5],
       [0.1, 0.2, nan],
       [0.1, 0.2, 0.5],
       [0.1, nan, 0.5],
       [0.1, nan, nan]])

解决方案 4：

我只需链接DataFrame.reset_index()和DataFrame.values函数即可获取数据框的 Numpy 表示形式，包括索引：

In [8]: df
Out[8]: 
          A         B         C
0 -0.982726  0.150726  0.691625
1  0.617297 -0.471879  0.505547
2  0.417123 -1.356803 -1.013499
3 -0.166363 -0.957758  1.178659
4 -0.164103  0.074516 -0.674325
5 -0.340169 -0.293698  1.231791
6 -1.062825  0.556273  1.508058
7  0.959610  0.247539  0.091333

[8 rows x 3 columns]

In [9]: df.reset_index().values
Out[9]:
array([[ 0.        , -0.98272574,  0.150726  ,  0.69162512],
       [ 1.        ,  0.61729734, -0.47187926,  0.50554728],
       [ 2.        ,  0.4171228 , -1.35680324, -1.01349922],
       [ 3.        , -0.16636303, -0.95775849,  1.17865945],
       [ 4.        , -0.16410334,  0.0745164 , -0.67432474],
       [ 5.        , -0.34016865, -0.29369841,  1.23179064],
       [ 6.        , -1.06282542,  0.55627285,  1.50805754],
       [ 7.        ,  0.95961001,  0.24753911,  0.09133339]])

为了获取数据类型，我们需要使用view将这个 ndarray 转换为结构化数组：

In [10]: df.reset_index().values.ravel().view(dtype=[('index', int), ('A', float), ('B', float), ('C', float)])
Out[10]:
array([( 0, -0.98272574,  0.150726  ,  0.69162512),
       ( 1,  0.61729734, -0.47187926,  0.50554728),
       ( 2,  0.4171228 , -1.35680324, -1.01349922),
       ( 3, -0.16636303, -0.95775849,  1.17865945),
       ( 4, -0.16410334,  0.0745164 , -0.67432474),
       ( 5, -0.34016865, -0.29369841,  1.23179064),
       ( 6, -1.06282542,  0.55627285,  1.50805754),
       ( 7,  0.95961001,  0.24753911,  0.09133339),
       dtype=[('index', '<i8'), ('A', '<f8'), ('B', '<f8'), ('C', '<f8')])

解决方案 5：

你可以使用该to_records方法，但如果一开始就不是你想要的，那么就必须对 dtypes 进行一些调整。在我的例子中，从字符串复制了 DF，索引类型是字符串（object在 pandas 中用 dtype 表示）：

In [102]: df
Out[102]: 
label    A    B    C
ID                  
1      NaN  0.2  NaN
2      NaN  NaN  0.5
3      NaN  0.2  0.5
4      0.1  0.2  NaN
5      0.1  0.2  0.5
6      0.1  NaN  0.5
7      0.1  NaN  NaN

In [103]: df.index.dtype
Out[103]: dtype('object')
In [104]: df.to_records()
Out[104]: 
rec.array([(1, nan, 0.2, nan), (2, nan, nan, 0.5), (3, nan, 0.2, 0.5),
       (4, 0.1, 0.2, nan), (5, 0.1, 0.2, 0.5), (6, 0.1, nan, 0.5),
       (7, 0.1, nan, nan)], 
      dtype=[('index', '|O8'), ('A', '<f8'), ('B', '<f8'), ('C', '<f8')])
In [106]: df.to_records().dtype
Out[106]: dtype([('index', '|O8'), ('A', '<f8'), ('B', '<f8'), ('C', '<f8')])

转换 recarray dtype 对我来说不起作用，但是人们已经可以在 Pandas 中做到这一点：

In [109]: df.index = df.index.astype('i8')
In [111]: df.to_records().view([('ID', '<i8'), ('A', '<f8'), ('B', '<f8'), ('C', '<f8')])
Out[111]:
rec.array([(1, nan, 0.2, nan), (2, nan, nan, 0.5), (3, nan, 0.2, 0.5),
       (4, 0.1, 0.2, nan), (5, 0.1, 0.2, 0.5), (6, 0.1, nan, 0.5),
       (7, 0.1, nan, nan)], 
      dtype=[('ID', '<i8'), ('A', '<f8'), ('B', '<f8'), ('C', '<f8')])

ID请注意，Pandas 没有在导出的记录数组中正确设置索引的名称（为）（一个错误？），因此我们可以利用类型转换来纠正这个问题。

目前，Pandas 只有 8 字节整数i8和浮点数f8（请参阅此问题）。

解决方案 6：

看起来它对df.to_records()你有用。你正在寻找的确切功能已被请求并被to_records指出作为替代方案。

我使用您的示例在本地尝试了此操作，并且该调用产生的输出与您正在寻找的输出非常相似：

rec.array([(1, nan, 0.2, nan), (2, nan, nan, 0.5), (3, nan, 0.2, 0.5),
       (4, 0.1, 0.2, nan), (5, 0.1, 0.2, 0.5), (6, 0.1, nan, 0.5),
       (7, 0.1, nan, nan)],
      dtype=[(u'ID', '<i8'), (u'A', '<f8'), (u'B', '<f8'), (u'C', '<f8')])

请注意，这是一个recarray而不是array。您可以通过将其构造函数调用为将结果移动到常规 numpy 数组中np.array(df.to_records())。

解决方案 7：

尝试一下：

a = numpy.asarray(df)

解决方案 8：

以下是我从 pandas DataFrame 创建结构数组的方法。

创建数据框

import pandas as pd
import numpy as np
import six

NaN = float('nan')
ID = [1, 2, 3, 4, 5, 6, 7]
A = [NaN, NaN, NaN, 0.1, 0.1, 0.1, 0.1]
B = [0.2, NaN, 0.2, 0.2, 0.2, NaN, NaN]
C = [NaN, 0.5, 0.5, NaN, 0.5, 0.5, NaN]
columns = {'A':A, 'B':B, 'C':C}
df = pd.DataFrame(columns, index=ID)
df.index.name = 'ID'
print(df)

      A    B    C
ID               
1   NaN  0.2  NaN
2   NaN  NaN  0.5
3   NaN  0.2  0.5
4   0.1  0.2  NaN
5   0.1  0.2  0.5
6   0.1  NaN  0.5
7   0.1  NaN  NaN

定义函数从 pandas DataFrame 创建 numpy 结构数组（而不是记录数组）。

def df_to_sarray(df):
    """
    Convert a pandas DataFrame object to a numpy structured array.
    This is functionally equivalent to but more efficient than
    np.array(df.to_array())

    :param df: the data frame to convert
    :return: a numpy structured array representation of df
    """

    v = df.values
    cols = df.columns

    if six.PY2:  # python 2 needs .encode() but 3 does not
        types = [(cols[i].encode(), df[k].dtype.type) for (i, k) in enumerate(cols)]
    else:
        types = [(cols[i], df[k].dtype.type) for (i, k) in enumerate(cols)]
    dtype = np.dtype(types)
    z = np.zeros(v.shape[0], dtype)
    for (i, k) in enumerate(z.dtype.names):
        z[k] = v[:, i]
    return z

用于reset_index创建一个新的数据框，其中包含索引作为其数据的一部分。将该数据框转换为结构数组。

sa = df_to_sarray(df.reset_index())
sa

array([(1L, nan, 0.2, nan), (2L, nan, nan, 0.5), (3L, nan, 0.2, 0.5),
       (4L, 0.1, 0.2, nan), (5L, 0.1, 0.2, 0.5), (6L, 0.1, nan, 0.5),
       (7L, 0.1, nan, nan)], 
      dtype=[('ID', '<i8'), ('A', '<f8'), ('B', '<f8'), ('C', '<f8')])

编辑：更新 df_to_sarray 以避免使用 python 3 调用 .encode() 时出错。感谢Joseph Garvin和halcyon 的评论和解决方案。

解决方案 9：

示例 DataFrame 的一个更简单的方法：

df

         gbm       nnet        reg
0  12.097439  12.047437  12.100953
1  12.109811  12.070209  12.095288
2  11.720734  11.622139  11.740523
3  11.824557  11.926414  11.926527
4  11.800868  11.727730  11.729737
5  12.490984  12.502440  12.530894

使用：

np.array(df.to_records().view(type=np.matrix))

得到：

array([[(0, 12.097439  , 12.047437, 12.10095324),
        (1, 12.10981081, 12.070209, 12.09528824),
        (2, 11.72073428, 11.622139, 11.74052253),
        (3, 11.82455653, 11.926414, 11.92652727),
        (4, 11.80086775, 11.72773 , 11.72973699),
        (5, 12.49098389, 12.50244 , 12.53089367)]],
dtype=(numpy.record, [('index', '<i8'), ('gbm', '<f8'), ('nnet', '<f4'),
       ('reg', '<f8')]))

解决方案 10：

将数据框转换为其 Numpy 数组表示的两种方法。

mah_np_array = df.as_matrix(columns=None)
mah_np_array = df.values

文档：https：//pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.as_matrix.html

解决方案 11：

我仔细阅读了上面的答案。“ as_matrix() ”方法有效，但现在已经过时了。对我来说，有效的是“ .to_numpy() ”。

这将返回一个多维数组。如果您正在从 Excel 表中读取数据并且需要从任何索引访问数据，我更喜欢使用此方法。希望这能有所帮助 :)

解决方案 12：

从数据框导出到 arcgis 表时遇到了类似的问题，并偶然发现了 usgs 的解决方案（https://my.usgs.gov/confluence/display/cdi/pandas.DataFrame+to+ArcGIS+Table）。简而言之，您的问题有一个类似的解决方案：

df

      A    B    C
ID               
1   NaN  0.2  NaN
2   NaN  NaN  0.5
3   NaN  0.2  0.5
4   0.1  0.2  NaN
5   0.1  0.2  0.5
6   0.1  NaN  0.5
7   0.1  NaN  NaN

np_data = np.array(np.rec.fromrecords(df.values))
np_names = df.dtypes.index.tolist()
np_data.dtype.names = tuple([name.encode('UTF8') for name in np_names])

np_data

array([( nan,  0.2,  nan), ( nan,  nan,  0.5), ( nan,  0.2,  0.5),
       ( 0.1,  0.2,  nan), ( 0.1,  0.2,  0.5), ( 0.1,  nan,  0.5),
       ( 0.1,  nan,  nan)], 
      dtype=(numpy.record, [('A', '<f8'), ('B', '<f8'), ('C', '<f8')]))

解决方案 13：

将数据框转换为numpy数组的简单方法：

import pandas as pd
df = pd.DataFrame({"A": [1, 2], "B": [3, 4]})
df_to_array = df.to_numpy()
array([[1, 3],
   [2, 4]])

鼓励使用 to_numpy 来保持一致性。

参考：
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_numpy.html

解决方案 14：

尝试一下：

np.array(df) 

array([['ID', nan, nan, nan],
   ['1', nan, 0.2, nan],
   ['2', nan, nan, 0.5],
   ['3', nan, 0.2, 0.5],
   ['4', 0.1, 0.2, nan],
   ['5', 0.1, 0.2, 0.5],
   ['6', 0.1, nan, 0.5],
   ['7', 0.1, nan, nan]], dtype=object)

更多信息请访问：[ https://docs.scipy.org/doc/numpy/reference/generated/numpy.array.html]
适用于 numpy 1.16.5 和 pandas 0.25.2。

解决方案 15：

继 Meteore 的回答之后，我找到了代码

df.index = df.index.astype('i8')

对我来说不起作用。所以我将代码放在这里，以方便其他遇到此问题的人。

city_cluster_df = pd.read_csv(text_filepath, encoding='utf-8')
# the field 'city_en' is a string, when converted to Numpy array, it will be an object
city_cluster_arr = city_cluster_df[['city_en','lat','lon','cluster','cluster_filtered']].to_records()
descr=city_cluster_arr.dtype.descr
# change the field 'city_en' to string type (the index for 'city_en' here is 1 because before the field is the row index of dataframe)
descr[1]=(descr[1][0], "S20")
newArr=city_cluster_arr.astype(np.dtype(descr))

解决方案 16：

正如cs95 的答案中所述，to_numpy()将始终将 pandas 数据框转换为 numpy 数组。另一方面，因为.values（如1、
2、
3、
4、
5中所建议的）返回数据框的底层数据，如果这不是 numpy 数组，它将不会返回 numpy 数组。

例如，如果列是扩展数据类型，例如可空整数数据类型（Int64），则将.values返回 pandas IntegerArray 对象，而不是 numpy ndarray，这可能不是所需的。但是，to_numpy()只能返回 numpy 数组。

df = pd.DataFrame({'A': [10, 20, 30]}, dtype='Int64')

type(df['A'].values)     # <class 'pandas.core.arrays.integer.IntegerArray'>

type(df['A'].to_numpy()) # <class 'numpy.ndarray'>

解决方案 17：

总结cs95的答案，你想要to_numpy(na_value=np.nan)：

>>> import numpy as np
>>> import pandas as pd

>>> index = [1, 2, 3, 4, 5, 6, 7]
>>> a = [np.nan, np.nan, np.nan, 0.1, 0.1, 0.1, 0.1]
>>> pd.DataFrame(a).to_numpy(na_value=np.nan)
array([[nan],
       [nan],
       [nan],
       [0.1],
       [0.1],
       [0.1],
       [0.1]])

将具有缺失值的 pandas 数据框转换为 NumPy 数组

问题描述：

解决方案 1：

使用`df.to_numpy()`

警告：我们建议使用`DataFrame.to_numpy()`。

实现更好的一致性：`to_numpy()`

pandas >= 1.0 扩展类型更新

如果您需要`dtypes`结果...

添加新方法的理由

对其他解决方案的批评

解决方案 2：

解决方案 3：

解决方案 4：

解决方案 5：

解决方案 6：

解决方案 7：

解决方案 8：

解决方案 9：

解决方案 10：

解决方案 11：

解决方案 12：

解决方案 13：

解决方案 14：

解决方案 15：

解决方案 16：

解决方案 17：

云端的项目管理软件

问题描述：

解决方案 1：

使用df.to_numpy()

警告：我们建议使用DataFrame.to_numpy()。

实现更好的一致性：to_numpy()

pandas >= 1.0 扩展类型更新

如果您需要dtypes结果...

添加新方法的理由

对其他解决方案的批评

解决方案 2：

解决方案 3：

解决方案 4：

解决方案 5：

解决方案 6：

解决方案 7：

解决方案 8：

解决方案 9：

解决方案 10：

解决方案 11：

解决方案 12：

解决方案 13：

解决方案 14：

解决方案 15：

解决方案 16：

解决方案 17：

云端的项目管理软件

使用`df.to_numpy()`

警告：我们建议使用`DataFrame.to_numpy()`。

实现更好的一致性：`to_numpy()`

如果您需要`dtypes`结果...