pandas数据框视图vs复制，我怎么知道？

如果您的DataFrame具有简单的列索引，则没有区别。例如，

In [8]: df = pd.DataFrame(np.arange(12).reshape(4,3), columns=list('ABC'))

In [9]: df.loc[:, ['A','B']]
Out[9]: 
   A   B
0  0   1
1  3   4
2  6   7
3  9  10

In [10]: df.loc[:, ('A','B')]
Out[10]: 
   A   B
0  0   1
1  3   4
2  6   7
3  9  10

但是，如果DataFrame具有MultiIndex，则可能会有很大的不同：

df = pd.DataFrame(np.random.randint(10, size=(5,4)),
                  columns=pd.MultiIndex.from_arrays([['foo']*2+['bar']*2,
                                                     list('ABAB')]),
                  index=pd.MultiIndex.from_arrays([['baz']*2+['qux']*3,
                                                   list('CDCDC')]))

#       foo    bar   
#         A  B   A  B
# baz C   7  9   9  9
#     D   7  5   5  4
# qux C   5  0   5  1
#     D   1  7   7  4
#     C   6  4   3  5

In [27]: df.loc[:, ('foo','B')]
Out[27]: 
baz  C    9
     D    5
qux  C    0
     D    7
     C    4
Name: (foo, B), dtype: int64

In [28]: df.loc[:, ['foo','B']]
KeyError: 'MultiIndex Slicing requires the index to be fully lexsorted tuple len (1), lexsort depth (0)'

KeyError表示必须对MultiIndex进行排序。如果我们这样做，那么我们仍然会得到不同的结果：

In [29]: df.sortlevel(axis=1).loc[:, ('foo','B')]
Out[29]: 
baz  C    9
     D    5
qux  C    0
     D    7
     C    4
Name: (foo, B), dtype: int64

In [30]: df.sortlevel(axis=1).loc[:, ['foo','B']]
Out[30]: 
      foo   
        A  B
baz C   7  9
    D   7  5
qux C   5  0
    D   1  7
    C   6  4

这是为什么？df.sortlevel(axis=1).loc[:, ('foo','B')]正在选择第一列级别等于foo，第二列级别等于的列B。

相反，df.sortlevel(axis=1).loc[:, ['foo','B']]正在选择第一列级别为foo或的列B。关于第一列级别，没有B列，但是有两foo列。

我认为Pandas的操作原理是，如果您将其df.loc[...]用作 表达式 ，则应假定df.loc可能正在返回副本或视图。Pandas文档未指定您应该遵循的任何规则。但是，如果您分配表格

df.loc[...] = value

那么您可以信任熊猫来改变df自己。

该文档之所以警告有关视图和副本之间的区别的原因，是为了使您意识到使用以下形式的链分配的陷阱

df.loc[...][...] = value

在这里，Pandasdf.loc[...]首先评估，它可以是视图或副本。现在，如果它是副本，则

df.loc[...][...] = value

正在更改的某些部分的副本df，因此对其df自身没有影响。更糟的是，由于没有引用副本，因此对副本的影响也会丢失，因此在赋值语句完成后就无法访问副本，因此（至少在cpython中）垃圾收集。

我不知道一种实用 的先验 方法来确定是否df.loc[...]要返回视图或副本。

但是，有一些经验法则可能有助于指导您的直觉（但是请注意，我们在这里讨论实现细节，因此不能保证熊猫将来会以这种方式行事）：

然而，有一个简单的方法来确定是否x = df.loc[..]是一个视图 一个postiori ：只需看看是否改变值x影响df。如果是，则为视图，否则x为副本。

其他 2022/1/1 18:36:37 有622人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

pandas数据框视图vs复制，我怎么知道？

撰写回答

推荐问题

Jenkins XmlParser报告未找到根节点属性的此类字段

Java Import package.* vs import package.SpecificType

使用SHA-256和MGF1Padding分解RSA / ECB / OAEP

pandas.io.json.json_normalize与非常嵌套的json

获取“ java.lang.NoClassDefFoundError：com / beust / jcommander / ParameterException”异常

Java SE 6中的JPA / Hibernate，用于数据访问的最佳实践

Hibernate工具可以生成JPA POJO吗？

怎么把PascalCase转换成pascal_case？

如何在Electron.Atom \ WebPack应用程序中使用FS模块？

在本地xampp / apache服务器上设置SSL

在onPause，onStop和onDestroy方法中调用超类方法的正确顺序是什么？为什么？

Webpack开发服务器React Content Security Policy错误

Spring Data JPA分离实体

“ -sh：executable_path：未找到”是什么意思

Primefaces DataTable + JPA /休眠分页

在具有Docker容器的独立集群上执行Spark SPARK_PUBLIC_DNS和SPARK_LOCAL_IP

Spring，JPA和Hibernate-如何在没有并发问题的情况下增加计数器

JPA：如何将字符串保留到数据库字段中，键入MYSQL Text

apache mysql-3306上的“数据包出现故障”

Hibernate JPA，MySQL和TinyInt（1）用于布尔值而不是bit或char

分类汇总

您的鼓励是对我最大的支持