Pandas DataFrame搜索是线性时间还是恒定时间？

这是一个非常有趣的问题！

我认为这取决于以下几个方面：

按索引访问单行（）应具有运行时O(m)，其中m << n_rows

按索引访问单行（）应该具有运行时O(n_rows)

通过索引访问单行（）应该有运行O(m)在那里m < n_rows）

通过布尔索引访问行（独立于索引）应具有运行时 O(n_rows)

演示：

In [49]: df = pd.DataFrame(np.random.rand(10**5,6), columns=list('abcdef'))

In [50]: %timeit df.loc[random.randint(0, 10**4)]
The slowest run took 27.65 times longer than the fastest. This Could mean that an intermediate result is being cached.
1000 loops, best of 3: 331 µs per loop

In [51]: %timeit df.iloc[random.randint(0, 10**4)]
1000 loops, best of 3: 275 µs per loop

In [52]: %timeit df.query("a > 0.9")
100 loops, best of 3: 7.84 ms per loop

In [53]: %timeit df.loc[df.a > 0.9]
100 loops, best of 3: 2.96 ms per loop

In [54]: df = pd.DataFrame(np.random.rand(10**5,6), columns=list('abcdef'), index=np.random.randint(0, 10000, 10**5))

In [55]: %timeit df.loc[random.randint(0, 10**4)]
100 loops, best of 3: 12.3 ms per loop

In [56]: %timeit df.iloc[random.randint(0, 10**4)]
1000 loops, best of 3: 262 µs per loop

In [57]: %timeit df.query("a > 0.9")
100 loops, best of 3: 7.78 ms per loop

In [58]: %timeit df.loc[df.a > 0.9]
100 loops, best of 3: 2.93 ms per loop

In [64]: df = pd.DataFrame(np.random.rand(10**5,6), columns=list('abcdef'), index=np.random.randint(0, 10000, 10**5)).sort_index()

In [65]: df.index.is_monotonic_increasing
Out[65]: True

In [66]: %timeit df.loc[random.randint(0, 10**4)]
The slowest run took 9.70 times longer than the fastest. This Could mean that an intermediate result is being cached.
1000 loops, best of 3: 478 µs per loop

In [67]: %timeit df.iloc[random.randint(0, 10**4)]
1000 loops, best of 3: 262 µs per loop

In [68]: %timeit df.query("a > 0.9")
100 loops, best of 3: 7.81 ms per loop

In [69]: %timeit df.loc[df.a > 0.9]
100 loops, best of 3: 2.95 ms per loop

其他 2022/1/1 18:51:47 有434人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

Jenkins XmlParser报告未找到根节点属性的此类字段

Jenkins XmlParser报告未找到根节点属性的此类字段

其他 2022-01-01 953
Java Import package.* vs import package.SpecificType

Java Import package.* vs import package.SpecificType

java 2022-01-01 1138
使用SHA-256和MGF1Padding分解RSA / ECB / OAEP

使用SHA-256和MGF1Padding分解RSA / ECB / OAEP

其他 2022-01-01 1242
pandas.io.json.json_normalize与非常嵌套的json

pandas.io.json.json_normalize与非常嵌套的json

其他 2022-01-01 965
获取“ java.lang.NoClassDefFoundError：com / beust / jcommander / ParameterException”异常

获取“ java.lang.NoClassDefFoundError：com / beust / jcommander / ParameterException”异常

java 2022-01-01 982
Java SE 6中的JPA / Hibernate，用于数据访问的最佳实践

Java SE 6中的JPA / Hibernate，用于数据访问的最佳实践

java 2022-01-01 960
Hibernate工具可以生成JPA POJO吗？

Hibernate工具可以生成JPA POJO吗？

其他 2022-01-01 1083
怎么把PascalCase转换成pascal_case？

怎么把PascalCase转换成pascal_case？

其他 2022-01-01 843
如何在Electron.Atom \ WebPack应用程序中使用FS模块？

如何在Electron.Atom \ WebPack应用程序中使用FS模块？

其他 2022-01-01 984
在本地xampp / apache服务器上设置SSL

在本地xampp / apache服务器上设置SSL

其他 2022-01-01 1075
在onPause，onStop和onDestroy方法中调用超类方法的正确顺序是什么？为什么？

在onPause，onStop和onDestroy方法中调用超类方法的正确顺序是什么？为什么？

其他 2022-01-01 1042
Webpack开发服务器React Content Security Policy错误

Webpack开发服务器React Content Security Policy错误

其他 2022-01-01 802
Spring Data JPA分离实体

Spring Data JPA分离实体

Java 2022-01-01 862
“ -sh：executable_path：未找到”是什么意思

“ -sh：executable_path：未找到”是什么意思

其他 2022-01-01 916
Primefaces DataTable + JPA /休眠分页

Primefaces DataTable + JPA /休眠分页

其他 2022-01-01 885
在具有Docker容器的独立集群上执行Spark SPARK_PUBLIC_DNS和SPARK_LOCAL_IP

在具有Docker容器的独立集群上执行Spark SPARK_PUBLIC_DNS和SPARK_LOCAL_IP

其他 2022-01-01 988
Spring，JPA和Hibernate-如何在没有并发问题的情况下增加计数器

Spring，JPA和Hibernate-如何在没有并发问题的情况下增加计数器

Java 2022-01-01 965
JPA：如何将字符串保留到数据库字段中，键入MYSQL Text

JPA：如何将字符串保留到数据库字段中，键入MYSQL Text

MySQL 2022-01-01 853
apache mysql-3306上的“数据包出现故障”

apache mysql-3306上的“数据包出现故障”

MySQL 2022-01-01 782
Hibernate JPA，MySQL和TinyInt（1）用于布尔值而不是bit或char

Hibernate JPA，MySQL和TinyInt（1）用于布尔值而不是bit或char

MySQL 2022-01-01 1034

Pandas DataFrame搜索是线性时间还是恒定时间？

撰写回答

推荐问题

Jenkins XmlParser报告未找到根节点属性的此类字段

Java Import package.* vs import package.SpecificType

使用SHA-256和MGF1Padding分解RSA / ECB / OAEP

pandas.io.json.json_normalize与非常嵌套的json

获取“ java.lang.NoClassDefFoundError：com / beust / jcommander / ParameterException”异常

Java SE 6中的JPA / Hibernate，用于数据访问的最佳实践

Hibernate工具可以生成JPA POJO吗？

怎么把PascalCase转换成pascal_case？

如何在Electron.Atom \ WebPack应用程序中使用FS模块？

在本地xampp / apache服务器上设置SSL

在onPause，onStop和onDestroy方法中调用超类方法的正确顺序是什么？为什么？

Webpack开发服务器React Content Security Policy错误

Spring Data JPA分离实体

“ -sh：executable_path：未找到”是什么意思

Primefaces DataTable + JPA /休眠分页

在具有Docker容器的独立集群上执行Spark SPARK_PUBLIC_DNS和SPARK_LOCAL_IP

Spring，JPA和Hibernate-如何在没有并发问题的情况下增加计数器

JPA：如何将字符串保留到数据库字段中，键入MYSQL Text

apache mysql-3306上的“数据包出现故障”

Hibernate JPA，MySQL和TinyInt（1）用于布尔值而不是bit或char

分类汇总

您的鼓励是对我最大的支持