改善Python中超大型字典的性能

如果我知道键的数量以及这些键的确切含义，python中有什么方法可以使字典（或哈希表）更有效地工作？我隐约记得，如果您知道键，则可以巧妙地设计哈希函数（完美的哈希值？）并预先分配空间。

Python没有公开预定义大小的选项来加快字典的“成长阶段”，也没有提供对字典中“放置”的任何直接控制。

也就是说，如果始终事先知道键，则可以将它们存储在集合中， 并使用dict.fromkeys（） 从该集合构建字典。该类方法已优化为根据设置的大小对字典进行预大小设置，并且可以填充字典而无需任何新的__hash __（）调用：

>>> keys = {'red', 'green', 'blue', 'yellow', 'orange', 'pink', 'black'}
>>> d = dict.fromkeys(keys)  # dict is pre-sized to 32 empty slots

如果要减少冲突是您的目标，则可以对字典中的插入顺序进行实验以最大程度地减少堆积。（看看Knuth的TAOCP中布伦特对算法D的变化，以了解如何完成此操作）。

通过为字典（例如this）使用纯Python模型，可以计算替代插入顺序的探针的加权平均数。例如，dict.fromkeys([11100, 22200,44400, 33300])每次查询平均插入1.75个探针。超过了每次查找的2.25次平均探查dict.fromkeys([33300, 22200,11100, 44400])。

另一个“窍门”是通过愚弄它以增加其大小而不增加新的键s，从而增加完全填充的字典中的空缺：

 d = dict.fromkeys(['red', 'green', 'blue', 'yellow', 'orange'])
 d.update(dict(d))     # This makes room for additional keys
                       # and makes the set collision-free.

最后，您可以为密钥引入自己的自定义__hash __（），以消除所有冲突（可能使用完美的哈希生成器，例如gperf ）。

python 2022/1/1 18:44:46 有422人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

在C＃中对小型代码样本进行基准测试，是否可以改善此实现？

在C＃中对小型代码样本进行基准测试，是否可以改善此实现？

c# 2022-01-01 612
为什么STRAIGHT_JOIN如此大幅度地改善了此查询，并且在SELECT关键字之后编写它意味着什么？

为什么STRAIGHT_JOIN如此大幅度地改善了此查询，并且在SELECT关键字之后编写它意味着什么？

其他 2022-01-01 496
如何改善我的junit测试

如何改善我的junit测试

其他 2022-01-01 340
在Java中将final用于变量会改善垃圾回收吗？

在Java中将final用于变量会改善垃圾回收吗？

java 2022-01-01 685
Python-通过matplotlib中的许多子图来改善子图大小/间距

Python-通过matplotlib中的许多子图来改善子图大小/间距

python 2022-01-01 625
使用Lucene改善多线程索引

使用Lucene改善多线程索引

其他 2022-01-01 403
改善SQL查询以避免合并的另一种方法？

改善SQL查询以避免合并的另一种方法？

SQLServer 2022-01-01 399
改善JBoss 5启动缓慢

改善JBoss 5启动缓慢

其他 2022-01-01 414
通过按回车而不阻塞来退出while循环。如何改善这种方法？

通过按回车而不阻塞来退出while循环。如何改善这种方法？

其他 2022-01-01 677
如何改善此SQL查询？

如何改善此SQL查询？

SQLServer 2022-01-01 530
如何改善此邮寄地址SQL Server SELECT语句？

如何改善此邮寄地址SQL Server SELECT语句？

SQLServer 2022-01-01 375
为什么“ HASH JOIN”或“ LOOP JOIN”会改善此存储过程？

为什么“ HASH JOIN”或“ LOOP JOIN”会改善此存储过程？

其他 2022-01-01 438
改善Pandas DataFrame的行追加性能

改善Pandas DataFrame的行追加性能

其他 2022-01-01 407
改善Python中超大型字典的性能

改善Python中超大型字典的性能

python 2022-01-01 422
如何改善我的CNN？高且恒定的验证错误

如何改善我的CNN？高且恒定的验证错误

其他 2022-01-01 413
SQL-改善NOT EXISTS查询性能

SQL-改善NOT EXISTS查询性能

SQLServer 2022-01-01 366
改善性能的最佳方法（包括故障转移）

改善性能的最佳方法（包括故障转移）

其他 2022-01-01 460
改善查询时间的sql ip查找数据库

改善查询时间的sql ip查找数据库

SQLServer 2022-01-01 419
尝试使用selenium和python登录网页时出错

尝试使用selenium和python登录网页时出错

python 2022-01-01 1022
从Python访问errno？

从Python访问errno？

python 2022-01-01 1048
在服务器上运行selenium浏览器（Flask / Python / Heroku）

在服务器上运行selenium浏览器（Flask / Python / Heroku）

Python 2022-01-01 1262
@OneToOne返回为ManyToOneType

@OneToOne返回为ManyToOneType

dotnet 2022-01-01 1357
服务应用程序和Google Analytics API V3：服务器到服务器的OAuth2身份验证？

服务应用程序和Google Analytics API V3：服务器到服务器的OAuth2身份验证？

Go 2022-01-01 1017
ImportError：没有使用Python2的名为mysql.connector的模块

ImportError：没有使用Python2的名为mysql.connector的模块

MySQL 2022-01-01 1238
Python：无法在网页中使用selenium下载

Python：无法在网页中使用selenium下载

python 2022-01-01 1030
带有Selenium的Python“元素未附加到页面文档中”

带有Selenium的Python“元素未附加到页面文档中”

python 2022-01-01 1039
在Jenkins中设置特定的Python

在Jenkins中设置特定的Python

python 2022-01-01 939
Python：从文件中选择随机行，然后删除该行

Python：从文件中选择随机行，然后删除该行

python 2022-01-01 997
从Python字符串中删除不在允许列表中的HTML标签

从Python字符串中删除不在允许列表中的HTML标签

python 2022-01-01 1071
从python读取json文件

从python读取json文件

python 2022-01-01 957
通过Python3使用Selenium和WebDriver切换选项卡时，“ NoSuchWindowException：没有这样的窗口：窗口已经关闭”

通过Python3使用Selenium和WebDriver切换选项卡时，“ NoSuchWindowException：没有这样的窗口：窗口已经关闭”

python 2022-01-01 1036
pythonselenium多个测试用例

pythonselenium多个测试用例

python 2022-01-01 973
连接所有PostgreSQL表并创建一个Python字典

连接所有PostgreSQL表并创建一个Python字典

SQLServer 2022-01-01 1111
带有selenium的Python：无法找到真正存在的元素

带有selenium的Python：无法找到真正存在的元素

python 2022-01-01 1036
列出用户和组的Python脚本

列出用户和组的Python脚本

python 2022-01-01 963
Hibernate，PostgreSQL：列“ x”是oid类型，但表达式是byte类型

Hibernate，PostgreSQL：列“ x”是oid类型，但表达式是byte类型

SQLServer 2022-01-01 839
Java中的BinaryTree实现

Java中的BinaryTree实现

java 2022-01-01 690
如何确定是否为Selenium + Python加载了某些HTML元素？

如何确定是否为Selenium + Python加载了某些HTML元素？

python 2022-01-01 918

改善Python中超大型字典的性能

撰写回答

推荐问题

分类汇总

您的鼓励是对我最大的支持