查看两个文件在python中是否具有相同的内容

是的，我认为如果必须比较多个文件并存储哈希以供以后比较，则对文件进行哈希处理将是最好的方法。由于哈希可能会发生冲突，因此可能会根据用例进行逐字节比较。

通常，逐字节比较将是足够且高效的，哪个filecmp模块也已经执行了其他操作。

参见 http://docs.python.org/library/filecmp.html 例如

>>> import filecmp
>>> filecmp.cmp('file1.txt', 'file1.txt')
True
>>> filecmp.cmp('file1.txt', 'file2.txt')
False

通常，如果只需要比较两个文件，则对它们进行散列并进行比较会比较慢，而不是简单的逐字节比较（如果有效率的话）。例如，下面的代码尝试对哈希与字节逐时进行计时

免责声明：这不是计时或比较两种算法的最佳方法。需要改进，但确实给出了粗略的想法。如果您认为应该改进它，请告诉我，我将对其进行更改。

import random
import string
import hashlib
import time

def getRandText(N):
    return  "".join([random.choice(string.printable) for i in xrange(N)])

N=1000000
randText1 = getRandText(N)
randText2 = getRandText(N)

def cmpHash(text1, text2):
    hash1 = hashlib.md5()
    hash1.update(text1)
    hash1 = hash1.hexdigest()

    hash2 = hashlib.md5()
    hash2.update(text2)
    hash2 = hash2.hexdigest()

    return  hash1 == hash2

def cmpByteByByte(text1, text2):
    return text1 == text2

for cmpFunc in (cmpHash, cmpByteByByte):
    st = time.time()
    for i in range(10):
        cmpFunc(randText1, randText2)
    print cmpFunc.func_name,time.time()-st

输出是

cmpHash 0.234999895096
cmpByteByByte 0.0

python 2022/1/1 18:35:30 有222人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

查看JavaScript中的所有超时/时间间隔？

查看JavaScript中的所有超时/时间间隔？

javascript 2022-01-01 804
如何在运行时查看我的程序在C中的内存布局？

如何在运行时查看我的程序在C中的内存布局？

其他 2022-01-01 816
无法查看从Eclipse启动Tomcat期间引发的异常

无法查看从Eclipse启动Tomcat期间引发的异常

其他 2022-01-01 762
如何查看Sequelize.js生成的SQL？

如何查看Sequelize.js生成的SQL？

SQLServer 2022-01-01 603
努力查看接口类型的用途

努力查看接口类型的用途

其他 2022-01-01 656
仅在使用Spring Data查看特定项目时才公开某些字段？

仅在使用Spring Data查看特定项目时才公开某些字段？

Java 2022-01-01 746
JMeter：如何从命令行禁用“查看结果树”元素？

JMeter：如何从命令行禁用“查看结果树”元素？

其他 2022-01-01 701
从浏览器中删除地址栏（在Android上查看）

从浏览器中删除地址栏（在Android上查看）

其他 2022-01-01 601
如何在Glassfish下运行的JAX-WS Web服务上查看WSDL？

如何在Glassfish下运行的JAX-WS Web服务上查看WSDL？

其他 2022-01-01 524
如何查看表或列的所有外键？

如何查看表或列的所有外键？

其他 2022-01-01 552
如何在MySQL中查看数据库或表的索引？

如何在MySQL中查看数据库或表的索引？

MySQL 2022-01-01 656
如何生成可在文档查看器中使用的纯文本源代码PDF示例？

如何生成可在文档查看器中使用的纯文本源代码PDF示例？

其他 2022-01-01 619
在Google Cloud上的Docker上查看Tensorboard

在Google Cloud上的Docker上查看Tensorboard

Go 2022-01-01 636
如何查看sql_mode的特定值？

如何查看sql_mode的特定值？

SQLServer 2022-01-01 588
命令行CSV查看器？

命令行CSV查看器？

其他 2022-01-01 636
查看/编辑MP3文件的ID3数据

查看/编辑MP3文件的ID3数据

其他 2022-01-01 579
Laravel-传递多个变量来查看

Laravel-传递多个变量来查看

其他 2022-01-01 618
使用JQ工具实用程序解析或查看JSON数据字段，其中字段名称的键名称中带有“-”破折号

使用JQ工具实用程序解析或查看JSON数据字段，其中字段名称的键名称中带有“-”破折号

其他 2022-01-01 661
查看客户端浏览器是否支持PUT / DELETE方法的编程方式

查看客户端浏览器是否支持PUT / DELETE方法的编程方式

SQL 2022-01-01 573
节点Js：测试以查看文件是否被锁定以供其他进程编辑

节点Js：测试以查看文件是否被锁定以供其他进程编辑

其他 2022-01-01 660

查看两个文件在python中是否具有相同的内容

撰写回答

推荐问题

查看JavaScript中的所有超时/时间间隔？

如何在运行时查看我的程序在C中的内存布局？

无法查看从Eclipse启动Tomcat期间引发的异常

如何查看Sequelize.js生成的SQL？

努力查看接口类型的用途

仅在使用Spring Data查看特定项目时才公开某些字段？

JMeter：如何从命令行禁用“查看结果树”元素？

从浏览器中删除地址栏（在Android上查看）

如何在Glassfish下运行的JAX-WS Web服务上查看WSDL？

如何查看表或列的所有外键？

如何在MySQL中查看数据库或表的索引？

如何生成可在文档查看器中使用的纯文本源代码PDF示例？

在Google Cloud上的Docker上查看Tensorboard

如何查看sql_mode的特定值？

命令行CSV查看器？

查看/编辑MP3文件的ID3数据

Laravel-传递多个变量来查看

使用JQ工具实用程序解析或查看JSON数据字段，其中字段名称的键名称中带有“-”破折号

查看客户端浏览器是否支持PUT / DELETE方法的编程方式

节点Js：测试以查看文件是否被锁定以供其他进程编辑

分类汇总

您的鼓励是对我最大的支持