需要在python中比较1.5GB左右的超大文件

另一种可能的方式（系统管理员），避免数据库和SQL查询以及运行时进程和硬件资源中的大量要求。

替代1.的是添加一个新字段TIMESTAMP，并在打印出该行后将其删除。

注意：如果1.5GB太大而无法一次整理，请使用电子邮件将其拆分为较小的卡盘。您可以在不同的机器上并行运行这些块

/usr/bin/gawk -F'","' ' { 
    split("JAN FEB MAR APR MAY JUN JUL AUG SEP OCT NOV DEC", month, " "); 
    for (i=1; i<=12; i++) mdigit[month[i]]=i; 
    print $0 "," mktime(substr($4,6,4) " " mdigit[substr($4,3,3)] " " substr($4,1,2) " 00 00 00"
)}' < input.txt |  /usr/bin/sort -k2 -k7 -n -t, > output_file.txt

output_file.txt：

“ DF”，“ 00000000@11111.COM”，“ FLTINT1000130394756”，“ 26JUL2010”，“ B2C”，“ 6799.2”，1280102400“ DF”，“ 0001HARISH@GMAIL.COM”，“ NF252022031180”，“ 09DEC2010”，“ B2C“，” 3439“，1291852800” DF“，” 0001HARISH@GMAIL.COM“，” NF251742087846“，” 12DEC2010“，” B2C“，” 1000“，1292112000” DF“，” 0001HARISH@GMAIL.COM“，” NF251352240086”，“ 22DEC2010”，“ B2C”，“ 4006”，1292976000 …

您将输出通过管道传输到Perl，Python或AWK脚本以处理步骤2至4。

python 2022/1/1 18:45:08 有489人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

为什么需要将匿名函数传递给onClick事件？

为什么需要将匿名函数传递给onClick事件？

其他 2022-01-01 1088
当angular开始销毁时，我们是否需要在指令中取消绑定事件监听器？

当angular开始销毁时，我们是否需要在指令中取消绑定事件监听器？

其他 2022-01-01 815
使用Spring和Hibernate时需要persistence.xml吗？

使用Spring和Hibernate时需要persistence.xml吗？

Java 2022-01-01 720
需要通过CSS在selenium中找到元素

需要通过CSS在selenium中找到元素

CSS 2022-01-01 632
为什么Java内部类需要“最终”外部实例变量？

为什么Java内部类需要“最终”外部实例变量？

java 2022-01-01 731
有什么需要和用途

有什么需要和用途

其他 2022-01-01 723
我需要一个Nodejs调度程序，该调度程序允许以不同的时间间隔执行任务

我需要一个Nodejs调度程序，该调度程序允许以不同的时间间隔执行任务

Node 2022-01-01 719
ES6 Promise.all（）错误句柄-是否需要.settle（）？[重复]

ES6 Promise.all（）错误句柄-是否需要.settle（）？[重复]

其他 2022-01-01 641
为什么XML-Serializable类需要无参数构造函数

为什么XML-Serializable类需要无参数构造函数

其他 2022-01-01 635
Javascript：是否需要为对象中的每个变量都放置this.var？

Javascript：是否需要为对象中的每个变量都放置this.var？

javascript 2022-01-01 668
在Windows上需要node-gyp的npm安装失败

在Windows上需要node-gyp的npm安装失败

Node 2022-01-01 756
为什么在声明浮点数时需要“ f”？

为什么在声明浮点数时需要“ f”？

其他 2022-01-01 632
需要Java代码段输出说明

需要Java代码段输出说明

java 2022-01-01 677
泊坞窗：“ build”需要1个参数。参见'docker build --help'

泊坞窗：“ build”需要1个参数。参见'docker build --help'

其他 2022-01-01 689
为什么“溢出：自动”清除浮动？为何需要透明浮筒？

为什么“溢出：自动”清除浮动？为何需要透明浮筒？

其他 2022-01-01 692
无法将数据（类型接口{}）转换为字符串类型：需要类型断言

无法将数据（类型接口{}）转换为字符串类型：需要类型断言

其他 2022-01-01 572
为什么我们需要为Chrome和IE浏览器而不是Firefox浏览器设置系统属性

为什么我们需要为Chrome和IE浏览器而不是Firefox浏览器设置系统属性

其他 2022-01-01 836
对于中等数据项目，我需要选择哪个分布式数据库

对于中等数据项目，我需要选择哪个分布式数据库

其他 2022-01-01 765
为什么我们需要两次在tomcat logging.properties中编写处理程序？

为什么我们需要两次在tomcat logging.properties中编写处理程序？

其他 2022-01-01 868
Django 1.5版：“ url”需要一个非空的第一个参数。语法在Django 1.5中已更改

Django 1.5版：“ url”需要一个非空的第一个参数。语法在Django 1.5中已更改

Go 2022-01-01 785

需要在python中比较1.5GB左右的超大文件

撰写回答

推荐问题

为什么需要将匿名函数传递给onClick事件？

当angular开始销毁时，我们是否需要在指令中取消绑定事件监听器？

使用Spring和Hibernate时需要persistence.xml吗？

需要通过CSS在selenium中找到元素

为什么Java内部类需要“最终”外部实例变量？

有什么需要和用途

我需要一个Nodejs调度程序，该调度程序允许以不同的时间间隔执行任务

ES6 Promise.all（）错误句柄-是否需要.settle（）？[重复]

为什么XML-Serializable类需要无参数构造函数

Javascript：是否需要为对象中的每个变量都放置this.var？

在Windows上需要node-gyp的npm安装失败

为什么在声明浮点数时需要“ f”？

需要Java代码段输出说明

泊坞窗：“ build”需要1个参数。参见'docker build --help'

为什么“溢出：自动”清除浮动？为何需要透明浮筒？

无法将数据（类型接口{}）转换为字符串类型：需要类型断言

为什么我们需要为Chrome和IE浏览器而不是Firefox浏览器设置系统属性

对于中等数据项目，我需要选择哪个分布式数据库

为什么我们需要两次在tomcat logging.properties中编写处理程序？

Django 1.5版：“ url”需要一个非空的第一个参数。语法在Django 1.5中已更改

分类汇总

您的鼓励是对我最大的支持