在C ++中有效读取非常大的文本文件

我将对其进行重新设计以充当流式传输，而不是在一个块上。

一个更简单的方法是：

std::ifstream ifs("input.txt");
std::vector<uint64_t> parsed(std::istream_iterator<uint64_t>(ifs), {});

如果您大致知道期望多少个值，那么预先使用std::vector::reserve它可以进一步加快速度。

另外，您可以使用内存映射文件并遍历字符序列。

我修改了上面的程序以将uint32_ts 解析为向量。

使用4.5GiB 的样本输入文件时，程序将在9秒内运行：

sehe@desktop:/tmp$ make -B && sudo chrt -f 99 /usr/bin/time -f "%E elapsed, %c context switches" ./test smaller.txt
g++ -std=c++0x -Wall -pedantic -g -O2 -march=native test.cpp -o test -lboost_system -lboost_iostreams -ltcmalloc
parse success
trailing unparsed: '
'
data.size():   402653184
0:08.96 elapsed, 6 context switches

当然，它至少分配402653184 * 4 字节= 1.5吉字节。因此，当您读取一个45 GB的文件时，您将需要大约15GiB的RAM来存储矢量（假设重新分配时没有碎片）： 45GiB解析在45分钟内完成10分钟* ：

make && sudo chrt -f 99 /usr/bin/time -f "%E elapsed, %c context switches" ./test 45gib_uint32s.txt 
make: Nothing to be done for `all'.
tcmalloc: large alloc 17570324480 bytes == 0x2cb6000 @  0x7ffe6b81dd9c 0x7ffe6b83dae9 0x401320 0x7ffe6af4cec5 0x40176f (nil)
Parse success
Trailing unparsed: 1 characters
Data.size():   4026531840
Time taken by parsing: 644.64s
10:45.96 elapsed, 42 context switches

相比之下，仅运行wc -l 45gib_uint32s.txt就花费了大约12分钟（尽管没有实时优先级调度）。wc是

其他 2022/1/1 18:22:29 有510人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

如何在C＃/。NET中查找本地计算机的FQDN？

如何在C＃/。NET中查找本地计算机的FQDN？

c# 2022-01-01 1109
缩放什么错误：1; 在CSS中修复？

缩放什么错误：1; 在CSS中修复？

CSS 2022-01-01 808
身体和*在CSS之间的区别

身体和*在CSS之间的区别

CSS 2022-01-01 891
在C＃中获取两个数组之间的“差异”？

在C＃中获取两个数组之间的“差异”？

c# 2022-01-01 865
[N…M]在C聚合初始化程序中是什么意思？

[N…M]在C聚合初始化程序中是什么意思？

其他 2022-01-01 1199
如何在C＃中使属性受保护并在内部使用？

如何在C＃中使属性受保护并在内部使用？

c# 2022-01-01 840
如何在C＃中克隆通用列表？

如何在C＃中克隆通用列表？

c# 2022-01-01 791
如何在CentOS 6.2上安装PHP mbstring

如何在CentOS 6.2上安装PHP mbstring

php 2022-01-01 776
如何以编程方式在C / C ++中引起核心转储

如何以编程方式在C / C ++中引起核心转储

其他 2022-01-01 833
我应该在CSS中使用px或rem值单位吗？

我应该在CSS中使用px或rem值单位吗？

CSS 2022-01-01 860
列表项的CSS多列布局在Chrome中无法正确对齐

列表项的CSS多列布局在Chrome中无法正确对齐

CSS 2022-01-01 973
在Codeigniter中将WHERE子句分组

在Codeigniter中将WHERE子句分组

其他 2022-01-01 741
如何在C＃Windows应用程序的表单之间传递值？

如何在C＃Windows应用程序的表单之间传递值？

c# 2022-01-01 763
如何在C＃中下载HTML源代码

如何在C＃中下载HTML源代码

c# 2022-01-01 763
如何在CSS变量（又称为自定义属性）中存储继承值？

如何在CSS变量（又称为自定义属性）中存储继承值？

CSS 2022-01-01 899
为什么我不能在C＃中使用抽象静态方法？

为什么我不能在C＃中使用抽象静态方法？

c# 2022-01-01 873
在capybara中选择具有多个类的元素

在capybara中选择具有多个类的元素

其他 2022-01-01 880
如何在运行时查看我的程序在C中的内存布局？

如何在运行时查看我的程序在C中的内存布局？

其他 2022-01-01 813
在C＃TabControl上隐藏标签页眉

在C＃TabControl上隐藏标签页眉

c# 2022-01-01 897
Treegrid 9.3.11未在Chrome 61中加载

Treegrid 9.3.11未在Chrome 61中加载

其他 2022-01-01 886

在C ++中有效读取非常大的文本文件

撰写回答

推荐问题

如何在C＃/。NET中查找本地计算机的FQDN？

缩放什么错误：1; 在CSS中修复？

身体和*在CSS之间的区别

在C＃中获取两个数组之间的“差异”？

[N…M]在C聚合初始化程序中是什么意思？

如何在C＃中使属性受保护并在内部使用？

如何在C＃中克隆通用列表？

如何在CentOS 6.2上安装PHP mbstring

如何以编程方式在C / C ++中引起核心转储

我应该在CSS中使用px或rem值单位吗？

列表项的CSS多列布局在Chrome中无法正确对齐

在Codeigniter中将WHERE子句分组

如何在C＃Windows应用程序的表单之间传递值？

如何在C＃中下载HTML源代码

如何在CSS变量（又称为自定义属性）中存储继承值？

为什么我不能在C＃中使用抽象静态方法？

在capybara中选择具有多个类的元素

如何在运行时查看我的程序在C中的内存布局？

在C＃TabControl上隐藏标签页眉

Treegrid 9.3.11未在Chrome 61中加载

分类汇总

您的鼓励是对我最大的支持