大文件中的Python随机N行（无重复行）

只有一种方法可以避免顺序读取所有文件，直到采样的最后一行-令我惊讶的是，到目前为止，没有答案提到它：

如您所说，如果您具有典型的行长，则必须在文件内的任意位置读取一些字节，该值应为该值的3或4倍。然后，将在新行字符（“ \ n”）上读取的块拆分，并选择第二个字段-这是随机位置的行。

另外，为了能够始终如一地搜索文件，应以“二进制读取”模式打开文件，因此，应手动处理行尾标记的转换。

该技术无法为您提供已读取的行号，因此您将选定的行偏移量保留在文件中以避免重复：

#! /usr/bin/python
# coding: utf-8

import random, os


CHUNK_SIZE = 1000
PATH = "/var/log/cron"

def pick_next_random_line(file, offset):
    file.seek(offset)
    chunk = file.read(CHUNK_SIZE)
    lines = chunk.split(os.linesep)
    # Make some provision in case yIoU had not read at least one full line here
    line_offset = offset + len(os.linesep) + chunk.find(os.linesep) 
    return line_offset, lines[1]

def get_n_random_lines(path, n=5):
    lenght = os.stat(path).st_size
    results = []
    result_offsets = set()
    with open(path) as input:
        for x in range(n):
            while True:
                offset, line = pick_next_random_line(input, random.randint(0, lenght - CHUNK_SIZE))
                if not offset in result_offsets:
                    result_offsets.add(offset)
                    results.append(line)
                    break
    return results

if __name__ == "__main__":
    print get_n_random_lines(PATH)

python 2022/1/1 18:46:48 有574人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

读取Java中的大文件

读取Java中的大文件

java 2022-01-01 924
堆空间中的缓冲响应会导致大文件出现问题

堆空间中的缓冲响应会导致大文件出现问题

其他 2022-01-01 650
Java读取具有7000万行文本的大文本文件

Java读取具有7000万行文本的大文本文件

java 2022-01-01 558
XX：+ HeapDumpOnOutOfMemoryError最大文件大小限制

XX：+ HeapDumpOnOutOfMemoryError最大文件大小限制

其他 2022-01-01 714
从大文件读取JSON对象

从大文件读取JSON对象

其他 2022-01-01 524
Spring Boot中两个控制器的最大文件大小不同

Spring Boot中两个控制器的最大文件大小不同

Java 2022-01-01 492
使用node.js下载大文件，避免占用大量内存

使用node.js下载大文件，避免占用大量内存

Node 2022-01-01 497
大文件上的filereader API

大文件上的filereader API

其他 2022-01-01 462
使用curl下载大文件

使用curl下载大文件

其他 2022-01-01 453
使用REST模板Java Spring MVC从服务器下载大文件

使用REST模板Java Spring MVC从服务器下载大文件

java 2022-01-01 552
快速计算大文件的MD5校验和

快速计算大文件的MD5校验和

其他 2022-01-01 442
写入大文件时，FileOutputStream.close确实很慢

写入大文件时，FileOutputStream.close确实很慢

其他 2022-01-01 616
在Django中提供大文件（高负载）

在Django中提供大文件（高负载）

Go 2022-01-01 479
获取大于10GB的超大文本文件的最后10行

获取大于10GB的超大文本文件的最后10行

其他 2022-01-01 513
Python中读取大文件的简单方法？

Python中读取大文件的简单方法？

python 2022-01-01 484
如何使用公钥在openssl中加密大文件

如何使用公钥在openssl中加密大文件

其他 2022-01-01 517
Python-如何跳至巨大文本文件中的特定行？

Python-如何跳至巨大文本文件中的特定行？

python 2022-01-01 507
通过Zuul上传大文件

通过Zuul上传大文件

其他 2022-01-01 482
使用请求在python中下载大文件

使用请求在python中下载大文件

python 2022-01-01 493
在Java Servlet中流式传输大文件

在Java Servlet中流式传输大文件

java 2022-01-01 529

大文件中的Python随机N行（无重复行）

撰写回答

推荐问题

读取Java中的大文件

堆空间中的缓冲响应会导致大文件出现问题

Java读取具有7000万行文本的大文本文件

XX：+ HeapDumpOnOutOfMemoryError最大文件大小限制

从大文件读取JSON对象

Spring Boot中两个控制器的最大文件大小不同

使用node.js下载大文件，避免占用大量内存

大文件上的filereader API

使用curl下载大文件

使用REST模板Java Spring MVC从服务器下载大文件

快速计算大文件的MD5校验和

写入大文件时，FileOutputStream.close确实很慢

在Django中提供大文件（高负载）

获取大于10GB的超大文本文件的最后10行

Python中读取大文件的简单方法？

如何使用公钥在openssl中加密大文件

Python-如何跳至巨大文本文件中的特定行？

通过Zuul上传大文件

使用请求在python中下载大文件

在Java Servlet中流式传输大文件

分类汇总

您的鼓励是对我最大的支持