从大型结构化文本文件中提取信息

很好下面是一些建议，如果您喜欢，请告诉我：

import re
import pprint
import sys

class Despacho(object):
    """
    Class to parse each line, applying the regexp and storing the results
    for future use
    """
    #used a dict with the keys instead of functions.
    regexp = {
        ('processo', 
         'data', 
         'despacho'): re.compile(r'No.([\d]{9})  ([\d]{2}/[\d]{2}/[\d]{4})  (.*)'),
        ('titular',): re.compile(r'Tit.(.*)'),
        ('procurador',): re.compile(r'Procurador: (.*)'),
        ('documento',): re.compile(r'C.N.P.J./C.I.C./N INPI :(.*)'),
        ('apresentacao',
         'natureza'): re.compile(r'Apres.: (.*) ; Nat.: (.*)'),
        ('marca',): re.compile(r'Marca: (.*)'),
        ('classe',): re.compile(r'Clas.Prod/Serv: (.*)'),
        ('complemento',): re.compile(r'\*(.*)'),
    }

    def __init__(self):
        """
        'complemento' is the only field that can be multiple in a single registry
        """
        self.complemento = []


    def read(self, line):
        for attrs, pattern in Despacho.regexp.iteritems():
            m = pattern.match(line)
            if m:
                for groupn, attr in enumerate(attrs):
                    # special case complemento:
                    if attr == 'complemento':
                        self.complemento.append(m.group(groupn + 1))
                    else:
                        # set the attribute on the object
                        setattr(self, attr, m.group(groupn + 1))

    def __repr__(self):
        # defines object printed representation
        d = {}
        for attrs in self.regexp:
            for attr in attrs:
                d[attr] = getattr(self, attr, None)
        return pprint.pformat(d)

def process(rpi):
    """
    read data and process each group
    """
    #Useless line, since you're doing a for anyway
    #rpi = (line for line in rpi)
    group = False

    for line in rpi:
        if line.startswith('No.'):
            group = True
            d = Despacho()

        if not line.strip() and group: # empty line - end of block
            yield d
            group = False

        d.read(line)

def main():
    arquivo = open('rm1972.txt') # file to process
    for desp in process(arquivo):
        print desp # can print directly here.
        print('-' * 20)
    return 0

if __name__ == '__main__':
    main()

其他 2022/1/1 18:52:08 有531人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

从大文件读取JSON对象

从大文件读取JSON对象

其他 2022-01-01 522
从大HTML字符串创建jQuery对象

从大HTML字符串创建jQuery对象

JS 2022-01-01 506
从大量的.txt文件及其频率生成Ngram（Unigram，Bigram等）

从大量的.txt文件及其频率生成Ngram（Unigram，Bigram等）

其他 2022-01-01 514
从大pandas中的假人重构分类变量

从大pandas中的假人重构分类变量

其他 2022-01-01 528
在Python中从大文件删除行的最快方法

在Python中从大文件删除行的最快方法

python 2022-01-01 518
从大型未排序数组中删除重复项并保持顺序

从大型未排序数组中删除重复项并保持顺序

其他 2022-01-01 519
从大量条目中实现选择框的最佳方法

从大量条目中实现选择框的最佳方法

其他 2022-01-01 473
从大型文档中提取电子邮件子字符串

从大型文档中提取电子邮件子字符串

其他 2022-01-01 518
从大表中删除列

从大表中删除列

其他 2022-01-01 514
从大表中检索所有记录时，如何避免OOM（内存不足）错误？

从大表中检索所有记录时，如何避免OOM（内存不足）错误？

其他 2022-01-01 395
从大型结构化文本文件中提取信息

从大型结构化文本文件中提取信息

其他 2022-01-01 531
JavaScript如何遍历JSON结构？

JavaScript如何遍历JSON结构？

javascript 2022-01-01 564
在实现Equatable的结构体上进行操作

在实现Equatable的结构体上进行操作

其他 2022-01-01 751
为什么结构字段显示为空？

为什么结构字段显示为空？

其他 2022-01-01 665
mongodb-go-driver / bson结构转换为bson.Document编码

mongodb-go-driver / bson结构转换为bson.Document编码

mongodb 2022-01-01 667
您如何在Go运行时根据其类型创建结构的新实例？

您如何在Go运行时根据其类型创建结构的新实例？

Go 2022-01-01 816
为什么常量要约束结构实例而不是类实例的属性？

为什么常量要约束结构实例而不是类实例的属性？

其他 2022-01-01 672
Java集合（LIFO结构）

Java集合（LIFO结构）

java 2022-01-01 480
Golang：结构切片之间的类型转换

Golang：结构切片之间的类型转换

Go 2022-01-01 622
初始化嵌套结构定义

初始化嵌套结构定义

其他 2022-01-01 579
Eclipse编译错误：“类名”类型的层次结构不一致

Eclipse编译错误：“类名”类型的层次结构不一致

其他 2022-01-01 603
什么是概率数据结构？

什么是概率数据结构？

其他 2022-01-01 598
C＃通过TCP接收结构后反序列化结构

C＃通过TCP接收结构后反序列化结构

c# 2022-01-01 612
Go语言包结构

Go语言包结构

Go 2022-01-01 568
Thymeleaf th：text-在不删除HTML结构的情况下放置文本

Thymeleaf th：text-在不删除HTML结构的情况下放置文本

其他 2022-01-01 767
Linux C：结构的简单且“漂亮”的转储/打印输出（如gdb）-从源代码开始？

Linux C：结构的简单且“漂亮”的转储/打印输出（如gdb）-从源代码开始？

其他 2022-01-01 739
使用mongo-go-driver将结果转换为不带结构的JSON

使用mongo-go-driver将结果转换为不带结构的JSON

mongodb 2022-01-01 772
附加到[String：Any]字典结构中的数组

附加到[String：Any]字典结构中的数组

其他 2022-01-01 565
数据结构线程上的Redis操作是否安全

数据结构线程上的Redis操作是否安全

其他 2022-01-01 442
如何获取数组（或某些数据结构）中的Assets.xcassets文件名？

如何获取数组（或某些数据结构）中的Assets.xcassets文件名？

其他 2022-01-01 449
如何在C＃中将结构转换为字节数组？

如何在C＃中将结构转换为字节数组？

c# 2022-01-01 659

从大型结构化文本文件中提取信息

撰写回答

推荐问题

从大文件读取JSON对象

从大HTML字符串创建jQuery对象

从大量的.txt文件及其频率生成Ngram（Unigram，Bigram等）

从大pandas中的假人重构分类变量

在Python中从大文件删除行的最快方法

从大型未排序数组中删除重复项并保持顺序

从大量条目中实现选择框的最佳方法

从大型文档中提取电子邮件子字符串

从大表中删除列

从大表中检索所有记录时，如何避免OOM（内存不足）错误？

从大型结构化文本文件中提取信息

JavaScript如何遍历JSON结构？

在实现Equatable的结构体上进行操作

为什么结构字段显示为空？

mongodb-go-driver / bson结构转换为bson.Document编码

您如何在Go运行时根据其类型创建结构的新实例？

为什么常量要约束结构实例而不是类实例的属性？

Java集合（LIFO结构）

Golang：结构切片之间的类型转换

初始化嵌套结构定义

Eclipse编译错误：“类名”类型的层次结构不一致

什么是概率数据结构？

C＃通过TCP接收结构后反序列化结构

Go语言包结构

Thymeleaf th：text-在不删除HTML结构的情况下放置文本

Linux C：结构的简单且“漂亮”的转储/打印输出（如gdb）-从源代码开始？

使用mongo-go-driver将结果转换为不带结构的JSON

附加到[String：Any]字典结构中的数组

数据结构线程上的Redis操作是否安全

如何获取数组（或某些数据结构）中的Assets.xcassets文件名？

如何在C＃中将结构转换为字节数组？

分类汇总

您的鼓励是对我最大的支持