re.finditer
使用相当少的内存开销的可能性很大。
def split_iter(string):
return (x.group(0) for x in re.finditer(r"[A-Za-z']+", string))
演示:
>>> list( split_iter("A programmer's RegEx test.") )
['A', "programmer's", 'RegEx', 'test']
我刚刚确认,假设我的测试方法正确,这将在python 3.2.1中占用不变的内存。我创建了一个非常大的字符串(大约1GB),然后使用for
循环循环遍历了可迭代对象(没有列表理解,这会产生额外的内存)。这不会导致内存的显着增长(也就是说,如果内存增长,则远远小于1GB字符串)。