从python中的字符串中剥离不可打印的字符

不幸的是，在Python中遍历字符串相当慢。对于这种事情，正则表达式的速度要快一个数量级。您只需要自己构建角色类即可。该 unicodedata 模块是这个相当有帮助，尤其是 unicodedata.category（） 函数。有关类别的说明，请参见Unicode字符数据库。

import unicodedata, re, itertools, sys

all_chars = (chr(i) for i in range(sys.maxunicode))
categories = {'Cc'}
control_chars = ''.join(c for c in all_chars if unicodedata.category(c) in categories)
# or equivalently and much more efficiently
control_chars = ''.join(map(chr, itertools.chain(range(0x00,0x20), range(0x7f,0xa0))))

control_char_re = re.compile('[%s]' % re.escape(control_chars))

def remove_control_chars(s):
    return control_char_re.sub('', s)

对于Python2

import unicodedata, re, sys

all_chars = (unichr(i) for i in xrange(sys.maxunicode))
categories = {'Cc'}
control_chars = ''.join(c for c in all_chars if unicodedata.category(c) in categories)
# or equivalently and much more efficiently
control_chars = ''.join(map(unichr, range(0x00,0x20) + range(0x7f,0xa0)))

control_char_re = re.compile('[%s]' % re.escape(control_chars))

def remove_control_chars(s):
    return control_char_re.sub('', s)

对于某些用例，最好使用其他类别（例如，来自控制组的所有类别），尽管这可能会减慢处理时间并显着增加内存使用。每个类别的字符数：

从注释中添加建议。

python 2022/1/1 18:39:36 有389人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

从Python访问errno？

从Python访问errno？

python 2022-01-01 1049
从Python字符串中删除不在允许列表中的HTML标签

从Python字符串中删除不在允许列表中的HTML标签

python 2022-01-01 1074
从python读取json文件

从python读取json文件

python 2022-01-01 958
为什么从Promise`.then`中进行回调是一种反模式

为什么从Promise`.then`中进行回调是一种反模式

其他 2022-01-01 821
从PostgreSQL数据库到Elasticsearch snyc /导入表的正确方法是什么？

从PostgreSQL数据库到Elasticsearch snyc /导入表的正确方法是什么？

SQLServer 2022-01-01 941
自动从PHP代码中删除注释的最佳方法

自动从PHP代码中删除注释的最佳方法

php 2022-01-01 818
为什么从PHP 5.4开始永久启用“ echo”短标签？

为什么从PHP 5.4开始永久启用“ echo”短标签？

php 2022-01-01 861
如何将变量和数据从PHP传递到JavaScript？

如何将变量和数据从PHP传递到JavaScript？

php 2022-01-01 732
如何从PHP中的XML文件获取属性的值？

如何从PHP中的XML文件获取属性的值？

php 2022-01-01 738
如何从Perl CGI程序发送JSON响应？

如何从Perl CGI程序发送JSON响应？

其他 2022-01-01 793
如何从PHP文本中删除空白行？

如何从PHP文本中删除空白行？

php 2022-01-01 809
从POST获取复选框数组值

从POST获取复选框数组值

其他 2022-01-01 804
从print_r输出重新创建原始PHP数组

从print_r输出重新创建原始PHP数组

php 2022-01-01 815
尝试使用Spring Boot REST从POST读取JSON字符串

尝试使用Spring Boot REST从POST读取JSON字符串

Java 2022-01-01 823
如何从Postman Rest Client发送Spring CSRF令牌？

如何从Postman Rest Client发送Spring CSRF令牌？

Java 2022-01-01 798
LOAD DATA LOCAL INFILE失败-从php到mysql（在Amazon rds上）

LOAD DATA LOCAL INFILE失败-从php到mysql（在Amazon rds上）

php 2022-01-01 874
从PHP运行返回错误。AJAX？

从PHP运行返回错误。AJAX？

php 2022-01-01 782
如何从python mysql查询中转义％

如何从python mysql查询中转义％

MySQL 2022-01-01 789
从PHP中的小数中删除无用的零数字

从PHP中的小数中删除无用的零数字

php 2022-01-01 839
如何从PHP脚本发送500 Internal Server Error错误

如何从PHP脚本发送500 Internal Server Error错误

php 2022-01-01 607

从python中的字符串中剥离不可打印的字符

撰写回答

推荐问题

从Python访问errno？

从Python字符串中删除不在允许列表中的HTML标签

从python读取json文件

为什么从Promise`.then`中进行回调是一种反模式

从PostgreSQL数据库到Elasticsearch snyc /导入表的正确方法是什么？

自动从PHP代码中删除注释的最佳方法

为什么从PHP 5.4开始永久启用“ echo”短标签？

如何将变量和数据从PHP传递到JavaScript？

如何从PHP中的XML文件获取属性的值？

如何从Perl CGI程序发送JSON响应？

如何从PHP文本中删除空白行？

从POST获取复选框数组值

从print_r输出重新创建原始PHP数组

尝试使用Spring Boot REST从POST读取JSON字符串

如何从Postman Rest Client发送Spring CSRF令牌？

LOAD DATA LOCAL INFILE失败-从php到mysql（在Amazon rds上）

从PHP运行返回错误。AJAX？

如何从python mysql查询中转义％

从PHP中的小数中删除无用的零数字

如何从PHP脚本发送500 Internal Server Error错误

分类汇总

您的鼓励是对我最大的支持