如何在文本文件中控制字符的处理(Python)详解编程语言

   先前在使用Python的时候遇到过遇到文档中出现控制字符报错的问题。

   控制字符（Control Character），或者说非打印字符，出现于特定的信息文本中，表示某一控制功能的字符，如控制符：LF（换行）、CR（回车）、FF（换页）、DEL（删除）、BS（退格)、BEL（振铃）等；通讯专用字符：SOH（文头）、EOT（文尾）、ACK（确认）等。

   具体控制字符一共有下面两个集合：

        1.七位ASCII定义了33个代码作为控制字符，它们是0到31、以及127，（位于0x00-0x1F及0x7F）。

        2.兼容的八位ISO/IEC 8859-1加上了从ISO/IEC 6429定义的从128到159的32个代码，位于0x80-0x9F。

Python解决控制字符的方案：

方案一：

   strip_control_characters = lambda s:””.join(i for i in s if 31<ord(i)<127)

方案二：

   def strip_control_characters(str_input):

        if str_input:

            import itxm

            # unicode invalid characters

            RE_XML_ILLEGAL = u'([/u0000-/u0008/u000b-/u000c/u000e-/u001f/ufffe-/uffff])’ + /

                            u’|’ + /

                            u'([%s-%s][^%s-%s])|([^%s-%s][%s-%s])|([%s-%s]$)|(^[%s-%s])’ % /

                            (unichr(0xd800),unichr(0xdbff),unichr(0xdc00),unichr(0xdfff),

                               unichr(0xd800),unichr(0xdbff),unichr(0xdc00),unichr(0xdfff),

                               unichr(0xd800),unichr(0xdbff),unichr(0xdc00),unichr(0xdfff),

                               )

            str_input = itxm.sub(RE_XML_ILLEGAL, “”, input)

            # ascii control characters

            str_input = itxm.sub(r”[/x01-/x1F/x7F]”, “”, input)

        return str_input

方案三：

   import itxm

   def remove_control_chars(s):

        control_chars = ”.join(map(unichr, range(0,32) + range(127,160)))

        control_char_re = itxm.compile(‘[%s]’ % itxm.escape(control_chars))

        return control_char_re.sub(”, s)

   cleaned_json = remove_control_chars(original_json)

   obj = simplejson.loads(cleaned_json)

转载请注明来源网站:blog.ytso.com谢谢！

原创文章，作者：ItWorker，如若转载，请注明出处：https://blog.ytso.com/14621.html

如何在文本文件中控制字符的处理(Python)详解编程语言

相关推荐

发表回复