当文本分析遇到乱码(ง'⌣')ง

您所在的位置:网站首页 女士单肩包性价比高的品牌有哪些图片 当文本分析遇到乱码(ง'⌣')ง

当文本分析遇到乱码(ง'⌣')ง

2023-03-28 06:02| 来源: 网络整理| 查看: 265

【公众号:大邓和他的python】

做文本分析经常遇到数据乱码问题,一般遇到编码问题我们无能为力,都是忽略乱码的文本。

text = open(file, errors='ignore').read()

但是这样会遗失掉一些信息,那到底怎么治文本分析时经常为非作歹的妖魔鬼怪?

心里默念python大法好!ftfy(fixes text for you)可以为我们整理的乱码数据。

安装!pip3 install ftfy==5.6

乱码(ง'⌣')ง例子

只我在官方文档上找到这些奇形怪状的字符串,相信大家可能有的也见过这些数据。

(ง'⌣')ง ünicode Broken text… it’s flubberific! HTML entities ;3 ¯\\_(ã\x83\x84)_/¯ \ufeffParty like\nit’s 1999! LOUD NOISES This — should be an em dash This text was never UTF-8 at all\x85 \033[36;44mI'm blue, da ba dee da ba doo...\033[0m \u201chere\u2019s a test\u201d This string is made of two things:\u2029 1. Unicode\u2028 2. Spite

ftfy.fix_text:专治各种不符

使用ftfy中的fix_text函数可以制伏绝大多数(ง'⌣')à

from ftfy import fix_text fix_text("(ง'⌣')ง")

"(ง'⌣')ง"

fix_text('ünicode')

'ünicode'

fix_text('Broken text… it’s flubberific!')

"Broken text… it's flubberific!"

fix_text('HTML entities ;3')

'HTML entities


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3