当文本分析遇到乱码(à¸‡'âŒ£')à¸‡

您所在的位置：网站首页 › 女士单肩包性价比高的品牌有哪些图片 › 当文本分析遇到乱码(à¸‡'âŒ£')à¸‡

当文本分析遇到乱码(à¸‡'âŒ£')à¸‡

2023-03-28 06:02| 来源: 网络整理| 查看: 265

【公众号：大邓和他的python】

做文本分析经常遇到数据乱码问题，一般遇到编码问题我们无能为力，都是忽略乱码的文本。

text = open(file, errors='ignore').read()

但是这样会遗失掉一些信息，那到底怎么治文本分析时经常为非作歹的妖魔鬼怪？

心里默念python大法好！ftfy（fixes text for you）可以为我们整理的乱码数据。

安装!pip3 install ftfy==5.6

乱码(à¸‡'âŒ£')à¸‡例子

只我在官方文档上找到这些奇形怪状的字符串，相信大家可能有的也见过这些数据。

(à¸‡'âŒ£')à¸‡ uÌˆnicode Broken text… it’s ﬂubberiﬁc! HTML entities ;3 ¯\\_(ã\x83\x84)_/¯ \ufeffParty like\nit’s 1999! ＬＯＵＤ　ＮＯＩＳＥＳ This â€” should be an em dash This text was never UTF-8 at all\x85 \033[36;44mI'm blue, da ba dee da ba doo...\033[0m \u201chere\u2019s a test\u201d This string is made of two things:\u2029 1. Unicode\u2028 2. Spite

ftfy.fix_text：专治各种不符

使用ftfy中的fix_text函数可以制伏绝大多数(à¸‡'âŒ£')à

from ftfy import fix_text fix_text("(à¸‡'âŒ£')à¸‡")

"(ง'⌣')ง"

fix_text('uÌˆnicode')

'ünicode'

fix_text('Broken text… it’s ﬂubberiﬁc!')

"Broken text… it's flubberific!"

fix_text('HTML entities ;3')

'HTML entities

【本文地址】

当文本分析遇到乱码(à¸‡'âŒ£')à¸‡

当文本分析遇到乱码(à¸‡'âŒ£')à¸‡

今日新闻

推荐新闻