当文本分析遇到乱码(ง'⌣')ง |
您所在的位置:网站首页 › 女士单肩包性价比高的品牌有哪些图片 › 当文本分析遇到乱码(ง'⌣')ง |
【公众号:大邓和他的python】 做文本分析经常遇到数据乱码问题,一般遇到编码问题我们无能为力,都是忽略乱码的文本。 text = open(file, errors='ignore').read()但是这样会遗失掉一些信息,那到底怎么治文本分析时经常为非作歹的妖魔鬼怪? 心里默念python大法好!ftfy(fixes text for you)可以为我们整理的乱码数据。 安装!pip3 install ftfy==5.6乱码(ง'⌣')ง例子只我在官方文档上找到这些奇形怪状的字符串,相信大家可能有的也见过这些数据。 (ง'⌣')ง ünicode Broken text… it’s flubberific! HTML entities ;3 ¯\\_(ã\x83\x84)_/¯ \ufeffParty like\nit’s 1999! LOUD NOISES This — should be an em dash This text was never UTF-8 at all\x85 \033[36;44mI'm blue, da ba dee da ba doo...\033[0m \u201chere\u2019s a test\u201d This string is made of two things:\u2029 1. Unicode\u2028 2. Spiteftfy.fix_text:专治各种不符使用ftfy中的fix_text函数可以制伏绝大多数(ง'⌣')à from ftfy import fix_text fix_text("(ง'⌣')ง")"(ง'⌣')ง"fix_text('ünicode')'ünicode'fix_text('Broken text… it’s flubberific!')"Broken text… it's flubberific!"fix_text('HTML entities ;3')'HTML entities |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |