Python爬虫 |
您所在的位置:网站首页 › 书单空白模板无水印 › Python爬虫 |
Python爬虫-requests库抓取页面内容中文乱码
在抓取页面内容过程中,获取的页面内容中文乱码; response = requests.get(url, headers=headers) if response.status_code == 200: return response.text else: return -1乱码内容如下: 将天天基金网设为上网首页å—?;;;;;;å°†å¤©å¤©åŸºé‡‘ç½‘æ·»åŠ åˆ°æ”¶è—夹å—? å ³äºŽæˆ‘ä»¬|资质è¯æ˜Ž|ç ”ç©¶ä¸å¿ƒ|è”系我们|å®‰å ¨æŒ‡å¼•|å è´£æ¡æ¬¾|éšç§æ¡æ¬¾|风险æ示函|æ„è§å»ºè®®|åœ¨çº¿å®¢æœ å¤©å¤©åŸºé‡‘å®¢æœçƒçº¿ï¼š95021;/;4001818188|客æœé‚®ç®±ï¼š[email protected]|人工æœåŠ¡æ—¶é—´ï¼šå·¥ä½œæ—¥ 7:30-21:30 åŒä¼‘æ—¥ 9:00-21:30 郑é‡å£°æ˜Žï¼šå¤©å¤©åŸºé‡‘ç³»è¯ç›‘会批准的基金销售机构[000000303]ã€‚å¤©å¤©åŸºé‡‘ç½‘æ‰€è½½æ–‡ç« ã€æ•°æ®ä» ä¾›å‚考,使用å‰è¯·æ ¸å®žï¼Œé£Žé™©è‡ªè´Ÿã€‚ ä¸å›½è¯ç›‘会上海监管局网å€ï¼šwww.csrc.gov.cn/pub/shanghai 沪ICPè¯:沪B2-20130026;;网站备案å·:沪ICP备05006054å·;æ²ªå ¬ç½‘å®‰å¤‡ 31010402000118;版æƒæ‰€æœ‰:天天基金网;è¿æ³•å’Œä¸è‰¯ä¿¡æ¯ä¸¾æŠ¥:021-54509966/021-24099099由此可以猜想到,是在获取页面的过程中出现了编码问题,使用: response.text.encode("latin1").decode("utf-8")将获取的内容先进行“latin1”编码,再进行解码(我所抓取网页的编码格式为UTF-8)。最终成功解决,中文显示正常。 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |