利用xpath爬取贴吧时返回的列表为空的问题解决方法

您所在的位置:网站首页 爬虫返回的数据为空 利用xpath爬取贴吧时返回的列表为空的问题解决方法

利用xpath爬取贴吧时返回的列表为空的问题解决方法

2024-07-13 21:19| 来源: 网络整理| 查看: 265

最近在爬取贴吧过程中发现一个小问题,就是爬取好网页HTML信息后,进一步利用xpath爬取站内需要的链接时,返回结果一直是空列表,代码检查了4、5遍一点问题都没有,但就是返回空列表 class Spider(object): def extract_url(self,html): content=etree.HTML(html) result=content.xpath('//div[@class="threadlist_title pull_left j_th_tit "]//a[@rel="noreferrer"]/@href') print(result)

返回情况如下:

头都大了!!!

然后xpath爬取贴吧里的开头和结尾的一些内容发现都可以成功爬去到,才发现应该是HTML页面的问题导致没办法正常爬取数据。然后试着建了个HTML文档,把取到的HTML页面的源代码保存到里边一看…………

准备爬取的数据全是被注释了的……

知道问题后就好解决了,利用正则把源代码里的注释符修改,起不到注释的作用就好了

class Spider(object): def extract_url(self,html): html_new=html.replace(r'','"') content=etree.HTML(html_new) result=content.xpath('//div[@class="threadlist_title pull_left j_th_tit "]//a[@rel="noreferrer"]/@href') print(result)

数据到手,之后愿意怎么发挥就怎么发挥就好了



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3