Python爬虫数据提取方式

您所在的位置:网站首页 安装pyquery库 Python爬虫数据提取方式

Python爬虫数据提取方式

2023-08-17 05:26| 来源: 网络整理| 查看: 265

cssselector:和xpath是使用比较多的两种数据提取方式。cssselector是css样式选择器实现的!scrapy爬虫框架:支持xpath/csspyspider爬虫框架:支持PyQuery,也是通过css样式选择器实现的

HTML代码示例:

html = """ 哈哈 Two Three Four 百度一下

第一段

第2段

第3段

第4段 大师傅大师傅!!

第5段

第6段

""" 安装: pip install cssselector 首先导入: import cssselect from lxml.html import etree 将HTML解析成为对象: #同xpath一样使用etree html_obj = etree.HTML(html) 开始查找元素:

获取文本内容

span = html_obj.cssselect('.list > .four')[0] print(span.text)

获取属性值:

span = html_obj.cssselect('.list > .four')[0] #help(对象):可以显示对对象的所有操作 print(help(span)) # 获取属性:是一个字典 print(span.attrib['class']) 输出结果:four four1 four2 four3

其他的部分参考博客(CSS选择器——cssSelector定位方式详解):点击打开链接

PyQuery查找元素:点击打开链接



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3