Python爬虫数据提取方式

您所在的位置：网站首页 › 安装pyquery库 › Python爬虫数据提取方式

Python爬虫数据提取方式

2023-08-17 05:26| 来源: 网络整理| 查看: 265

cssselector：和xpath是使用比较多的两种数据提取方式。cssselector是css样式选择器实现的！scrapy爬虫框架：支持xpath/csspyspider爬虫框架：支持PyQuery，也是通过css样式选择器实现的

HTML代码示例：

html = """ 哈哈 Two Three Four 百度一下

第一段

第2段

第3段

第4段大师傅大师傅！！

第5段

第6段

""" 安装： pip install cssselector 首先导入： import cssselect from lxml.html import etree 将HTML解析成为对象： #同xpath一样使用etree html_obj = etree.HTML(html) 开始查找元素：

获取文本内容

span = html_obj.cssselect('.list > .four')[0] print(span.text)

获取属性值：

span = html_obj.cssselect('.list > .four')[0] #help(对象):可以显示对对象的所有操作 print(help(span)) # 获取属性：是一个字典 print(span.attrib['class']) 输出结果：four four1 four2 four3

其他的部分参考博客（CSS选择器——cssSelector定位方式详解）：点击打开链接

PyQuery查找元素：点击打开链接

【本文地址】

Python爬虫数据提取方式

Python爬虫数据提取方式

今日新闻

推荐新闻