百度百科词条爬取

您所在的位置:网站首页 nlp百度百科 百度百科词条爬取

百度百科词条爬取

2023-12-16 11:00| 来源: 网络整理| 查看: 265

前言:为了符合我这个强迫症患者,有了问答界面,没有数据怎么办捏,所已,又写了一个爬虫,爬取百度百科页面 注意:没什么注意的只是百度百科用了异步加载,比较麻烦 异步加载是什么捏,emmmmmmmmmmm就是在我们普通的页面中是可以再源代码中找到网页上显示的超链接,异步加载只不过是没有吧链接放到源代码中,所以普通的方法肯定就不行了,那麽他的链接到底在哪儿捏????? 在这里插入图片描述

可以看到源代码里是没有任何与页面相关的url, 而所有的url和词条信息在另一个网址中 在这里插入图片描述 打开检查,进入网络中可以看到有很多请求 在这里插入图片描述 异步加载的网址在xhr的getlemmas中,异步请求的网址: 在这里插入图片描述 点击网址查看内容,一看实锤 在这里插入图片描述 找到异步数据的url后,就可以发送请求了 但是也不能用普通的get方法注意看,他的请求方式为POST这就需要提交表单,表单的内容在哪儿捏? 下拉可以看到表单数据 在这里插入图片描述 这里解释一下表单中的limit是每一页有多少个词条(一页是24个)tagID是分类如科学百科健康医疗分类的tagId=76625而科学百科航空航天分类的tagId=76572,那page自然就是页数咯 做到了这些还不够,返回的数据是json类型的 在这里插入图片描述 知道了这些就可以构造词条的URL了 分析一下词条的URL由词条名称和ID组成,获取词条名称和ID就可以构造一个完整的URL了 说了这么多,上代码

# -*- coding: UTF-8 -*- import requests from lxml import etree import json import sys import time class Spider: def __init__(self): # 定义请求头 self.UserAgent = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36"} def main(self): index_url = "https://baike.baidu.com/wikitag/taglist?tagId=76613" #从这里开始 post_url = "https://baike.baidu.com/wikitag/api/getlemmas" #异步数据加载的URL params = { "limit": 24, "timeout": 3000, "tagId": 76613, "fromLemma": False, "contentLength": 40, "page": 0 } #异步时需要的请求对象 res = requests.post(post_url, params, headers=self.UserAgent) #POST异步请求数据 jsonObj = res.json() #解析成字典类型 totalpage = jsonObj['totalPage'] #读出来你所有页数 print("=======================\n总页面有"+str(totalpage)+"\n=======================\n") hope=int(input('请输入要下载多少页:'))#希望下载多少页 page = 0#更改起始页面hope+1 while page


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3