python爬虫(简易网页采集器)

您所在的位置:网站首页 Python做网站整站采集器官网 python爬虫(简易网页采集器)

python爬虫(简易网页采集器)

#python爬虫(简易网页采集器)| 来源: 网络整理| 查看: 265

爬虫基本流程: 1、指定URL 2、基于requests模块发起请求 3、获取响应对象中的数据值 4、持久化存储

关于爬虫的君子协议:robots.txt 在网站名后加/robots.txt查看可以爬取的信息 如淘宝网站: 在这里插入图片描述 User-Agent(请求载体的身份标识) 打开浏览器,按F12出现抓包工具 如图: 在这里插入图片描述 可以使用此User-Agent,图示为使用QQ浏览器的身份标识 (其中XHR中有Ajax请求) 最终结果: 在这里插入图片描述 在这里插入图片描述 具体代码如下:

import requests #UA检测:门户网站的服务器会检测对应请求的载体身份标识,如果检测到的载体身份标识是某一款浏览器, #说明该请求是一个正常的请求,但是,如果请求到的载体身份标识不是某一款浏览器, #则表示该请求不是一个正常请求(爬虫),则服务器就很有可能拒绝该次请求 #UA:User-Agent(请求载体得身份标识) #UA伪装:让爬虫对应的请求的载体身份标识伪装成一款浏览器 #UA伪装 将对应的User-Agent封装到一个字典中 headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3741.400 QQBrowser/10.5.3863.400' } #step1 指定URL url = 'https://www.sogou.com/web?'#这个问号保留也可不保留也可 #处理url携带的参数(封装到字典中) kw = input("entry a word:") param={ 'query':kw } #step2 基于requests模块发起请求 #对指定的的url发起的请求对应的url是携带参数的,并且请求过程中处理了参数 response = requests.get(url=url,params=param,headers=headers) #step3 获取响应对象的数据值 Page_txt = response.text #step4 持久化存储 fileName = kw+'.html' with open(fileName,'w',encoding='utf-8')as fp: fp.write(Page_txt) print(fileName,"保存成功!")


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3