python爬虫基础

您所在的位置:网站首页 虚拟设备app python爬虫基础

python爬虫基础

2023-08-12 17:19| 来源: 网络整理| 查看: 265

           好久不见,我的各位读者,好久没更新文章了,大家等急了吧,好了,今天我们学习一点厉害的,也是我当初一直念念不忘的----python爬虫。

           讲到爬虫,大家就可以联想到各种网站数据,大家注意,爬虫一定要小心爬。好了,废话不多说了,我们开始学习。

urllib模块的安装和使用 1.模块的安装

windows可以使用下列命令进行安装

pip install urllib 2.模块的使用

urlopen函数的使用

from urllib import request #导入模块 url = 'https://baidu.com' req = request.urlopen(url) #使用urlopen访问网页 print(req.read().decode('utf8')) #打印网页源代码

Request函数的使用

               现在不是所有的网站都可以使用上面那种方法来获取网页源代码,下面讲的这个可以通过设置请求头来绕过服务器的识别。

from urllib import request url = 'http://www.qiushibaike.com' req = request.Request(url, headers={ 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:35.0) Gecko/20100101 Firefox/35.0' }) res = request.urlopen(req) print(res.read().decode('utf8'))

   3.bulid_opener函数

from urllib import request import random from urllib.request import build_opener,ProxyHandler # User_Agent列表 user_agent_list = [ "Mozilla/5.0(Macintosh;IntelMacOSX10.6;rv:2.0.1)Gecko/20100101Firefox/4.0.1", "Mozilla/4.0(compatible;MSIE6.0;WindowsNT5.1)", "Opera/9.80(WindowsNT6.1;U;en)Presto/2.8.131Version/11.11", "Mozilla/5.0(Macintosh;IntelMacOSX10_7_0)AppleWebKit/535.11(KHTML,likeGecko)Chrome/17.0.963.56Safari/535.11", "Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1)", "Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1;Trident/4.0;SE2.XMetaSr1.0;SE2.XMetaSr1.0;.NETCLR2.0.50727;SE2.XMetaSr1.0)" ] # 产生一个随机User-Agent headers ={ # 从上面列表中随机取出一个 # random.choice:从一个不为空的课表里面随机取出一个 'User-Agent':random.choice(user_agent_list) } # ip地址列表: ip_list=[ # '209.97.171.128', '114.250.25.19' ] # 产生一个随机ip proxies={ 'http':random.choice(ip_list) } url = 'http://www.qiushibaike.com/' req = request.Request(url,headers=headers) # 创建代理ip对象 print(proxies) pro_supper = ProxyHandler(proxies) # 不能使用urlopen()函数,使用build_opener创建一个对象 opener = build_opener(pro_supper) # 发送请求 res = opener.open(req) result = res.read().decode('utf8') print(result)

   好了,今天先学到这里,以后我们会有更多的东西要学习                                                             



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3