Python爬虫

2024-07-10 09:43| 来源: 网络整理| 查看: 265

一、简介

- 爬虫中为什么需要使用代理

　　一些网站会有相应的反爬虫措施，例如很多网站会检测某一段时间某个IP的访问次数，如果访问频率太快以至于看起来不像正常访客，它可能就会禁止这个IP的访问。所以我们需要设置一些代理IP，每隔一段时间换一个代理IP，就算IP被禁止，依然可以换个IP继续爬取。

- 代理的分类：

　　正向代理：代理客户端获取数据。正向代理是为了保护客户端防止被追究责任。

　　反向代理：代理服务器提供数据。反向代理是为了保护服务器或负责负载均衡。

- 免费代理ip提供网站

　　http://www.goubanjia.com/

　　西刺代理

　　快代理

- 匿名度：

　　- 透明：知道是代理ip，也会知道你的真实ip

　　- 匿名：知道是代理ip，不会知道你的真实ip

　　- 高匿：不知道是代理ip，不会知道你的真实ip

- 类型:

　　- http:只能请求http开头的url

　　- https:只能请求https开头的url

示例

import requests headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36' } url = 'https://www.baidu.com/s?wd=ip' # 不同的代理IP,代理ip的类型必须和请求url的协议头保持一致 proxy_list = [ {"http": "112.115.57.20:3128"}, {'http': '121.41.171.223:3128'} ] # 随机获取代理IP proxy = random.choice(proxy_list) page_text = requests.get(url=url,headers=headers,proxies=proxy).text with open('ip.html','w',encoding='utf-8') as fp: fp.write(page_text) print('over!')

二、IP池 1、免费IP池

　　从西刺代理上面爬取IP，迭代测试能否使用，建立一个自己的代理IP池，随时更新用来抓取网站数据

import requests from lxml import etree import time import random from fake_useragent import UserAgent class GetProxyIP(object): def __init__(self): self.url = 'https://www.xicidaili.com/nn/' self.proxies = { 'http': 'http://163.204.247.219:9999', 'https': 'http://163.204.247.219:9999'} # 随机生成User-Agent def get_random_ua(self): ua = UserAgent() # 创建User-Agent对象 useragent = ua.random return useragent # 从西刺代理网站上获取随机的代理IP def get_ip_file(self, url): headers = {'User-Agent': self.get_random_ua()} html = requests.get(url=url, proxies=self.proxies, headers=headers, timeout=5).content.decode('utf-8', 'ignore') parse_html = etree.HTML(html) tr_list = parse_html.xpath('//tr') # 基准xpath，匹配每个代理IP的节点对象列表 for tr in tr_list[1:]: ip = tr.xpath('./td[2]/text()')[0] port = tr.xpath('./td[3]/text()')[0] self.test_proxy_ip(ip, port) # 测试ip:port是否可用 # 测试抓取的代理IP是否可用 def test_proxy_ip(self, ip, port): proxies = { 'http': 'http://{}:{}'.format(ip, port), 'https': 'https://{}:{}'.format(ip, port), } test_url = 'http://www.baidu.com/' try: res = requests.get(url=test_url, proxies=proxies, timeout=8) if res.status_code == 200: print(ip, ":", port, 'Success') with open('proxies.txt', 'a') as f: f.write(ip + ':' + port + '\n') except Exception as e: print(ip, port, 'Failed') def main(self): for i in range(1, 1001): url = self.url.format(i) self.get_ip_file(url) time.sleep(random.randint(5, 10)) if __name__ == '__main__': spider = GetProxyIP() spider.main()

从IP池中取IP，也就是在爬虫程序中从文件随机获取代理IP

import random import requests class BaiduSpider(object): def __init__(self): self.url = 'http://www.baidu.com/' self.headers = {'User-Agent': 'Mozilla/5.0'} self.flag = 1 def get_proxies(self): with open('proxies.txt', 'r') as f: result = f.readlines() # 读取所有行并返回列表 proxy_ip = random.choice(result)[:-1] # 获取了所有代理IP L = proxy_ip.split(':') proxy_ip = { 'http': 'http://{}:{}'.format(L[0], L[1]), 'https': 'https://{}:{}'.format(L[0], L[1]) } return proxy_ip def get_html(self): proxies = self.get_proxies() if self.flag

【本文地址】

Python爬虫

Python爬虫

今日新闻

推荐新闻