基于Python3爬取百度百科内容（可自己输入关键字）

您所在的位置：网站首页 › CoinDesk百度百科 › 基于Python3爬取百度百科内容（可自己输入关键字）

基于Python3爬取百度百科内容（可自己输入关键字）

2024-06-25 23:46| 来源: 网络整理| 查看: 265

毕设新学小知识

最近学习Python爬虫，因为mooc里的北京理工大学嵩天老师就是爬取百度，所以就以百度为例啦~~

一、前期准备

cmd中安装requests、urllib头文件。

直接使用命令

pip install requests pip install urllib

结果提示successful installed前期工作结束

如果提示安装错误，请自行百度。

二、开始写代码 import requests import urllib url1 = 'https://baike.baidu.com/item/' key_word = (input()) lens = len(key_word) key_word = urllib.parse.quote(key_word,encoding = 'utf-8', errors = 'replace') headers = { # 'wd':key_word, # 'Host': 'https://baike.baidu.com/item/', "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36" } html = requests.get(url1+key_word,headers = headers) print(url1+key_word)# 验证链接是否正确 html.encoding = html.apparent_encoding fo = open("F://毕设//1.txt",'wb')# 爬取百度百科的内容保存到本地中 fo.write((html.content)) print("写入文件成功")

注意

key_word = urllib.parse.quote(key_word,encoding = 'utf-8', errors = 'replace')

这行代码的作用及说明参考我的其他文章链接

有一定爬虫基础的朋友应该很容易理解这几行代码。

简单说一下：

1、因为现在爬虫非常多，各个网站也都增加了相应的反爬虫机制，我们就必须在爬取时模拟真人的操

作。在requests.get中加入了请求头（headers），就可以很好的绕过服务器的检查。

2、加上html.encoding = html.apparent_encoding这句话了是为了把页面转化为我们所能理解的方

式。

3、最后含有fo的两行代码就更好理解了，把我们爬取的百科的内容保存在txt文件中，这里我是用了

wb覆盖写入方式。如果不存在1.txt文件，会自己创建一个，避免了不存在这个文件会报错的尴尬局

面。