Python爬虫入门（爬取豆瓣电影信息小结）

您所在的位置：网站首页 › 网络爬虫爬取豆瓣 › Python爬虫入门（爬取豆瓣电影信息小结）

Python爬虫入门（爬取豆瓣电影信息小结）

#Python爬虫入门（爬取豆瓣电影信息小结）| 来源: 网络整理| 查看: 265

1、爬虫概念网络爬虫，是一种按照一定规则，自动抓取互联网信息的程序或脚本。爬虫的本质是模拟浏览器打开网页，获取网页中我们想要的那部分数据。

2、基本流程（本次主要针对html文件）具体描述可参考：爬虫基本原理（引用）

3、网页结构了解（重要）由于爬虫的本质是模拟浏览器打开网页，所以我们需要了解HTTP 的操作过程。 HTTP即超文本传输协议。HTTP协议是用于从网络传输超文本数据到本地浏览器的传送协议，它能保证高效而准确地传送超文本文档。HTTPS是以安全为目标的HTTP通道，简单讲是HTTP的安全版，即HTTP下加入SSL层，简称为HTTPS。当准备爬取某网页时需通过按f12进入开发者模式，观察网页源代码（Elements中）以及浏览器和服务器端互相通信的信息（Network中）。如以下图片所示：在这里插入图片描述 user-agent反映用户浏览器版本和操作系统，cookie存储用户加密信息，如果想爬取用户登录后的网页信息需要用到cookie。总之，需要注意Response Headers和Request Headers即响应头和请求头内的信息。还需注意请求方法get与post的区别与应用场景。

其中具体信息可参考Http基本原理（引用）

4、具体代码

方法名功能askURL(url)得到指定一个URL的网页内容（返回值为html即一张网页源码）getData(baseurl)爬取所有网页并逐一解析数据（返回值为一个列表，每一项为一部电影信息）saveData(datalist,savepath)以xls文件的方式保存爬取的数据init_db(dbpath)利用sqlite3 库创建数据表saveData2DB(datalist,dbpath)在数据库中插入数据main()调用主函数 from bs4 import BeautifulSoup #网页解析，获取数据 import re #正则表达式，进行文字匹配 import urllib.request,urllib.error #制定URL,获取网页数据 import xlwt #进行excel操作 import sqlite3 #进行SQLite数据库操作 def main(): baseurl="https://movie.douban.com/top250?start=" #1、爬取网页 datalist=getData(baseurl) #savepath=".\\豆瓣电影Top250.xls" dbpath="movie.db" #3、保存数据 #saveData(datalist,savepath) saveData2DB(datalist,dbpath) #影片详情的链接的规则 findLink=re.compile(r'') #创建正则表达式对象，表示规则（字符串的模式） #影片图片的链接的规则 findImgSrc=re.compile(r'

【本文地址】

Python爬虫入门（爬取豆瓣电影信息小结）

Python爬虫入门（爬取豆瓣电影信息小结）

今日新闻

推荐新闻