Python爬虫入门(爬取豆瓣电影信息小结)

您所在的位置:网站首页 网络爬虫爬取豆瓣 Python爬虫入门(爬取豆瓣电影信息小结)

Python爬虫入门(爬取豆瓣电影信息小结)

#Python爬虫入门(爬取豆瓣电影信息小结)| 来源: 网络整理| 查看: 265

Python爬虫入门(爬取豆瓣电影信息小结)

1、爬虫概念 网络爬虫,是一种按照一定规则,自动抓取互联网信息的程序或脚本。爬虫的本质是模拟浏览器打开网页,获取网页中我们想要的那部分数据。

2、基本流程(本次主要针对html文件) 具体描述可参考:爬虫基本原理(引用)

3、网页结构了解(重要) 由于爬虫的本质是模拟浏览器打开网页,所以我们需要了解HTTP 的操作过程。 HTTP即超文本传输协议。HTTP协议是用于从网络传输超文本数据到本地浏览器的传送协议,它能保证高效而准确地传送超文本文档。HTTPS是以安全为目标的HTTP通道,简单讲是HTTP的安全版,即HTTP下加入SSL层,简称为HTTPS。 http协议 当准备爬取某网页时需通过按f12进入开发者模式,观察网页源代码(Elements中)以及浏览器和服务器端互相通信的信息(Network中)。如以下图片所示: 在这里插入图片描述 user-agent反映用户浏览器版本和操作系统,cookie存储用户加密信息,如果想爬取用户登录后的网页信息需要用到cookie。总之,需要注意Response Headers和Request Headers即响应头和请求头内的信息。还需注意请求方法get与post的区别与应用场景。

其中具体信息可参考Http基本原理(引用)

4、具体代码

方法名功能askURL(url)得到指定一个URL的网页内容(返回值为html即一张网页源码)getData(baseurl)爬取所有网页并逐一解析数据(返回值为一个列表,每一项为一部电影信息)saveData(datalist,savepath)以xls文件的方式保存爬取的数据init_db(dbpath)利用sqlite3 库创建数据表saveData2DB(datalist,dbpath)在数据库中插入数据main()调用主函数 from bs4 import BeautifulSoup #网页解析,获取数据 import re #正则表达式,进行文字匹配 import urllib.request,urllib.error #制定URL,获取网页数据 import xlwt #进行excel操作 import sqlite3 #进行SQLite数据库操作 def main(): baseurl="https://movie.douban.com/top250?start=" #1、爬取网页 datalist=getData(baseurl) #savepath=".\\豆瓣电影Top250.xls" dbpath="movie.db" #3、保存数据 #saveData(datalist,savepath) saveData2DB(datalist,dbpath) #影片详情的链接的规则 findLink=re.compile(r'') #创建正则表达式对象,表示规则(字符串的模式) #影片图片的链接的规则 findImgSrc=re.compile(r'


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3