Python爬虫入门(爬取豆瓣电影信息小结) |
您所在的位置:网站首页 › 网络爬虫爬取豆瓣 › Python爬虫入门(爬取豆瓣电影信息小结) |
Python爬虫入门(爬取豆瓣电影信息小结)
1、爬虫概念 网络爬虫,是一种按照一定规则,自动抓取互联网信息的程序或脚本。爬虫的本质是模拟浏览器打开网页,获取网页中我们想要的那部分数据。 2、基本流程(本次主要针对html文件) 3、网页结构了解(重要) 由于爬虫的本质是模拟浏览器打开网页,所以我们需要了解HTTP 的操作过程。 HTTP即超文本传输协议。HTTP协议是用于从网络传输超文本数据到本地浏览器的传送协议,它能保证高效而准确地传送超文本文档。HTTPS是以安全为目标的HTTP通道,简单讲是HTTP的安全版,即HTTP下加入SSL层,简称为HTTPS。 其中具体信息可参考Http基本原理(引用) 4、具体代码 方法名功能askURL(url)得到指定一个URL的网页内容(返回值为html即一张网页源码)getData(baseurl)爬取所有网页并逐一解析数据(返回值为一个列表,每一项为一部电影信息)saveData(datalist,savepath)以xls文件的方式保存爬取的数据init_db(dbpath)利用sqlite3 库创建数据表saveData2DB(datalist,dbpath)在数据库中插入数据main()调用主函数 from bs4 import BeautifulSoup #网页解析,获取数据 import re #正则表达式,进行文字匹配 import urllib.request,urllib.error #制定URL,获取网页数据 import xlwt #进行excel操作 import sqlite3 #进行SQLite数据库操作 def main(): baseurl="https://movie.douban.com/top250?start=" #1、爬取网页 datalist=getData(baseurl) #savepath=".\\豆瓣电影Top250.xls" dbpath="movie.db" #3、保存数据 #saveData(datalist,savepath) saveData2DB(datalist,dbpath) #影片详情的链接的规则 findLink=re.compile(r'') #创建正则表达式对象,表示规则(字符串的模式) #影片图片的链接的规则 findImgSrc=re.compile(r' |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |