python爬虫实战之实时数据挖掘

您所在的位置：网站首页 › 凯尔五杀摇滚乐队 › python爬虫实战之实时数据挖掘

python爬虫实战之实时数据挖掘

2024-03-24 06:10| 来源: 网络整理| 查看: 265

实时数据挖掘

目录实时数据挖掘序言 1. 新浪财经实时数据挖掘实战 1.1 获取网页源代码 1.2 数据提取 2. 东方财富网数据挖掘实战 2.1 获取网页源代码 2.2 编写正则表达式提取数据 2.3 数据的清洗及打印输出 2.4 实战代码 3. 裁判文书网数据挖掘实战 4. 巨潮资讯网数据挖掘实战 4.1 获取网页源代码 4.2 编写正则表达式提取数据 4.3 数据清洗及打印输出 4.4 实战代码结尾

序言

通过使用Selenium库实现对新浪财经股票实时数据、东方财富网、裁判文书网、巨潮资讯网的实时数据挖掘。由于这部分内容涉及爬虫进阶知识，所以我把这部分内容归于爬虫专栏。

1. 新浪财经实时数据挖掘实战 1.1 获取网页源代码

使用无界面浏览器方式获取源代码

from selenium import webdriver chrome_options = webdriver.ChromeOptions() chrome_options.add_argument('--headless') browser = webdriver.Chrome(executable_path=r'C:\Users\wwww\AppData\Local\Google\Chrome\Application\chromedriver.exe', options=chrome_options) browser.get("http://finance.sina.com.cn/realstock/company/sh000001/nc.shtml") data = browser.page_source browser.quit() print(data)

部分结果如图所示：在这里插入图片描述

1.2 数据提取

我们要提取上证综合指数，因为这个指数是唯一的且不断变化，首先我们要定位网页源代码。在这里插入图片描述可以得到，如果上证综合指数是下降的话，class为down；同理，如果上证综合指数是上升的话，class为up。

from selenium import webdriver import re chrome_options = webdriver.ChromeOptions() chrome_options.add_argument('--headless') browser = webdriver.Chrome(executable_path=r'C:\Users\wwww\AppData\Local\Google\Chrome\Application\chromedriver.exe', options=chrome_options) browser.get('http://finance.sina.com.cn/realstock/company/sh000001/nc.shtml') data = browser.page_source browser.quit() p_price = '(.*?)' price = re.findall(p_price, data) print(price) # 上证综合指数的股价

结果： [‘2976.53’]

2. 东方财富网数据挖掘实战 2.1 获取网页源代码

首先我们进入东方财富网，然后点击搜索阿里巴巴，我们爬取阿里巴巴的源代码。在这里插入图片描述我们使用无界面浏览器模式来获取该网站源代码：

from selenium import webdriver chrome_options = webdriver.ChromeOptions() chrome_options.add_argument('--headless') browser = webdriver.Chrome(executable_path=r'C:\Users\wwww\AppData\Local\Google\Chrome\Application\chromedriver.exe', options=chrome_options) browser.get('http://so.eastmoney.com/news/s?keyword=阿里巴巴') data = browser.page_source pr

【本文地址】

python爬虫实战之实时数据挖掘

python爬虫实战之实时数据挖掘

今日新闻

推荐新闻