运用python爬取股票的股吧评论、新闻报道(附完整代码) |
您所在的位置:网站首页 › tcl股票最新消息评论新闻 › 运用python爬取股票的股吧评论、新闻报道(附完整代码) |
大家好,我是带我去滑雪,每天分享一个小技巧! 当前,文本信息挖掘十分火热,文本信息挖掘作为一个新的数据挖掘领域,其目的在于把文本信息转化为人可利用的知识,而获取文本信息是文本信息挖掘工作中最重要、最首要的关键一环,那么如何快速、高效、批量地获取文本信息呢?那当然要提到今天的主角"爬虫"啦!下面介绍如何利用Python爬取每支股票对应的股吧评论、新闻公告,所爬取网站为某财富网站。部分爬取结果见表1、表2。 表1 爬取的部分股票股吧评论展示 行业 股票代码 股吧评论 医疗服务 603259 CRO板块都没资金拉。药明今天没有量能了…… 603259没量今天就这样了 603259512010医药ETF重仓股603259:归母净利润同比增长154 603259成本100我就不信回不了本[叹气] 603259今天涨俩点。下周站上一百[上涨][上涨][上涨] 603259CRO板块的企业整体业绩都不错,但是股价始终被按在地 603259我咋觉得它是在洗盘呢[滴汗][滴汗][滴汗] 603259今天敌不动我不动[呲牙][呲牙][呲牙] 互联网服务 300059A股三十而立,风格脱胎换骨,这个板块胎动! 300059证券行业并购重组的窗口期已临近 3000598月11日 周 四 300059晚间(300059)的一则折价约20%的大宗交易公 300059指数回来了,你的钱呢?这两赛道别等靴子落地!(周策 3000598.12 300059今天卖出的哭吧,今晚中报绝对优秀的,小周追高吧 300059等待中报预告了[滴汗][微笑][兴奋][滴汗][哭] 食品饮料 600887 赛道熄火,风雨飘摇,真正的避风港却被忽视? 600887给出买入评级,可以加仓抄底 600887为啥中报会有雷?牛奶需求量一年中不是均匀的吗?疫情 600887本周个股研报精选 600887预计半年报 600887中报是天雷滚滚呀 600887下周继续砸盘,目标15 600887什么?你们还在坚守伊利 表2 爬取的部分股票新闻公告展示 行业 股票名称 新闻公告 医疗服务 603259603259:关于召开2022年半年度业绩说明会的公告 603259603259:H股公告(证券变动月报表) 603259603259:第二届监事会第二十九次会议决议公告 603259603259:第二届董事会第三十一次会议决议公告 603259603259:2022年半年度报告摘要 603259603259:2022年半年度募集资金存放与实际使用情况报告 603259603259:2022年半年度报告 603259603259:2022年度全年业绩目标更新公告 互联网服务 3000592022年半年度报告 300059信息股份有限公司章程(2022年3月) 3000592022年半年度报告摘要 3000592022年一季度报告 3000592022年4月12日投资者关系活动记录表 3000592021年年度审计报告 300059关于不提前赎回的公告 3000592021年度财务决算报告 食品饮料 600887章程 600887股份投资者问答汇总(2022年4月) 600887600887:2021年年度报告 600887600887:审计报告 600887600887:2022年一季度报告 600887600887:关于股东股份质押 600887600887:开展衍生品业务公告 600887600887:进展公告 完整代码如下: 爬取股票股评python代码 import requests from lxml import etree import pandas as pd max_page =16 all_title = [] all_time = [] headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36'} for page in range(1,max_page+1): print('crawling the page is {}'.format(page)) url= f'http://guba.财富网址.com/list,600073,f_{page}.html' response = requests.get(url, headers=headers) root = etree.HTML(response.text) title = root.xpath("//div[contains(@class,'articleh normal_post')]//span[@class='l3 a3']//a//text()") time = root.xpath("//div[contains(@class,'articleh normal_post')]//span[@class='l5 a5']//text()") all_title += title all_time += time data_raw = pd.DataFrame() data_raw['title'] = all_title data_raw['time'] = all_time data_raw.to_excel('.//data_raw.xlsx', index=False) 爬取股票新闻公告python代码 import time import requests from json import loads import pandas as pd url = '财富网址/api/security/ann?cb=jQuery112303892765899345705_1660361393434&sr =-1&page_size=50&page_index={}&ann_type=A&client_source=web&stock_list=股票代码&f_node=0&s_node=0' headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36'} response = requests.get(url.format(1), headers=headers) total = loads(response.text.lstrip('jQuery112303892765899345705_1660361393434(').rstrip(')'))['data']['total_hits'] names = [] for index in range(1, int(total/50)+2): response = requests.get(url.format(index), headers=headers) data_list = loads(response.text.lstrip('jQuery112303892765899345705_1660361393434(').rstrip(')'))['data']['list'] for notice in data_list: names.append(notice['title']) time.sleep(1) df = pd.DataFrame({'title': names}) df.to_excel('data.xlsx', encoding='utf-8', index=False) 注意使用代码时,请将代码中标红的部分删除,根据自己需要,分别替换爬取网址和所爬取的股票代码。本文所爬取的数据集可去百度百度网盘自行获取,仅供学习参考使用! 链接:https://pan.baidu.com/s/16Pp57kAbC3xAqPylyfQziA?pwd=2138 提取码:2138 更多优质内容持续发布中,请移步主页查看。 若有问题可邮箱联系:[email protected] 博主的WeChat:TCB1736732074 点赞+关注,下次不迷路! |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |