爬虫学习3:爬取酷狗TOP500排行榜

您所在的位置:网站首页 酷狗排行榜top500 爬虫学习3:爬取酷狗TOP500排行榜

爬虫学习3:爬取酷狗TOP500排行榜

2024-07-14 09:28| 来源: 网络整理| 查看: 265

思路分析查看网页HTML信息

https://www.kugou.com/yy/rank/home/1-8888.html

酷狗网页版不能翻页,通过观察,尝试更改数字1https://www.kugou.com/yy/rank/home/2-8888.htmlhttps://www.kugou.com/yy/rank/home/3-8888.html发现可以实现翻页效果,因此更改home/后面数字即可。

获取爬取目标网页源代码1234567891011121314151617181920 ... 1 陈雪凝 - 绿色 ... 4:29 ... 2 孤独诗人 - 渡我不渡她 ... 3:02

要爬取的信息:排名、歌手-歌曲名、歌曲时长:

排名: ranks = soup.select('span.pc_temp_num') 歌手-歌曲名: titles = soup.select('div.pc_temp_songlist > ul > li > a') 歌曲时长: times = soup.select('span.pc_temp_tips_r > span')实例操作源代码12345678910111213141516171819202122232425262728293031# 导入库import requestsfrom bs4 import BeautifulSoupimport time# 加入请求头headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'}# 获取信息def get_info(url): wb_data = requests.get(url,headers=headers) soup = BeautifulSoup(wb_data.text,'lxml') ranks = soup.select('span.pc_temp_num') # 排行 titles = soup.select('div.pc_temp_songlist > ul > li > a') # 歌手-歌曲名 times = soup.select('span.pc_temp_tips_r > span') # 歌曲时长 for rank,title,time in zip(ranks,titles,times): data = { 'rank':rank.get_text().strip(), 'singer':title.get_text().split('-')[0], 'song':title.get_text().split('-')[1], 'time':time.get_text().strip() } print(data) # 字典格式打印输出if __name__ == '__main__': urls = ['http://www.kugou.com/yy/rank/home/{}-8888.html'.format(str(i)) for i in range(1,24)] for url in urls: # 构造url get_info(url) time.sleep(1) #睡眠1秒 运行结果(部分)12345678910111213141516171819202122232425262728293031{'rank': '1', 'singer': '陈雪凝 ', 'song': ' 绿色', 'time': '4:29'}{'rank': '2', 'singer': '孤独诗人 ', 'song': ' 渡我不渡她', 'time': '3:02'}{'rank': '3', 'singer': '花姐 ', 'song': ' 狂浪', 'time': '3:01'}{'rank': '4', 'singer': '张敬轩 ', 'song': ' 只是太爱你', 'time': '4:14'}{'rank': '5', 'singer': '王琪 ', 'song': ' 站着等你三千年', 'time': '6:21'}{'rank': '6', 'singer': '陈柯宇 ', 'song': ' 生僻字', 'time': '3:36'}{'rank': '7', 'singer': '周杰伦 ', 'song': ' 告白气球', 'time': '3:35'}{'rank': '8', 'singer': '鱼大仙儿 ', 'song': ' 我曾', 'time': '4:46'}{'rank': '9', 'singer': '张紫豪 ', 'song': ' 可不可以', 'time': '4:00'}{'rank': '10', 'singer': '胡夏、郁可唯 ', 'song': ' 知否知否', 'time': '4:36'}{'rank': '11', 'singer': '半阳 ', 'song': ' 一曲相思', 'time': '2:48'}{'rank': '12', 'singer': '郭聪明 ', 'song': ' 你会遇见更好的人', 'time': '3:46'}{'rank': '13', 'singer': '陈雪凝 ', 'song': ' 你的酒馆对我打了烊', 'time': '4:11'}{'rank': '14', 'singer': 'Jennie ', 'song': ' SOLO', 'time': '2:49'}{'rank': '15', 'singer': '展展与罗罗 ', 'song': ' 沙漠骆驼', 'time': '5:38'}{'rank': '16', 'singer': '奇然liya、沈谧仁 ', 'song': ' 琵琶行', 'time': '5:35'}{'rank': '17', 'singer': 'SHAUN ', 'song': ' Way Back Home', 'time': '3:34'}{'rank': '18', 'singer': '小倩 ', 'song': ' 比悲伤更悲伤的故事', 'time': '4:36'}{'rank': '19', 'singer': '于文文 ', 'song': ' 体面', 'time': '4:42'}{'rank': '20', 'singer': '花姐 ', 'song': ' 夜之光', 'time': '3:10'}{'rank': '21', 'singer': '苏谭谭 ', 'song': ' 渡我不渡她 (正式版)', 'time': '2:18'}{'rank': '22', 'singer': 'CORSAK、马吟吟 ', 'song': ' 溯 (Reverse)', 'time': '3:12'}{'rank': '23', 'singer': '贺一航 ', 'song': ' 原来占据你内心的人不是我', 'time': '4:33'}{'rank': '24', 'singer': '许佳慧 ', 'song': ' 预谋', 'time': '4:09'}{'rank': '25', 'singer': '广东雨神、许华升 ', 'song': ' 陪你到底', 'time': '4:00'}{'rank': '26', 'singer': '火箭少女101 ', 'song': ' 卡路里', 'time': '3:52'}{'rank': '27', 'singer': '李玉刚 ', 'song': ' 清明上河图', 'time': '5:08'}{'rank': '28', 'singer': '大壮 ', 'song': ' 伪装', 'time': '5:01'}{'rank': '29', 'singer': '廖晶 ', 'song': ' 爱情小丑', 'time': '4:57'}{'rank': '30', 'singer': 'G.E.M.邓紫棋 ', 'song': ' 倒数', 'time': '3:49'} ......


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3