淘宝众筹数据爬取(1) |
您所在的位置:网站首页 › 淘宝众筹官网 › 淘宝众筹数据爬取(1) |
众筹是现阶段小微或初创企业比较重要的融资渠道之一,也获得了很多研究者的关注。然而众筹的研究需要获取众筹项目的大量数据,单靠手工录入数据确实比较让人讨厌, 速度慢也比较啰嗦。前文中我们已经了解了静态网页的数据爬取流程,现在我们来看看众筹数据是如何获取的。 我们把目光放在了当前还能收集数据的淘宝众筹(现在改名叫造点新货),京东众筹现在正在维护改造,其他众筹网还没去关注,估计流程也差不多,就以淘宝众筹来进行学习练手吧。 打开淘宝众筹的页面,选择全部项目,地址为:造点新货首页 因为想观察项目的整个动态进展,我们的目标是获取项目的名称(后来才发现应该换成是项目编号,这妥妥是给自己挖了个坑)、达成率、支持人数、截止时间、已筹集金额和剩余时间。 按F12键,在Elements选项卡下,点击对应的标签,会在左边的页面里以灰蓝色方块覆盖的形式来表明标签所涉及的内容。 看看是不是新弹出个窗口? 因为所有信息都在名为的列表中,所以我们就找它的麻烦: project=soup.find_all(name='li',class_ ='project-item')然后就是在每一条里刨出我们想要的信息,并添加到列表: k=[] for li in project: title=li.find('span','project-intro').text #标题 dcl=li.find('span','every-info').em.text #达成率 ycje=li.find('span','every-info info-dollar').em.text #已筹金额 zcrs=li.find('span','every-info info-left').em.text #支持人数 k.append([title,dcl,ycje,zcrs]) k嘿嘿,第一页的项目信息就获取到了。 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |