r语言 html.nodes,R语言:rvest抓取网页信息

您所在的位置:网站首页 htmlnodes r语言 html.nodes,R语言:rvest抓取网页信息

r语言 html.nodes,R语言:rvest抓取网页信息

#r语言 html.nodes,R语言:rvest抓取网页信息| 来源: 网络整理| 查看: 265

好久没有用R了,今天复习了下,用rvest写了个抓取 http://pubmed.cn 网站关键字搜索结果的脚本,分享一下。

需求

按关键字搜索, 并记录文章列表中的链接等信息。

打开文章页面, 提取其中的abstract摘要信息。

分析网站请求

打开网站, 输入关键字 disease ,可以得到搜索链接,明显是GET请求

http://pubmed.cn/search?q=disease&p=2&pn=20&vt=Summary&ot=PublicationDate&st=main&dt=&ft=

观察链接,可以看出 q=disease 是关键字, p=2 是页码, pn=20 是每页记录数, 其它的参数也都可以尝试出来

搜索列表抓取函数

library("rvest")

getPageList

# 读取页面

page

# 按照CSS选择器的语法, 选择页面中

... 中的内容

tmp div#SFW>div.rprt")

# 选择

中的 title="..." 属性值

title % html_attr("title")

# 选择href属性值

furl a[target=_blank]") %>% html_attr("href")



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3