GitHub

您所在的位置:网站首页 如何批量下载知网论文 GitHub

GitHub

2024-06-23 13:36| 来源: 网络整理| 查看: 265

CNKI 知网爬虫

这个 Python 脚本利用 Selenium 来爬取 CNKI(中国知网)平台基于关键词搜索的论文信息。该脚本能够浏览搜索界面,提取并保存所找到的论文信息。

特点 根据指定关键词在 CNKI 进行论文搜索。 提取信息包括标题、作者、摘要、出版详情等。 支持多线程以提高检索速度。 将提取的信息保存到指定文件中(在这种情况下是一个 TSV 文件)。 若存在指定文件将最后一行编号开始查询(可以随时关闭程序,下次接着爬取)。 异常处理以确保稳健性。 讲述

详见知乎或博客。

使用方法 1. 环境设置

确保您已经完成以下步骤:

安装 Python 3.x 版本。 安装 Selenium 库:pip install selenium 下载并配置适当的 WebDriver。代码示例使用了 Edge WebDriver。 下载 Edge WebDriver:Microsoft Edge WebDriver 双击 WebDriver.exe 完成安装 2. 代码自定义

使用文本编辑器打开 cnki_crawler.py 文件,并根据需要进行以下操作:

修改 keyword 变量为您感兴趣的关键词,例如 keyword = "青少年抑郁"。 可选:根据您的需求修改 papers_need 变量,设置所需获取的论文数量。 可自行修改是否接着指定文件继续查询 3. 运行爬虫

在命令行中执行以下命令来运行爬虫:

python CNKI_spider_paralle.py

脚本将打开一个 Edge 浏览器窗口并开始自动执行搜索并爬取论文信息的操作。请耐心等待脚本执行完毕。

4. 结果查看

爬取的结果将保存在名为 CNKI_关键词.tsv 的 TSV 文件中(例如 CNKI_青少年抑郁.tsv)。您可以使用文本编辑器或Excel打开该文件查看爬取的论文信息。

注意事项 该脚本配置了 Edge WebDriver,但可以根据需要更改 WebDriver 配置以适用于其他浏览器。 确保遵守 CNKI 的服务条款,并避免对其服务器进行过多请求。 贡献

欢迎对该项目进行贡献!如果您想报告问题、提出建议或提交代码,请参考以下步骤:

在项目的GitHub页面上提出问题或建议。 如果您有兴趣修复问题或添加新功能,请创建一个分支并提交您的更改。 向项目的主分支提交拉取请求,我们将会进行审查和讨论。 参考 Python爬虫实战(5) | 爬取知网文献信息(已优化代码) https://zhuanlan.zhihu.com/p/599579339 知网爬虫--根据【关键词】获取文献信息 https://zhuanlan.zhihu.com/p/663793038


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3