用 Elasticsearch 造个“知网”难不难？

您所在的位置：网站首页 › 爬虫难不难 › 用 Elasticsearch 造个“知网”难不难？

用 Elasticsearch 造个“知网”难不难？

2023-07-18 05:58| 来源: 网络整理| 查看: 265

近期“知网”的热度一直不减，本来可以拿一些热点图片、网友评论作为开场。算了，这不是我一个技术博主该做的。

此处仅拿2022年5月24日早晨 6:00 微博搜索“知网”得到的前20条动态信息的词云说话。

用 Elasticsearch 造个“知网”难不难？_编程语言

基于 ik_smart 中文分词器的词云图

在网友不建议专家建议的大环境下，作为老百姓对“知网”的建议如下：

1、尊重版权，每篇文档被下载（人工备案下载，非爬虫）获得的收益一半（比例待商榷）费用给第一作者，这会极大的激发大家的创作动力。2、将文章收益、被引用次数等作为未来文章评价指标。好文章（被引用多、被下载多）会有高收益，不好的文章会石沉大海。这会极大鼓励高校研究人员写好文章。

此处省略1万字......

当然，这些都不是我们平头老百姓该操心的事，作为技术人员，我更关注“知网”的本质——搜索。进一步说根据用户复杂的搜索条件，召回满意的结果。

问题来了，Elasticsearch 三大核心应用场景之一全文检索。用 Elasticsearch 能不能造一个“知网”呢？

这引发了我的极大的兴趣。

1、需求分析

首先，为避免“井底之蛙”，需求降级，降低到自己可控的程度。

天眼查了一下：“知网成立于2004年，共1649人”。得出初步结论，这是有18年技术积累的公司。版权原因，我们也拿不到知网那么多的数据，只能先象征性的拿手里的文档模拟一下，研究技术的可行性。

其次，“知网”支持的搜索非常复杂，我们只研究“一框”搜索。

用 Elasticsearch 造个“知网”难不难？_编程语言_02

把标题检索搞明白了，其他只是时间问题。

再次，“知网”是全网论文的集合体，我们聚焦本地磁盘文件的集合体。

文件类型包含但不限于：.txt, .pdf, .ppt, .doc,.docx 等文档。

综上，为避免落成“螳臂当车”的笑柄，我们把需求转化为简版的“知网”——本地知识库检索系统。

核心功能点如下：

支持多种格式历史文档（pdf、ppt、doc、xls、txt）的解析及索引化。支持文档基础数据（标题、大小、发布时间、修改时间、作者、全文）的建模。支持新写入文档数据的解析及索引化，定时周期可配置。支持建模后的数据存入Elasticsearch，支持通过浏览器访问。支持kibana可视化分析。2、技术选型

原则：不重复造轮子，自己可控，使用已有的、成熟的、开源的技术栈体系。

2017 年我带领小伙伴做过类似的知识库检索系统，只不过当时的技术体系较旧，Elasticsearch 也是2.X 版本。

用 Elasticsearch 造个“知网”难不难？

用 Elasticsearch 造个“知网”难不难？

今日新闻

推荐新闻