使用sphinx search打造你自己的中文搜索引擎

您所在的位置:网站首页 search搜索中文 使用sphinx search打造你自己的中文搜索引擎

使用sphinx search打造你自己的中文搜索引擎

2024-06-07 09:51| 来源: 网络整理| 查看: 265

Google搜索引擎建立至今已经快20年了,之后全球各类大大小小类似的搜索引擎也陆续出现、消亡。国内目前以百度为大,搜狗、360、必应等也势在必争。搜索引擎技术也发展的相当成熟,同时也就出现了很多开源的搜索引擎系统。比如,Solr、Lucene、Elasticsearch、Sphinx等。

本文以sphinx search为例来介绍如何打造自己的搜索引擎。该搜索引擎的架构大致如下:

Sphinx search

Sphinx search 是俄罗斯人用C++写的,速度很快,可以非常容易的与SQL数据库和脚本语言集成,内置MySQL和PostgreSQL 数据库数据源的支持。其官方网站是: http://sphinxsearch.com/

可以说Sphinx支持包括英文、中文等所有语言的搜索。英文是以空格、标点符号来分割单词的,很容易切分。而中文词汇之间是没有空格的,很难区分,所以才有了自然语言处理中的“中文分词”技术的研究。Sphinx默认把中文按字拆分的,但这样就会产生搜索出不相干的内容来。比如,搜索“中国”,它会把同时包含“中”和“国”但不包含“中国”的文档搜出来。因此,有人就给Sphinx打了中文分词的补丁。

如果没有搞错的话,最早添加中文分词的是Coreseek,好像也是中文圈用得最广的支持中文分词的Sphinx,其它还有sphinx-for-chinese。然而这二者基于的Sphinx版本都太低了,有好多年没有更新。其中存在的一些Sphinx的bug也没有解决。

github上有一个基于Sphinx 2.2.9版本的代码库添加了中文分词: https://github.com/eric1688/sphinx经测试,该版本稳定性和速度都要好于coreseek。当然它依然支持英文等其它语言的搜索,只是对中文搜索更加准确了。

Sphinx 安装

git clone https://github.com/eric1688/sphinx cd sphinx

#编译(假设安装到/usr/local/sphinx目录,下文同) ./configure --prefix=/usr/local/sphinx

说明: --prefix 指定安装路径 --with-mysql 编译mysql支持 --with-pgsql 编译pgsql支持

make sudo make install安装好后,在/usr/local/sphinx目录下有以下几个子目录:etc/ sphinx配置文件,不同的索引可以写不同的配置文件bin/ sphinx程序,其中有建立索引的程序:indexer, 搜索守护进程:searchdvar/ 一般用了放置indexer索引好的文件

Sphinx索引的建立

MySQL数据库表结构 从上面的架构图可以看出来,我们要搜索的数据都存放在MySQL数据库中。假设我们的数据库名称叫blog_data,其中有个表叫article,表结构如下:

字段名 说明id 文章唯一id(主键)title 文章标题content 文章内容created_time 文章创建时间该article表可以是你本身网站的文本内容存放的表格,也可以是你的网络爬虫抓取到的数据存储表。

还有建立另外一个表sph_counter用来存储indexer已经索引的最大doc id

字段名 说明counter_id 标记是对哪个表做记录max_doc_id 被索引表的最大IDnote 注释,可以是表名update_at 更新时间建立索引配置文件: 新建或修改/usr/local/sphinx/etc/blog.conf 配置文件:

source blog_main { type = mysql sql_host = localhost sql_user = reader sql_pass = readerpassword sql_db = blog_data sql_port = 3306 sql_query_pre = SET NAMES utf8mb4 sql_query_pre = REPLACE INTO sph_counter SELECT 1, MAX(id), 'article', NOW() FROM article sql_query = SELECT id, title, content, \ UNIX_TIMESTAMP(created_time) AS ctime, \ FROM article \ WHERE id


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3