canal实现mysql数据实时同步到es

您所在的位置:网站首页 数据增量同步解决方案 canal实现mysql数据实时同步到es

canal实现mysql数据实时同步到es

2023-06-02 18:29| 来源: 网络整理| 查看: 265

问题背景

最近有一个需求:原有一些mysql数据,这些数据量很大,且包含文本信息,需要对其进行搜索,这时如果使用mysql的like来匹配,效率会很低,且很可能影响整个系统的运行,经过和同事的讨论,最终决定使用es来做搜索。 但是源数据有很多关联关系,搜索的时候也会带上这些条件,因此需要将文本信息同步到es,且当mysql数据有新增、更新或删除操作时,也实时同步到es.

工具调研

从mysql同步到es的工具,目前市面上比较火的是logstash和canal

logstash

logstash经过调研就能知道,它依赖于更新字段,也就是说,需要有一个字段如update_time,当这个时间大于当前时间,就表明数据做了更新。但由于我们的数据来源于多个渠道,大家规范不统一(很可能时区都不统一),且update_time字段没有做触发更新,因此不考虑使用logstash

canal

canal是可以使用队列的,但考虑到部署难度,以及尽量少引入其他工具的原则,不使用队列,而是直接监听消息。 事实上,想要启动canal参考这篇文档就足够了canal QuickStart 但实际部署时会踩很多坑,比如canal的readme以及wiki首页都没有明显提到ClientAdapter这个工具,事实上这个工具是很好用的,它可以批量将mysql数据导入es,也可以自动同步mysql数据变动到es,非常好用,因此,下载的时候最好就把deployer和adapter一块下载了 canal基本按照官方文档来部署就行,没有多大坑,但记得在这之前确认下bin_log是否真的开启了,否则canal会报错,而且报错信息难以发现原因。

clientAdapter

第一个坑,es的监听。我本机随便下的一个es,实际上是有默认账号密码的,但是不知道是我版本原因还是怎么样,总之用默认账号密码无法登录,这时我生成了以下账号密码,参考的这篇文章:es账号密码设置,注意要记得存一下生成的账号密码。 然后,我发现adapter依旧报错(这里报错信息找不到了),发现是es没有设置 。。。 暂时没时间来写这篇文章,先直接写下途中会遇到的坑及解决方案 注意事项: (1)adapter的sql语句配置中,不要使用反引号"`",否则会报奇怪的错(报错信息忘了) (2)adapter1.16的bug:所有表都需要别名,哪怕是一个表,也要写成如:select u.name from user as u (3)大量数据导入,需要设置并发数,提高并发数可解决导入失败的问题 (4)记得设置下es账号密码,以及, es的配置中network.host要改成network.host: 0.0.0.0(如果遇到了adapter同步500,INternal Server Error,不要问,先这么改吧,我也是查issue查出来的) (5)有可能跑一段时间adapter不再同步了,临时的解决方案是把instance下的mate.bat、h2.mv.db删掉,会自动继续同步的,治本的方案暂时没时间考虑



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3