快捷搜索:  汽车  科技

大家称赞的日志分析工具:别只会搜日志了 求你懂点原理吧

大家称赞的日志分析工具:别只会搜日志了 求你懂点原理吧再来看下 最大组合分词模式。输入如下查询语句。POST _analyze { "analyzer": "ik_smart" "text": "一颗小星星" } 得到如下结果,被分词为 一颗颗小星星。exit docker restart elasticsearch 6.5 使用 ik 中文分词器ik 分词器有两种模式我们先看下 智能分词 模式的效果。比如对于 一颗小星星 进行中文分词,得到的两个词语:一颗、小星星我们在 Dev Tools Console 输入如下查询

6.3 解压 ik 分词器到容器中
  • 如果没有安装 unzip 解压工具,则安装 unzip 解压工具。

apt install unzip

  • 解压 ik 分词器到当前目录的 ik 文件夹下。

命令格式:unzip <ik 分词器压缩包>

实例:

unzip ELK-IKv7.4.2.zip -d ./ik

大家称赞的日志分析工具:别只会搜日志了 求你懂点原理吧(1)

  • 修改文件夹权限为可读可写。

chmod -R 777 ik/

  • 删除 ik 分词器压缩包

rm ELK-IKv7.4.2.zip 6.4 检查 ik 分词器安装

  • 进入到容器中

docker exec -it <容器 id> /bin/bash

  • 查看 Elasticsearch 的插件

elasticsearch-plugin list

结果如下,说明 ik 分词器安装好了。是不是很简单。

ik

大家称赞的日志分析工具:别只会搜日志了 求你懂点原理吧(2)

然后退出 Elasticsearch 容器,并重启 Elasticsearch 容器

exit docker restart elasticsearch 6.5 使用 ik 中文分词器

ik 分词器有两种模式

  • 智能分词模式 ( ik_smart )
  • 最大组合分词模式 ( ik_max_word )

我们先看下 智能分词 模式的效果。比如对于 一颗小星星 进行中文分词,得到的两个词语:一颗、小星星

我们在 Dev Tools Console 输入如下查询

POST _analyze { "analyzer": "ik_smart" "text": "一颗小星星" }

得到如下结果,被分词为 一颗颗小星星。

大家称赞的日志分析工具:别只会搜日志了 求你懂点原理吧(3)

再来看下 最大组合分词模式。输入如下查询语句。

POST _analyze { "analyzer": "ik_max_word" "text": "一颗小星星" }

一颗小星星 被分成了 6 个词语:一颗、一、颗、小星星、小星、星星。

大家称赞的日志分析工具:别只会搜日志了 求你懂点原理吧(4)

我们再来看下另外一个中文分词。比如搜索悟空哥聊架构,期望结果:悟空哥、聊、架构三个词语。

实际结果:悟、空哥、聊、架构四个词语。ik 分词器将悟空哥分词了,认为 空哥 是一个词语。所以需要让 ik 分词器知道 悟空哥 是一个词语,不需要拆分。那怎么办做呢?

大家称赞的日志分析工具:别只会搜日志了 求你懂点原理吧(5)

猜您喜欢: