大家称赞的日志分析工具:别只会搜日志了 求你懂点原理吧
大家称赞的日志分析工具:别只会搜日志了 求你懂点原理吧再来看下 最大组合分词模式。输入如下查询语句。POST _analyze { "analyzer": "ik_smart" "text": "一颗小星星" } 得到如下结果,被分词为 一颗颗小星星。exit docker restart elasticsearch 6.5 使用 ik 中文分词器ik 分词器有两种模式我们先看下 智能分词 模式的效果。比如对于 一颗小星星 进行中文分词,得到的两个词语:一颗、小星星我们在 Dev Tools Console 输入如下查询
6.3 解压 ik 分词器到容器中- 如果没有安装 unzip 解压工具,则安装 unzip 解压工具。
apt install unzip
- 解压 ik 分词器到当前目录的 ik 文件夹下。
命令格式:unzip <ik 分词器压缩包>
实例:
unzip ELK-IKv7.4.2.zip -d ./ik
- 修改文件夹权限为可读可写。
chmod -R 777 ik/
- 删除 ik 分词器压缩包
rm ELK-IKv7.4.2.zip
6.4 检查 ik 分词器安装
- 进入到容器中
docker exec -it <容器 id> /bin/bash
- 查看 Elasticsearch 的插件
elasticsearch-plugin list
结果如下,说明 ik 分词器安装好了。是不是很简单。
ik
然后退出 Elasticsearch 容器,并重启 Elasticsearch 容器
exit
docker restart elasticsearch
6.5 使用 ik 中文分词器
ik 分词器有两种模式
- 智能分词模式 ( ik_smart )
- 最大组合分词模式 ( ik_max_word )
我们先看下 智能分词 模式的效果。比如对于 一颗小星星 进行中文分词,得到的两个词语:一颗、小星星
我们在 Dev Tools Console 输入如下查询
POST _analyze
{
"analyzer": "ik_smart"
"text": "一颗小星星"
}
得到如下结果,被分词为 一颗颗小星星。
再来看下 最大组合分词模式。输入如下查询语句。
POST _analyze
{
"analyzer": "ik_max_word"
"text": "一颗小星星"
}
一颗小星星 被分成了 6 个词语:一颗、一、颗、小星星、小星、星星。
我们再来看下另外一个中文分词。比如搜索悟空哥聊架构,期望结果:悟空哥、聊、架构三个词语。
实际结果:悟、空哥、聊、架构四个词语。ik 分词器将悟空哥分词了,认为 空哥 是一个词语。所以需要让 ik 分词器知道 悟空哥 是一个词语,不需要拆分。那怎么办做呢?