IK分词器
# 安装
下载对应版本:下载地址 (opens new window)
下载完毕后,直接放到 elasticsearch
插件文件 plugin
中即可。
elasticsearch
- plugin
-- ik 新建目录用来存放ik插件内容
--- 解压内容
1
2
3
4
2
3
4
# 基本使用
# ik_smark 最少切分
GET _analyze
{
"analyzer": "ik_smart",
"text": "窗前明月光"
}
1
2
3
4
5
6
2
3
4
5
6
结果
{
"tokens": [
{
"token": "窗前",
"start_offset": 0,
"end_offset": 2,
"type": "CN_WORD",
"position": 0
},
{
"token": "明月光",
"start_offset": 2,
"end_offset": 5,
"type": "CN_WORD",
"position": 1
}
]
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
# ik_max_word 最细粒度划分
穷尽所有词库的可能。
GET _analyze
{
"analyzer": "ik_max_word",
"text": "窗前明月光"
}
1
2
3
4
5
2
3
4
5
结果
{
"tokens": [
{
"token": "窗前",
"start_offset": 0,
"end_offset": 2,
"type": "CN_WORD",
"position": 0
},
{
"token": "明月光",
"start_offset": 2,
"end_offset": 5,
"type": "CN_WORD",
"position": 1
},
{
"token": "明月",
"start_offset": 2,
"end_offset": 4,
"type": "CN_WORD",
"position": 2
},
{
"token": "月光",
"start_offset": 3,
"end_offset": 5,
"type": "CN_WORD",
"position": 3
}
]
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
# 自定义字典
进入 elasticsearch -> plugin -> ik -> config
目录。
新建 mrcdh.dic
字典文件,打开编辑字典:
mr
cdh
1
2
2
注意
字典中每一行代表一个分词
打开编辑 IKAnalyzer.cfg.xml
IK 分析器扩展配置,加入自定义的字典:
<entry key="ext_dict">mrcdh.dic</entry>
1
重启 es
上次更新: 2023/09/22, 16:54:32