Elasticsearch如何进行词语扩展引入？

2025-02-16 技术教程

进行词语扩展引入的问题我们在此解决

首先看下效果

GET /operation/_search{ "query": { "match": { "store_name": "凯悦" } }}

结果

{ "took" : 38, "timed_out" : false, "_shards" : { "total" : 3, "successful" : 3, "skipped" : 0, "failed" : 0 }, "hits" : { "total" : { "value" : 0, "relation" : "eq" }, "max_score" : null, "hits" : [ ] }}

此时的分词器对凯悦二字的分词如下

{ "tokens" : [ { "token" : "凯悦", "start_offset" : 0, "end_offset" : 2, "type" : "CN_WORD", "position" : 0 } ]}

因为我们的索引在创建的时候凯悦词语还没有被扩展，所以创建索引的时候分词器会把凯悦分成凯和悦两个字，而此时分词器将凯悦分词成一个词语凯悦，故而无法搜索到任何文档。

解决思路一：

首先想到的是重建索引，因为此时分词器词典中已经有了凯悦这个词语，然后在全量复制文档到新的索引中，如果是数据量不大的情况下是可以快速迁移，如果数据量大的话不建议这样做，然而有些情况可能只是部分文档与要扩展词语相关，所以这个方法比较笨拙，不建议使用。

解决思路二：

通过Elasticsearch官方提供的API接口update_by_query可以将与凯悦相关的文档重新分词

具体操作如下

POST /operation/_update_by_query{ "query": { "bool": { "must": [ {"term": {"store_name": "凯"}}, {"term": {"store_name": "悦"}} ] } }}

意思是必须满足如上两个条件的文档才会被检索到并进行分词修改，即文档名称同时包含凯和悦才被重新分词

执行结果

{ "took" : 240, "timed_out" : false, "total" : 4, "updated" : 4, "deleted" : 0, "batches" : 1, "version_conflicts" : 0, "noops" : 0, "retries" : { "bulk" : 0, "search" : 0 }, "throttled_millis" : 0, "requests_per_second" : -1.0, "throttled_until_millis" : 0, "failures" : [ ]}

可以看到有四条文档被修改

再次通过凯悦搜索此时就没有质保含凯或悦的文档出现了