jieba插件对包含空格的字符串分词后，包含了值为空格的token #17

zh6335901 · 2016-09-08T12:36:02Z

使用jieba插件分词，对包含空格的字符串分词，会包含值为空格的token，search和index模式都是如此，比如：

curl http://localhost:9200/test/_analyze?text=你好%20北京&analyzer=jieba_search&pretty
{
"tokens": [
{
"token": "你好",
"start_offset": 0,
"end_offset": 2,
"type": "word",
"position": 0
},
{
"token": " ",
"start_offset": 2,
"end_offset": 3,
"type": "word",
"position": 1
},
{
"token": "北京",
"start_offset": 3,
"end_offset": 5,
"type": "word",
"position": 2
}
]
}

那这样，如果用户搜索内容包括空格时，就有可能影响搜索结果了，因为搜索分词时包含空格，但是es索引的内容可能不包含空格。

zh6335901 · 2016-09-08T12:45:04Z

在尝试了使用trim和stop filter，都没办法过滤掉空格时，
我的解决方案是在JiebaTokenFilter类的incrementToken的方法对值为空格的token进行过滤，经过测试是可以的。
但是由于我对es插件机制和java并不熟悉，所以我不确定这是否是个好的方案。
如果这是个可行的方案，那我提个pull requset, 如果有更好的办法，麻烦告知我一下哈
多谢！

Steven-Z-Yang · 2016-10-24T04:01:36Z

同义词那边回答里面我用了whitespace tokenizer ，所以空格都被过滤掉了

tsaiian · 2020-09-25T03:28:41Z

我是用 trim 後刪除空字串 (remove_empty)的方法：

    "analysis": {
      "analyzer": {
        "norm_jieba_index": {
          "tokenizer": "jieba_index",
          "filter": [
            "lowercase",
            "trim",
            "remove_empty"
          ]
        },
        "norm_jieba_search": {
          "tokenizer": "jieba_search",
          "filter": [
            "lowercase",
            "trim",
            "remove_empty"
          ]
        }
      },
      "filter": {
        "remove_empty": {
          "type": "stop",
          "stopwords": [""]
        }
      }
    }

silencesimon · 2020-10-22T02:36:41Z

我是用 trim 後刪除空字串 (remove_empty)的方法：

    "analysis": {
      "analyzer": {
        "norm_jieba_index": {
          "tokenizer": "jieba_index",
          "filter": [
            "lowercase",
            "trim",
            "remove_empty"
          ]
        },
        "norm_jieba_search": {
          "tokenizer": "jieba_search",
          "filter": [
            "lowercase",
            "trim",
            "remove_empty"
          ]
        }
      },
      "filter": {
        "remove_empty": {
          "type": "stop",
          "stopwords": [""]
        }
      }
    }

我按这个来，可以了。感谢

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

jieba插件对包含空格的字符串分词后，包含了值为空格的token #17

jieba插件对包含空格的字符串分词后，包含了值为空格的token #17

zh6335901 commented Sep 8, 2016 •

edited

Loading

zh6335901 commented Sep 8, 2016

Steven-Z-Yang commented Oct 24, 2016

tsaiian commented Sep 25, 2020 •

edited

Loading

silencesimon commented Oct 22, 2020

jieba插件对包含空格的字符串分词后，包含了值为空格的token #17

jieba插件对包含空格的字符串分词后，包含了值为空格的token #17

Comments

zh6335901 commented Sep 8, 2016 • edited Loading

zh6335901 commented Sep 8, 2016

Steven-Z-Yang commented Oct 24, 2016

tsaiian commented Sep 25, 2020 • edited Loading

silencesimon commented Oct 22, 2020

zh6335901 commented Sep 8, 2016 •

edited

Loading

tsaiian commented Sep 25, 2020 •

edited

Loading