资讯 小学 初中 高中 语言 会计职称 学历提升 法考 计算机考试 医护考试 建工考试 教育百科
栏目分类:
子分类:
返回
空麓网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
空麓网 > 计算机考试 > 软件开发 > 后端开发 > Java

Elasticsearch——》ngram分词器

Java 更新时间: 发布时间: 计算机考试归档 最新发布

Elasticsearch——》ngram分词器

推荐链接:
    总结——》【Java】
    总结——》【Mysql】
    总结——》【Redis】
    总结——》【Kafka】
    总结——》【Spring】
    总结——》【SpringBoot】
    总结——》【MyBatis、MyBatis-Plus】
    总结——》【Linux】
    总结——》【MongoDB】
    总结——》【Elasticsearch】

Elasticsearch——》ngram分词器

  • 一、概念
  • 二、工作原理
  • 三、示例
    • 1、默认词项的长度
    • 2、指定词项的长度(自定义ngram分词器)

一、概念

在 Elasticsearch 中,ngram 分词器是一种基于 n-gram 算法的分词器,用于将文本转换为一组 n-gram 词项。与其他一些分词器(如 standard 分词器)不同,ngram 分词器可以生成部分单词,并且不需要完整的词汇表。

二、工作原理

ngram 分词器的工作原理是将输入文本切分成一个个较小的子字符串,然后将这些子字符串作为词项添加到索引中。这个过程涉及两个参数:min_gram和 max_gram,它们控制了生成的词项的长度范围。

参数描述默认值
min_gram拆分字符的最小阈值1
max_gram拆分字符的最大阈值2

三、示例

1、默认词项的长度

# 默认生成最小长度为1且最大长度为2的N-gramGET _analyze{  "tokenizer": "ngram",  "text": "elastic"}

2、指定词项的长度(自定义ngram分词器)

DELETE my_indexPUT /my_index{  "settings": {    "index": {      "max_ngram_diff": 5    },    "analysis": {      "analyzer": {        "my_analyzer": {          "tokenizer": "my_tokenizer"        }      },      "tokenizer": {        "my_tokenizer": {          "type": "ngram",          "min_gram": 2,          "max_gram": 4        }      }    }  }}GET /my_index/_analyze{  "tokenizer": "my_tokenizer",  "text": "elastic"}
转载请注明:文章转载自 http://www.konglu.com/
本文地址:http://www.konglu.com/it/1097993.html
免责声明:

我们致力于保护作者版权,注重分享,被刊用文章【Elasticsearch——》ngram分词器】因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,转载此文是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2023 成都空麓科技有限公司

ICP备案号:蜀ICP备2023000828号-2