分析器
分析器
相關(guān)文章 : 1篇
瀏覽 : 9次
分析(Analysis)在Lucene中指的是將域(Field)文本轉(zhuǎn)換為最基本的索引表示單元—項(xiàng)(Term)的過程。分析器(Analyzer)對(duì)分析操作進(jìn)行了封裝,通過執(zhí)行一系列操作,將文本語匯單元化,這些操作包括提取單詞、去除標(biāo)點(diǎn)符號(hào)、去除語匯單元上的音調(diào)符號(hào)、將大寫字母轉(zhuǎn)換成小寫、移除常用詞、將單詞轉(zhuǎn)換為詞干(詞干還原)等。這個(gè)過程也可稱為語匯單元化過程(tokenization),而從文本流中得到的文本塊稱為語匯單元(tokens)。各tokens與關(guān)聯(lián)的Field名結(jié)合就構(gòu)成了各個(gè)項(xiàng)(Term)。在Lucene中,一個(gè)標(biāo)準(zhǔn)的分析器Analyzer由兩部分組成,一部分是分詞器,被稱為Tokenizer;另一部分是過濾器,被稱為TokenFilter。一個(gè)分析器Analyzer往往由一個(gè)分詞器和多個(gè)過濾器組成。這里所說的過濾器,和檢索時(shí)用的過濾器是完全不同的兩個(gè)概念,這里所講的過濾器是用于對(duì)用戶切分出來的詞進(jìn)行一些處理,如去掉一些敏感詞、停用詞、大小寫轉(zhuǎn)換、單復(fù)數(shù)轉(zhuǎn)換等等。
推薦產(chǎn)品
列表欄目