鍍金池/ 問答/網(wǎng)絡(luò)安全/ solr做搜索 *關(guān)鍵詞*無法全字匹配

solr做搜索 *關(guān)鍵詞*無法全字匹配

我用solr做搜索,因為條件比較復(fù)雜 我就不多說細節(jié)了,最簡化調(diào)試發(fā)現(xiàn)用軟件工程師無法匹配到職業(yè)為 軟件工程師 的記錄,但是我用 軟件工程 卻可以匹配到,也就是說完全匹配的時候反而取不到,
我用debug查詢

clipboard.png

而軟件工程 的debug為:

clipboard.png

可以看到貌似用**包裹關(guān)鍵詞,并不會對關(guān)鍵詞分詞,而對內(nèi)容的 軟件工程師分詞結(jié)果是:

clipboard.png

按照我的理解 solr是不是在把內(nèi)容打散成分詞以后再用分詞對關(guān)鍵詞進行匹配啊? 就像 軟件工程師 內(nèi)容打散后中間包含了 軟件工程 所以我用軟件工程四個字可以搜到 而軟件工程師不分詞搜索就搜不到了

(。。。我怎么提問提著提著自己好像把答案給分析出來了。。。)有大神知道啥原因嗎?

回答
編輯回答
菊外人

1.這是創(chuàng)建索引分詞造成的,可以不使用分詞
2.在使用的時候使用“”全詞匹配精確查找

2017年3月9日 11:07
編輯回答
愿如初

上面回答很到位
我再給你提供幾種解決方案

1.第一種:可以選擇調(diào)節(jié)分詞粒度較大的分詞器

2.第二種:這種也是之前在上家公司想到的一種解決方法 對于粗細粒度都可以自適應(yīng),

首先在solr建立檢索的時候不進行分詞,使用solr自帶的分詞,也就是不分詞,比如軟件工程師,分詞結(jié)果為 軟 件 工 程 師 分為五個結(jié)果集 這樣在搜索 軟件 工程 工程師 軟件工程師 之類的是可以檢索到的,這樣的弊端就是搜索的結(jié)果不準確.比如 你在搜索 軟件 這個關(guān)鍵詞的時候,如果一篇文章中只要含有 軟 和 件 這兩個字 都可以被檢索到,這樣的結(jié)果肯定不是我們想要的結(jié)果.

為了解決這種結(jié)果不準確,可以使用solr自帶的一個機制 雙引號 ,搜索的關(guān)鍵詞用雙引號包起來,這樣solr在檢索的時候會將雙引號的內(nèi)容必須是連在一起的才會檢索到,如 "軟件" 只會檢索到軟件這兩個字連在一起的結(jié)果,但其實這樣做的結(jié)果還有一個弊端,就是對用戶的檢索體驗并不是很友好,比如: 業(yè)務(wù)和服務(wù) 在進行檢索的時候可能會檢索到 和服 這種并不是我們想得到的用戶搜索結(jié)果,這時候可以使用中文分詞再對用戶的檢索詞進行分詞,然后再使用分詞的結(jié)果進行檢索.

2017年8月15日 12:03
編輯回答
念初

你說的大概意思是對的,就是solr在創(chuàng)建索引的時候,會對內(nèi)容(類型為TEXT類型或者其它你自定義的分詞類型)進行分詞操作,就比如你這里的‘軟件工程師’,在創(chuàng)建索引的時候會把‘軟件工程師’分成以下的詞語存儲:‘軟件工程’,‘軟件’,‘工程師’‘工程’,‘師’。所以只有搜索分詞后的詞匯才能搜索到結(jié)果,如果你想搜索到‘軟件工程師’可以有二種解決方法:
1.在你的分詞插件中,增加擴展詞匯,把‘軟件工程師’加到擴展詞匯中。
2.建索引時,設(shè)置該字段的類型為String類型的,也就是不會分詞的。這種情況就只能搜索‘軟件工程師’。而其他的如‘軟件工程’等,也就搜索不到了。

2017年6月7日 20:29
編輯回答
別硬撐

請問你解決了嗎 ?我也遇到這個問題了

2017年6月20日 05:58