鍍金池/ 問答/PHP  數據庫/ 各位親,多關鍵詞搜索時,存儲過程怎么寫好?

各位親,多關鍵詞搜索時,存儲過程怎么寫好?

我正在寫一個信息檢索程序,PHP+MYSQL,數據庫是這么設計的(為簡化省去和問題無關的列):
詞表T: id, term;其中term列表示關鍵詞,做了唯一索引;
數據樣例:[1,'云計算'],[2,'大數據']
文檔表D:id, length;其中l(wèi)ength列表示文檔長度,用于計算排名以便排序搜索結果;
數據樣例:[1,300],[2,500]
關系表C:tid,did,count; 表示哪個詞出現在哪個文檔多少次?前兩列是外鍵,count列也用于計算排名;
數據樣例:[1,1,3],[1,2,5],[2,2,10]

對文檔集編制索引,也就是向這三個表插入數據,這一步已經完成。

接下來處理查詢,用戶輸入的是自然語言,例如“今年云計算和大數據發(fā)展趨勢”。
我用PHP提取出關鍵詞“云計算”“大數據”,現在是兩個,然后調用存儲過程來快速檢索:
CALL SP2('云計算','大數據');
存儲過程會返回文檔id數組,并根據相關度排序,相關度的計算比較復雜,會用到D.length和C.count,以及一些統計數據,比如文檔總共有多少個?其中包含詞'云計算'的文檔有多少個?……

我的問題是,目前我寫了SP(K),SP2(K1,K2);可PHP提取出來的關鍵詞數量可以任意多,總不能為每種數量編寫一個存儲過程吧?請問如何編寫一個存儲過程,能高效的處理任意多個關鍵詞呢?

我先簡要展示一下SP2的偽代碼(可能有語法錯誤,您湊付看,明白意思就好):

-- 計算文檔總數,包含關鍵詞K1、K2的文檔數
select count(*) into TotalD from D;

select count(*) into TotalDK1 from D
join C on C.did = D.id
join T on C.tid = T.id
where T.term = K1;

select count(*) into TotalDK2 from D
join C on C.did = D.id
join T on C.tid = T.id
where T.term = K2;

-- 檢索文檔,根據相關度排名,返回給PHP
select D.id, 計算相關度(TotalD, TotalDK1, TotalDK2, length, count) AS rel
from
(
select D.id, D.length, C.count from D join ... where T.term = K1
union all
select D.id, D.length, C.count from D join ... where T.term = K2
)
group by D.id
order by rel desc;

大致如此,您明白了吧,如果再寫SP3、SP4、……要了命了!

謝謝!

回答
編輯回答
嫑吢丕

為啥用數據庫實現,用全文搜索啊,一般都有權重功能的...

2018年8月2日 12:00