我正在寫一個信息檢索程序,PHP+MYSQL,數據庫是這么設計的(為簡化省去和問題無關的列):
詞表T: id, term;其中term列表示關鍵詞,做了唯一索引;
數據樣例:[1,'云計算'],[2,'大數據']
文檔表D:id, length;其中l(wèi)ength列表示文檔長度,用于計算排名以便排序搜索結果;
數據樣例:[1,300],[2,500]
關系表C:tid,did,count; 表示哪個詞出現在哪個文檔多少次?前兩列是外鍵,count列也用于計算排名;
數據樣例:[1,1,3],[1,2,5],[2,2,10]
對文檔集編制索引,也就是向這三個表插入數據,這一步已經完成。
接下來處理查詢,用戶輸入的是自然語言,例如“今年云計算和大數據發(fā)展趨勢”。
我用PHP提取出關鍵詞“云計算”“大數據”,現在是兩個,然后調用存儲過程來快速檢索:
CALL SP2('云計算','大數據');
存儲過程會返回文檔id數組,并根據相關度排序,相關度的計算比較復雜,會用到D.length和C.count,以及一些統計數據,比如文檔總共有多少個?其中包含詞'云計算'的文檔有多少個?……
我的問題是,目前我寫了SP(K),SP2(K1,K2);可PHP提取出來的關鍵詞數量可以任意多,總不能為每種數量編寫一個存儲過程吧?請問如何編寫一個存儲過程,能高效的處理任意多個關鍵詞呢?
我先簡要展示一下SP2的偽代碼(可能有語法錯誤,您湊付看,明白意思就好):
-- 計算文檔總數,包含關鍵詞K1、K2的文檔數
select count(*) into TotalD from D;
select count(*) into TotalDK1 from D
join C on C.did = D.id
join T on C.tid = T.id
where T.term = K1;
select count(*) into TotalDK2 from D
join C on C.did = D.id
join T on C.tid = T.id
where T.term = K2;
-- 檢索文檔,根據相關度排名,返回給PHP
select D.id, 計算相關度(TotalD, TotalDK1, TotalDK2, length, count) AS rel
from
(
select D.id, D.length, C.count from D join ... where T.term = K1
union all
select D.id, D.length, C.count from D join ... where T.term = K2
)
group by D.id
order by rel desc;
大致如此,您明白了吧,如果再寫SP3、SP4、……要了命了!
謝謝!
北大青鳥APTECH成立于1999年。依托北京大學優(yōu)質雄厚的教育資源和背景,秉承“教育改變生活”的發(fā)展理念,致力于培養(yǎng)中國IT技能型緊缺人才,是大數據專業(yè)的國家
北大青鳥中博軟件學院創(chuàng)立于2003年,作為華東區(qū)著名互聯網學院和江蘇省首批服務外包人才培訓基地,中博成功培育了近30000名軟件工程師走向高薪崗位,合作企業(yè)超4
中公教育集團創(chuàng)建于1999年,經過二十年潛心發(fā)展,已由一家北大畢業(yè)生自主創(chuàng)業(yè)的信息技術與教育服務機構,發(fā)展為教育服務業(yè)的綜合性企業(yè)集團,成為集合面授教學培訓、網
達內教育集團成立于2002年,是一家由留學海歸創(chuàng)辦的高端職業(yè)教育培訓機構,是中國一站式人才培養(yǎng)平臺、一站式人才輸送平臺。2014年4月3日在美國成功上市,融資1
曾工作于聯想擔任系統開發(fā)工程師,曾在博彥科技股份有限公司擔任項目經理從事移動互聯網管理及研發(fā)工作,曾創(chuàng)辦藍懿科技有限責任公司從事總經理職務負責iOS教學及管理工作。
浪潮集團項目經理。精通Java與.NET 技術, 熟練的跨平臺面向對象開發(fā)經驗,技術功底深厚。 授課風格 授課風格清新自然、條理清晰、主次分明、重點難點突出、引人入勝。
精通HTML5和CSS3;Javascript及主流js庫,具有快速界面開發(fā)的能力,對瀏覽器兼容性、前端性能優(yōu)化等有深入理解。精通網頁制作和網頁游戲開發(fā)。
具有10 年的Java 企業(yè)應用開發(fā)經驗。曾經歷任德國Software AG 技術顧問,美國Dachieve 系統架構師,美國AngelEngineers Inc. 系統架構師。