鍍金池/ 問答/人工智能/ 一個(gè)機(jī)器學(xué)習(xí)二元分類的問題請教

一個(gè)機(jī)器學(xué)習(xí)二元分類的問題請教

需求
目前每天人工從1000~2000篇抓取的文章中 挑選出10~20篇高質(zhì)量的文章 推送給客戶
想要改成機(jī)器自動(dòng)篩選

想問一下 用機(jī)器學(xué)習(xí)實(shí)現(xiàn)這個(gè)需求該怎么做呢?

樣本大概是這樣:
平臺(tái) 標(biāo)題 內(nèi)容 內(nèi)容長度 是否推送(label)

回答
編輯回答
尋仙

先從特征工程上仔細(xì)思考?在抓取新聞過程中更多維度的抓取。然后重點(diǎn)落在高質(zhì)量如何判斷。

  • 如出現(xiàn)次數(shù),評論數(shù),互評數(shù),長度,是否廣告,都可能是影響文章“質(zhì)量”的因素。
  • 然后再以上述數(shù)據(jù)作為輸入傳入模型(LR/DT/SVM),輸出結(jié)果。

除此之外,如果不想做特征工程,可以考慮深度學(xué)習(xí)。將每條新聞,以一串長文本形式進(jìn)行word embedding作為序列傳入神經(jīng)網(wǎng)絡(luò),輸出是否高質(zhì)量的二分類。word embedding可以采用預(yù)訓(xùn)練好的或在訓(xùn)練模型時(shí)同時(shí)訓(xùn)練。

2017年10月18日 04:02
編輯回答
怣人

樣本有多大呢?有100W嗎?如果樣本很大的話,可以直接深度學(xué)習(xí)。如果不是太大的話,根據(jù)你給出的樣本可以直接上邏輯回歸。不過要自己提取特征,特征太小可能推薦不精準(zhǔn),特征太大又可能過擬合。還是要自己嘗試一下。

2018年6月22日 12:24