鍍金池/ 問答/數(shù)據(jù)分析&挖掘/ 1百萬(wàn)行*4列數(shù)據(jù),用R語(yǔ)言dist()計(jì)算距離提示內(nèi)存不足,請(qǐng)問怎么優(yōu)化

1百萬(wàn)行*4列數(shù)據(jù),用R語(yǔ)言dist()計(jì)算距離提示內(nèi)存不足,請(qǐng)問怎么優(yōu)化

1百萬(wàn)行*4列數(shù)據(jù),用R語(yǔ)言dist()計(jì)算距離提示內(nèi)存差3000G,請(qǐng)問怎么優(yōu)化

回答
編輯回答
女流氓

不確定你怎么做的,是不是笛卡爾積了

2018年7月25日 07:33
編輯回答
護(hù)她命

我不知道你的具體場(chǎng)景是什么,所以可以幫到你的不多。

之前我也接觸類似難度的項(xiàng)目,這里分享一點(diǎn)建議。

  1. 在數(shù)據(jù)上進(jìn)行優(yōu)化,例子:使用 matrix 取代 data frame
  2. 使用 bigmemoryff,底部為C++,這是R用戶常用來(lái)處理大數(shù)據(jù)的包
  3. 考慮使用 spark或者hadoop,對(duì)接到R環(huán)境。

你還可以同時(shí)在阿里云或者亞馬遜上啟動(dòng)一臺(tái)超級(jí)服務(wù)器,把硬件的局限降到最低。

這里有份文章,可以作為參考。

2018年3月27日 00:47