鍍金池/ 問答/Linux  數(shù)據(jù)庫/ 多維度統(tǒng)計計算

多維度統(tǒng)計計算

想咨詢您一個關(guān)于多維統(tǒng)計的解決方案~
我們公司每天日志2G 左右,日志條數(shù)300W左右~

在做數(shù)據(jù)統(tǒng)計時,如果粒度太細,數(shù)據(jù)量就會很大,查詢的維度也相對比較固定~查詢速度也會隨著數(shù)據(jù)增加而變慢~

需求是希望在web端,可以即時搜索,不同維度,顯示不同的報表~
如:品牌、型號、地區(qū)、運營商~
時間:日、周、月、季度、年
可能按照品牌+機型、地區(qū),品牌+運營商,品牌+地區(qū)、運營商等等+時間 隨意組合。

看到網(wǎng)絡(luò)上有OLAP等相關(guān)方案,但是都和大數(shù)據(jù)有關(guān),我覺得現(xiàn)在這個數(shù)據(jù)量級還達不到大數(shù)據(jù)那個層次吧~~

有什么好的建議方案 或者 相關(guān)的研究資料呢?

回答
編輯回答
賤人曾

一天 300W ,一周 2000W ,一個月 1億,一年是 10 億級別的,還是算大了。(當然,如果你的指標維度,只有你列出的那么一點,那數(shù)據(jù)還是很簡單的)
MySQL 就別想了,不光它,任何通用的關(guān)系型數(shù)據(jù)庫都別想了。
并且,通用數(shù)據(jù)模型層面的(即指望一套方案,在不人為針對性設(shè)計的情況下,直接解決所有數(shù)據(jù)存儲的問題),就不要想著去解決了。(真不是你們能解決的問題)
針對具體“事實”下的數(shù)據(jù),專門做一些存儲的設(shè)計,要解決還是有可能的。

功能好點的方案,我知道有 2 個,一個是基于 Postgresql 的 Greenplum ,另一個是 yandex 開源出來的 Clickhouse。

前段時間我看 ClickHouse 的東西寫在 https://www.zouyesheng.com/cl... 。

另外還有一個思路,就是靠 HBase 這種,窮舉維度預(yù)處理計算,靠空間換時間。不過這種方案,在應(yīng)用層上不太好設(shè)計,對 SQL 的基本支持都是一個挑戰(zhàn)。

2018年3月23日 02:47
編輯回答
風清揚

其實就是個大數(shù)據(jù)問題呀,不一定非要用大數(shù)據(jù)的標配Hadoop系列(如HBase、Hive等),可以用MongoDB、ElasticSearch等技術(shù)來解決MySQL比較難處理的問題(單個MySQL超過10M條數(shù)據(jù)就夠嗆了)。

2018年9月23日 11:38