“90%的世界數(shù)據(jù)在過去的幾年中產(chǎn)生”。
由于新技術(shù),設(shè)備和類似的社交網(wǎng)站通信裝置的出現(xiàn),人類產(chǎn)生的數(shù)據(jù)量每年都在迅速增長。美國從一開始的時候到2003年產(chǎn)生的數(shù)據(jù)量為5十億千兆字節(jié)。如果以堆放的數(shù)據(jù)磁盤的形式,它可以填補整個足球場。在2011年創(chuàng)建相同數(shù)據(jù)量只需要兩天,在2013年該速率仍在每十分鐘極大地增長。雖然生產(chǎn)的所有這些信息是有意義的,處理起來有用的,但是它被忽略了。
大數(shù)據(jù)是不能用傳統(tǒng)的計算技術(shù)處理的大型數(shù)據(jù)集的集合。它不是一個單一的技術(shù)或工具,而是涉及的業(yè)務(wù)和技術(shù)的許多領(lǐng)域。
大數(shù)據(jù)包括通過不同的設(shè)備和應(yīng)用程序所產(chǎn)生的數(shù)據(jù)。下面給出的是一些在數(shù)據(jù)的框架下的領(lǐng)域。
黑匣子數(shù)據(jù):這是直升機,飛機,噴氣機的一個組成部分,它捕獲飛行機組的聲音,麥克風(fēng)和耳機的錄音,以及飛機的性能信息。
社會化媒體數(shù)據(jù):社會化媒體,如Facebook和Twitter保持信息發(fā)布的數(shù)百萬世界各地的人的意見觀點。
證券交易所數(shù)據(jù):交易所數(shù)據(jù)保存有關(guān)的“買入”和“賣出”,客戶由不同的公司所占的份額決定的信息。
電網(wǎng)數(shù)據(jù):電網(wǎng)數(shù)據(jù)保持相對于基站所消耗的特定節(jié)點的信息。
交通運輸數(shù)據(jù):交通數(shù)據(jù)包括車輛的型號,容量,距離和可用性。
搜索引擎數(shù)據(jù):搜索引擎獲取大量來自不同數(shù)據(jù)庫中的數(shù)據(jù)。
因此,大數(shù)據(jù)包括體積龐大,高流速和可擴展的各種數(shù)據(jù)。它的數(shù)據(jù)為三種類型。
結(jié)構(gòu)化數(shù)據(jù):關(guān)系數(shù)據(jù)。
半結(jié)構(gòu)化數(shù)據(jù):XML數(shù)據(jù)。
非結(jié)構(gòu)化數(shù)據(jù):Word, PDF, 文本,媒體日志。
通過保留了社交網(wǎng)絡(luò)如Facebook的信息,市場營銷機構(gòu)了解可以他們的活動,促銷等廣告媒介的響應(yīng)。
利用信息計劃生產(chǎn)在社會化媒體一樣喜好并讓消費者對產(chǎn)品的認知,產(chǎn)品企業(yè)和零售企業(yè)。
使用關(guān)于患者以前的病歷資料,醫(yī)院提供更好的和快速的服務(wù)。
大數(shù)據(jù)的技術(shù)是在提供更準確的分析,這可能影響更多的具體決策導(dǎo)致更大的運行效率,降低成本,并減少了對業(yè)務(wù)的風(fēng)險。
為了利用大數(shù)據(jù)的力量,需要管理和處理的實時結(jié)構(gòu)化和非結(jié)構(gòu)化的海量數(shù)據(jù),可以保護數(shù)據(jù)隱私和安全的基礎(chǔ)設(shè)施。
目前在市場上的各種技術(shù),從不同的供應(yīng)商,包括亞馬遜,IBM,微軟等來處理大數(shù)據(jù)。盡管找到了處理大數(shù)據(jù)的技術(shù),我們研究了以下兩類技術(shù):
這些包括像MongoDB系統(tǒng),提供業(yè)務(wù)實時的能力,這里主要是數(shù)據(jù)捕獲和存儲互動工作。
NoSQL大數(shù)據(jù)系統(tǒng)的設(shè)計充分利用已經(jīng)出現(xiàn)在過去的十年,而讓大量的計算,以廉價,高效地運行新的云計算架構(gòu)的優(yōu)勢。這使得運營大數(shù)據(jù)工作負載更容易管理,更便宜,更快的實現(xiàn)。
一些NoSQL系統(tǒng)可以提供深入了解基于使用最少的編碼無需數(shù)據(jù)科學(xué)家和額外的基礎(chǔ)架構(gòu)的實時數(shù)據(jù)模式。
這些包括,如大規(guī)模并行處理(MPP)數(shù)據(jù)庫系統(tǒng)和MapReduce提供用于回顧性和復(fù)雜的分析,可能觸及大部分或全部數(shù)據(jù)的分析能力的系統(tǒng)。
MapReduce提供分析數(shù)據(jù)的基礎(chǔ)上,MapReduce可以按比例增加從單個服務(wù)器向成千上萬的高端和低端機的互補SQL提供的功能,這是系統(tǒng)的一種新方法。
這兩個類技術(shù)是互補的,并經(jīng)常一起部署。
操作 | 分析 | |
---|---|---|
等待時間 | 1 ms - 100 ms | 1 min - 100 min |
并發(fā) | 1000 - 100,000 | 1 - 10 |
訪問模式 | 寫入和讀取 | 讀取 |
查詢 | 選擇 | 非選擇性 |
數(shù)據(jù)范圍 | 操作 | 回溯 |
最終用戶 | 顧客 | 數(shù)據(jù)科學(xué)家 |
技術(shù) | NoSQL | MapReduce, MPP 數(shù)據(jù)庫 |
大數(shù)據(jù)相關(guān)的主要挑戰(zhàn)如下:
為了實現(xiàn)上述挑戰(zhàn),企業(yè)通常需要企業(yè)級服務(wù)器的幫助。