鍍金池/ 教程/ 大數(shù)據(jù)/ Hadoop教程
Hadoop命令參考
Hadoop教程
Hadoop介紹快速入門
Pig & Hive介紹
Hadoop MapReduce
Hadoop安裝
Hadoop環(huán)境安裝設(shè)置
Hadoop HDFS入門
理解 MapReducer
Hadoop多節(jié)點集群
OOZIE 五分鐘入門學(xué)習(xí)
Flume和Sqoop
Hadoop是什么?
MapReduce計數(shù)器和連接
MapReduce Hadoop程序連接數(shù)據(jù)
Hadoop Streaming
Hadoop HDFS
Hadoop程序入門實踐
MapReduce簡介和入門
Hadoop大數(shù)據(jù)解決方案
Hadoop HDFS操作

Hadoop教程

Hadoop是一個開源框架,它允許在整個集群使用簡單編程模型計算機的分布式環(huán)境存儲并處理大數(shù)據(jù)。它的目的是從單一的服務(wù)器到上千臺機器的擴展,每一個臺機都可以提供本地計算和存儲。

90%的世界數(shù)據(jù)在過去的幾年中產(chǎn)生”。

由于新技術(shù),設(shè)備和類似的社交網(wǎng)站通信裝置的出現(xiàn),人類產(chǎn)生的數(shù)據(jù)量每年都在迅速增長。美國從一開始的時候到2003年產(chǎn)生的數(shù)據(jù)量為5十億千兆字節(jié)。如果以堆放的數(shù)據(jù)磁盤的形式,它可以填補整個足球場。在2011年創(chuàng)建相同數(shù)據(jù)量只需要兩天,在2013年該速率仍在每十分鐘極大地增長。雖然生產(chǎn)的所有這些信息是有意義的,處理起來有用的,但是它被忽略了。

什么是大數(shù)據(jù)?

大數(shù)據(jù)是不能用傳統(tǒng)的計算技術(shù)處理的大型數(shù)據(jù)集的集合。它不是一個單一的技術(shù)或工具,而是涉及的業(yè)務(wù)和技術(shù)的許多領(lǐng)域。

在大數(shù)據(jù)會發(fā)生什么?

大數(shù)據(jù)包括通過不同的設(shè)備和應(yīng)用程序所產(chǎn)生的數(shù)據(jù)。下面給出的是一些在數(shù)據(jù)的框架下的領(lǐng)域。

  • 黑匣子數(shù)據(jù):這是直升機,飛機,噴氣機的一個組成部分,它捕獲飛行機組的聲音,麥克風(fēng)和耳機的錄音,以及飛機的性能信息。

  • 社會化媒體數(shù)據(jù):社會化媒體,如Facebook和Twitter保持信息發(fā)布的數(shù)百萬世界各地的人的意見觀點。

  • 證券交易所數(shù)據(jù):交易所數(shù)據(jù)保存有關(guān)的“買入”和“賣出”,客戶由不同的公司所占的份額決定的信息。

  • 電網(wǎng)數(shù)據(jù):電網(wǎng)數(shù)據(jù)保持相對于基站所消耗的特定節(jié)點的信息。

  • 交通運輸數(shù)據(jù):交通數(shù)據(jù)包括車輛的型號,容量,距離和可用性。

  • 搜索引擎數(shù)據(jù):搜索引擎獲取大量來自不同數(shù)據(jù)庫中的數(shù)據(jù)。

Big Data

因此,大數(shù)據(jù)包括體積龐大,高流速和可擴展的各種數(shù)據(jù)。它的數(shù)據(jù)為三種類型。

  • 結(jié)構(gòu)化數(shù)據(jù):關(guān)系數(shù)據(jù)。

  • 半結(jié)構(gòu)化數(shù)據(jù):XML數(shù)據(jù)。

  • 非結(jié)構(gòu)化數(shù)據(jù):Word, PDF, 文本,媒體日志。

大數(shù)據(jù)的好處

  • 通過保留了社交網(wǎng)絡(luò)如Facebook的信息,市場營銷機構(gòu)了解可以他們的活動,促銷等廣告媒介的響應(yīng)。

  • 利用信息計劃生產(chǎn)在社會化媒體一樣喜好并讓消費者對產(chǎn)品的認知,產(chǎn)品企業(yè)和零售企業(yè)。

  • 使用關(guān)于患者以前的病歷資料,醫(yī)院提供更好的和快速的服務(wù)。

大數(shù)據(jù)技術(shù)

大數(shù)據(jù)的技術(shù)是在提供更準確的分析,這可能影響更多的具體決策導(dǎo)致更大的運行效率,降低成本,并減少了對業(yè)務(wù)的風(fēng)險。

為了利用大數(shù)據(jù)的力量,需要管理和處理的實時結(jié)構(gòu)化和非結(jié)構(gòu)化的海量數(shù)據(jù),可以保護數(shù)據(jù)隱私和安全的基礎(chǔ)設(shè)施。

目前在市場上的各種技術(shù),從不同的供應(yīng)商,包括亞馬遜,IBM,微軟等來處理大數(shù)據(jù)。盡管找到了處理大數(shù)據(jù)的技術(shù),我們研究了以下兩類技術(shù):

操作大數(shù)據(jù)

這些包括像MongoDB系統(tǒng),提供業(yè)務(wù)實時的能力,這里主要是數(shù)據(jù)捕獲和存儲互動工作。

NoSQL大數(shù)據(jù)系統(tǒng)的設(shè)計充分利用已經(jīng)出現(xiàn)在過去的十年,而讓大量的計算,以廉價,高效地運行新的云計算架構(gòu)的優(yōu)勢。這使得運營大數(shù)據(jù)工作負載更容易管理,更便宜,更快的實現(xiàn)。

一些NoSQL系統(tǒng)可以提供深入了解基于使用最少的編碼無需數(shù)據(jù)科學(xué)家和額外的基礎(chǔ)架構(gòu)的實時數(shù)據(jù)模式。

分析大數(shù)據(jù)

這些包括,如大規(guī)模并行處理(MPP)數(shù)據(jù)庫系統(tǒng)和MapReduce提供用于回顧性和復(fù)雜的分析,可能觸及大部分或全部數(shù)據(jù)的分析能力的系統(tǒng)。

MapReduce提供分析數(shù)據(jù)的基礎(chǔ)上,MapReduce可以按比例增加從單個服務(wù)器向成千上萬的高端和低端機的互補SQL提供的功能,這是系統(tǒng)的一種新方法。

這兩個類技術(shù)是互補的,并經(jīng)常一起部署。

操作與分析系統(tǒng)

  操作 分析
等待時間 1 ms - 100 ms 1 min - 100 min
并發(fā) 1000 - 100,000 1 - 10
訪問模式 寫入和讀取 讀取
查詢 選擇 非選擇性
數(shù)據(jù)范圍 操作 回溯
最終用戶 顧客 數(shù)據(jù)科學(xué)家
技術(shù) NoSQL MapReduce, MPP 數(shù)據(jù)庫

大數(shù)據(jù)的挑戰(zhàn)

大數(shù)據(jù)相關(guān)的主要挑戰(zhàn)如下:

  • 采集數(shù)據(jù)
  • 策展
  • 存儲
  • 搜索
  • 分享
  • 傳輸
  • 分析
  • 展示

為了實現(xiàn)上述挑戰(zhàn),企業(yè)通常需要企業(yè)級服務(wù)器的幫助。