物流寄情36:什麼是大數據?

楊惟雯

 

一、Big Data 名稱的由來

 

《Big data》,台灣翻譯為海量資料巨量資料,大陸翻譯為大數據,此名詞在2010年由IBM 所提出。
大數據內容包括互聯網文本和文件、互聯網搜索索引、網絡日誌、RFID、傳感器數據、社會網絡數據、視頻檔案、天文學、大氣科學、醫療記錄、基因組學、其他跨學科的科研、軍事偵察和大規模的電子商務數據…。且些數據常常與採集它們的工具、平臺、分析系統一起被稱為“大數據”。

 

根據科技研究公司IDC作出的估測,數據一直都在以每年50%的速度增長,換而言之,也就是每兩年就增長一倍。而物聯網、雲端運算、移動互聯網、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數據來源或者承載的方式。

 

在過去的十年間,數據爆炸已經成為人所共知的一個話題,根據市場研究公司IDC去年發佈的數據,預估2009年到2020年期間,數字資訊總量將增長44倍。加上視頻、圖片、音頻等等非結構化富媒體數據的應用越來越頻繁,社交網路的不斷增長和壯大,目前,每天光是流向社群網站Facebook與Twitter的資料量,就多達3億張照片、25億則發文、27億按讚數

 

信息獲取的技術上取得進步,這是促進“大數據”趨勢發展的重要原因。舉例來說,在許多工業設備、電子設備、汽車和集裝箱中,都安裝上無數的數字感測器,這些感測器能測量和傳送位置、運動、震動、溫度和濕度等數據,甚至還能測量空氣中的化學變化。將這些傳測器數據與電腦智能互聯起來,那麼你就會看到所謂的“物聯網”(Internet of Things)。

 

另外,各國政府亦向公衆提供各種數據——如就業、房價及其他數據。例如2009年中,美國政府通過啟動Data.gov網站的方式進一步開放了數據的大門,這個網站向公衆提供各種各樣的政府數據。

 

二、大數據的特徵

 

IBM把大數據概括成了三個V,即大量化(Volume)、多樣化(Variety)和快速化(Velocity)。

1、大量化
海量資料的特色就在於:龐大。作為泛指的大數據,按EMC的界定,其中的“大”是指大型數據集,一般在10TB(Tera Bytes)規模左右;多用戶把多個數據集放在一起,形成PB(Peta Bytes)的數據量;同時這些數據來自多種數據源,以即時、迭代的方式來實現。

政府、企業、即時感測器等資料包羅萬象,很容易便達到數TB,甚至上看PB之譜。

2、多樣化
海量資料的範疇不僅止於結構化資料,還包含各類非結構化的資料:諸如文字、音訊、視訊、點擊串流、日誌檔等等。

3、快速化
海量資料通常具有時效性,一旦串流到運算伺服器就須立即使用,即時得結果才能發揮其最大價值。

 

總之,大數據通常具有四個層面的特點:

第一,數據體量巨大。從TB級別,躍升到PB級別﹔

第二,數據類型繁多。如網絡日誌、視頻、圖片、地理位置信息等等。第三,價值密度低。以視頻為例,連續不間斷監控過程中,可能有用的數據僅僅有一兩秒。

第四,處理速度快。1秒定律。最後這一點也是和傳統的數據挖掘技術有著本質的不同。

業界通常稱為4個“V”──VOLume、Variety、Value、Velocity。

 

其實,真正的大數據時代從2012年剛剛開始。標誌性的區別就在于,以往的數據只是結構化的數據,是非個性化的數據;而進入2012年,非結構化數據佔有比例將達到互聯網整個數據量的75%以上,這意味著個性化數據時代的到來。

這種異質性、個性化,這才是數據的真正本質。  

 

三、大數據技術

 

大數據不僅是正在快速增長,同時,也正在變得更加容易被電腦所理解運用。
“大數據”發展趨勢中所增加的大部分數據都是在自然環境下産生的,比如說網絡言論圖片視頻等不受控制的東西,以及來自於感測器的數據…等。這些是所謂的“非結構化數據”,通常不能為傳統的資料庫所用。

 

另外,電腦的運算技術也正在迅速進步中,比如說人工智能(AI)、自然語言處理、模式識別和機器學習…等技術。這些電腦智能運算技術能應用於許多領域。舉例來說,谷歌的搜索、廣告業務及其實驗中的機器人汽車,都利用了很多的人工智能技術,它們對數量龐大的數據進行分析,並作出瞬時的決策。

 

從某個角度來看,《Big data》其實是巨大資料資料庫加上處理方法的一個總稱,其中包含資訊領域的《機器學習Machine Learning》、《數據分析Data Mining》、《人工智慧Artificial Intelligence》以及現在最火紅的《檔案處理系統Hadoop》,這些資訊技術相互融合,加上近年來電腦處理速度與存儲裝置的性能快速提升,使得即時處理大量資料變成可能,在這個當下爆出應用火花。

 

而從各式各樣的數據(含大量非結構化和半結構化數據)中,快速獲得有價值信息的能力,就是大數據技術。
舉例來說,網羅分析Google搜索、Facebook帖子和Twitter消息等數據,使得對人們行為和情緒的細節化測量已成為可能。明白這一點至關重要,這正是大數據技術具備走向眾多企業應用的驅動力。

 

此外,大數據尚需要特殊的技術,以在容忍時間內,有效地處理大量的數據。適用於大數據的技術,包括大規模並行處理(MPP)數據庫、數據挖掘電網、分布式文件系統、分布式數據庫、雲端運算平台、互聯網和可擴展的存儲系統。

 

反過來看,大量的新數據也正在激勵這些電腦智能運算技術的進步,這是“大數據”時代中的一個良性循環。機器學習運算法能基於數據來進行學習,數據越多機器就能學到越多。
舉例來說,蘋果在2012年秋天推出的iPhohne手機Siri語音助理服務,這個應用正透過使用者每天提供成千上萬條問題的激勵下,促進Siri蛻變成一種日益熟練的個人助理,已能向用戶提供提醒、天氣預報、餐飲建議和對大量問題作出解答…等服務。

 

毫無疑問,“大數據”本身也存在一些風險。統計學家和計算機科學家指出,“大數據”的集合和高密度的測量將令“錯誤發現”的風險增長。史坦福大學的統計學教授特來沃爾-哈斯迪(Trevor Hastie)稱,如果想要在龐大的數據“乾草垛”中找到一根有意義的“針”,那麼所將面臨的問題就是“許多稻草看起來就像是針一樣”。

但“大數據”時代的降臨看起來已是無可逆轉。

 

四、Hadoop技術簡介

 

其實,大數據通常與Hadoop、NoSQL、數據分析與挖掘、數據倉庫、商業智能以及開源雲端運算架構等諸多熱點話題聯繫在一起。

而處理海量資料《Big data》的技術,現今最火紅的則非《Hadoop》莫屬了喔!

 

什麼是Hadoop?根據《Hadoop》的創辦人Doug Cutting所言“Hadoop”就只是幫一隻黃色的填充大象取的名字而已,沒有什麼特別的意思純粹只是好記而已。而《Hadoop》技術的誕生則是因為網際網路資料的爆炸性成長,傳統的檔案系統無法負荷儲存跟分類,從而根據Google搜尋器的相關的學術論文為藍圖,演變成一套儲存、處理、分析 TB(Tera Bytes)甚至PB(Peta Bytes)等級的資料處理方法。

 

Hadoop是百分之一百免費,由Java程式語言所編寫的Open Source,一種從根本結構上與現存技術不同且先進的儲存、處理、分析海量資料的技術,執行Hadoop使用者無須仰賴昂貴的或是具有專利的軟硬體平台,Hadoop可以在便宜且工業規格化的伺服器群上執行平行資料處理以及分析,有了Hadoop沒有什麼資料量是過大的,在現今資料量爆炸的時代企業、學術、政府等組織可以利用從之前被認為是無用的資料找出從來沒被發現的參考價值。

 

《Hadoop》基本上可以處理任何資料型態,不論是結構化或是非結構化,log紀錄檔、照片、聲音、通訊紀錄或是電子郵件。不管是什麼資料你都可以匯入《Hadoop》Cluster並且不用作任何前處理,它就會幫你回答你從來不曾想過的問題!《Hadoop》把看似毫無關聯的資料背後所隱含的訊息呈現出來,使用者便可以根據更多的參考資料做出對應決策了。

 

 

 

上圖源自http://hadoop.apache.org/

 

arrow
arrow
    全站熱搜

    大宅配 發表在 痞客邦 留言(0) 人氣()