物流寄情51:何謂大資料
(big data)?
楊惟雯
一、什麼是大資料?
所謂大資料是指在允許的時間裡,無法用常規軟體工具對其內容進行抓取、管理和處理而產生的資料集合。
這些資料可能不像以前關聯式資料庫用文字表達,有很多是影像、圖片、聲音,以及由機器產生出來的一些莫名其妙的訊號…等等。
Gartner對大資料下了一個簡潔的定義:
“大資料是需要新處理模式才能具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的資訊資產。”
所以,大資料既包含結構化資料、也包括非結構化資料(比如郵件、日誌檔、社交多媒體、商業交易及其他資料),而且是以數量巨大、變化率高的形式存在。
對於大資料,IDC的定義是:“為了更經濟地從高頻率獲取的、大容量的、不同結構和類型的資料中獲取價值,而設計的新一代架構和技術。”人們普遍將該定義概括為四個V,即更大的容量(volume,從TB級躍升至PB級,甚至EB級)、更高的多樣性(variety,包括結構化、半結構化和非結構化資料),以及更快的生成速度(velocity)。前面三個“V”的組合推動了第四個因素——價值(value)。
而在醫療數位化的過程中,醫院成了大資料產生的重要來源,例如病歷、影像、遠端醫療…等都會產生大量的資料。
二、大資料的特點
具體來說,大資料具有4個基本特徵:
一是資料體量巨大(Volume)。
由百度資料為例,其首頁導航每天需要提供的資料超過1.5PB(1PB=1024TB),這些資料如果列印出來,將超過5千億張A4紙。
據估,到目前為止,人類生產的所有印刷材料的數據量僅為200PB。
二是資料類型多樣(Variety)。
現在的資料類型不僅是文本形式,更多的是圖片、視頻、音頻、地理位置資訊等多類型的資料,個性化資料占絕對多數。
三是處理速度快(Velocity)。
資料處理遵循“1秒定律”,可從各種類型的資料中,快速獲得高價值的資訊。
四是價值密度低(Value)。
以視頻為例,一小時的視頻,在不間斷的監控過程中,可能有用的資料僅僅只有一兩秒。
所以,現代很多企業正在經歷規模化、多樣化、高速化及價值密度低的資料挑戰。而一方面,大資料環境使IT 負責人和職員無法有效的在資料的海洋中收集、處理和分析資訊;另一方面,CEO 等企業高管、對績效直接負責的業務管理者也因不能及時獲得所需的資訊,而無法使資訊服務於業務目標、預測商業風險和實施智慧商業決策。
三、大資料發揮的效用
美國麥肯錫全球研究院2011年6月發布題為《大數據:下一個創新、競爭和生產力的前沿》的研究報告,指出“大數據時代已經到來”,數據正成為與物質資產和人力資本相提並論的重要生產要素,大數據的使用將成為未來提高競爭力的關鍵要素。
信息技術領域原先已經有“海量數據”、“大規模數據”等概念,但這些概念只著眼於數據規模本身,未能充分反映數據爆發背景下的數據處理與應用需求,而“大數據”這一新概念不僅指規模龐大的數據對象,也包含對這些數據對象的處理和應用活動,是數據對象、技術與應用三者的統一。
有學者把大數據形象地比喻為推動人類社會發展的“新石油”。
大資料正在成為企業的一項資產,擅用大資料,最終幫助企業找到新的增長點;而錯過大資料的發展機會,最終使企業喪失競爭優勢。
第一,對大資料的處理分析正成為新一代資訊技術融合應用的結點。移動互聯網、物聯網、社交網路、數位家庭、電子商務等是新一代資訊技術的應用形態,這些應用不斷產生大資料。
雲端運算為這些海量、多樣化的大資料提供存儲和運算平臺。通過對不同來源資料的管理、處理、分析與優化,將結果反饋到上述應用中,將創造出巨大的經濟和社會價值。
第二,大資料是資訊產業持續高速增長的新引擎。
面向大資料市場的新技術、新產品、新服務、新業態會不斷湧現。
在硬體與集成設備領域,大資料將對晶元、存儲產業產生重要影響,還將催生一體化資料存儲處理伺服器、記憶體計算等市場。
在軟體與服務領域,大資料將引發資料快速處理分析、資料挖掘技術和軟體產品的發展。
第三,大資料利用將成為提高核心競爭力的關鍵因素。
各行各業的決策正在從“業務驅動” 轉變“資料驅動”。
對大資料的分析可以使零售商實時掌握市場動態並迅速做出應對;可以為商家制定更加精準有效的營銷策略提供決策支援;可以幫助企業為消費者提供更加及時和個性化的服務;在醫療領域,可提高診斷準確性和藥物有效性;在公共事業領域,大資料也開始發揮促進經濟發展、維護社會穩定等方面的重要作用。
第四,大資料時代科學研究的方法手段將發生重大改變。
例如,抽樣調查是社會科學的基本研究方法。而在大資料時代,可通過實時監測、跟蹤研究對象在互聯網上產生的海量行為數據,進行挖掘分析,揭示出規律性的東西,提出研究結論和對策。
四、大資料的常見誤解
1、資料不等於信息
經常有人把資料和資訊當作同義詞來用。其實不然,資料指的是一個原始的資料點(無論是通過數字,文字,圖片還是視頻等等),資訊則直接與內容掛鉤,需要有資訊性(informative)。資料越多,不一定就能代表資訊越多,更能不能代表資訊就會成比例增多。
有兩個簡單的例子:
備份。很多人如今已經會定期的對自己的硬碟進行備份。這個沒什麼好多解釋的,每次備份都會創造出一組新的資料,但資訊並沒有增多。
多個社交網站上的資訊。我們當中的很多人在多個社交網站上活躍,隨著我們上的社交網站越多,我們獲得的資料就會成比例的增多,我們獲得的資訊雖然也會增多,但卻不會成比例的增多。不單單因為我們會互相轉發好友的微博(或者其他社交網站上的內容),更因為很多內容會十分類似。
2、資訊不等於智慧(Insight)
現在我們去除了資料中所有重覆的部分,也整合了內容類似的資料,現在我們剩下的全是資訊了,這對我們就一定有用嗎?不一定。
資訊要能轉化成智慧,至少要滿足一下三個標準:
●可破譯性。
這可能是個大資料時代特有的問題,越來越多的企業每天都會生產出大量的資料,卻還沒想好怎麼用,因此,他們就將這些數據暫時非結構化(unstructured)的存儲起來。這些非結構化的資料卻不一定可破譯。比如說,你記錄了某客戶在你網站上三次翻頁的時間間隔:3秒,2秒,17秒,卻忘記標註這三個時間到底代表了什麼,這些資料是資訊(非重覆性),卻不可破譯,因此不可能成為智慧。
●關聯性。
無關的資訊,至多只是噪音。
●新穎性。
這裡的新穎性很多時候無法僅僅根據我們手上的數據和信息進行判斷。舉個例子,某電子商務公司通過一組資料/資訊,分析出了客戶願意為當天送貨的產品多支付10塊錢,然後又通過另一組完全獨立的資料/資訊得到了同樣的內容,這樣的情況下,後者就不具備新穎性。不幸的是,很多時候,我們只有在處理了大量的資料和資訊以後,才能判斷它們的新穎性。
五、大資料存儲須面對的問題
在傳統的資料倉庫上進行對相似資料集的挖掘操作,一般都在一個單獨的存放裝置上進行。現在這種方法對處理能力和存儲容量的可擴展性來說,已經不是最優的選擇了。
隨著大資料應用的爆發性增長,它已經衍生出了自己獨特的架構,而且也直接推動了存儲、網路以及計算技術的發展。畢竟處理大資料這種特殊的需求是一個新的挑戰。
無論一個公司部署什麼類型的大資料倉儲,有一些共通的因素必須加以考量,以保證為大資料分析工作提供一個有效的框架。
1、資料準確性
2、存儲適用
3、查詢性能
4、穩定性
由於隨著結構化資料和非結構化資料量的持續增長,以及分析資料來源的多樣化,以往存儲系統的設計已經無法滿足大資料應用的需要。存儲廠商已經意識到這一點,用Hadoop和NoSQL(非結構化資料庫)技術增強資料倉庫就成為必要。
●容量問題
這裡所說的“大容量”通常可達到PB級的資料規模,因此,海量資料存儲系統也一定要有相應等級的擴展能力。與此同時,存儲系統的擴展一定要簡便,可以通過增加模塊或磁碟櫃來增加容量,甚至不需要停機。基於這樣的需求,客戶現在越來越青睞Scale-out架構的存儲,因Scale-out架構可以實現無縫平滑的擴展,避免存儲孤島。
而Hadoop系統和NoSQL資料庫也已經成為管理大資料環境的重要工具。
●延遲問題
相反,一個web分析工作負載,要求能在低延遲的情況下訪問大量的小檔,使用大量的電腦或者存儲單元,性能和容量都可以在一定條件下進行擴展,這種大資料需要新的存儲方式。
1、首先是橫向擴展(scale-out)NAS。
橫向擴展NAS是檔級別的訪問記憶體,它是由多個連接在一起的存儲節點構成,而且存儲容量和處理能力會隨著節點的增加而提升。同時,支援數十億檔和PB級存儲容量的並行檔案系統允許把不同位置的大量資料連接起來。
橫向擴展NAS產品主要包括:EMC Isilon及其OneFS分散式檔案系統;HDS的 Cloudera Hadoop Distribution Cluster 基準體系架構;Data Direct Networks hScaler Hadoop NAS平臺;IBM的SONAS;HP的X9000;還有DATA Ontap橫向擴展作業系統版本已經到8.2的NetApp。
2、另一個適合處理大量資料的技術是物件存儲。
物件存儲有可能替代傳統的樹形檔案系統。物件存儲支援平行的資料結構,所有檔都有唯一的ID標識,類似於網上的DNS系統。在平行的檔案系統結構中比在垂直的檔案系統結構中處理大量的物件要簡單的多。
物件存儲產品越來越多的支援大資料分析環境,其產品主要有Scality的RING體系結構,Dell 的DX,還有EMC的Atmos平臺。
3、Hyperscale和ViPR
另一個被稱作Hyperscale的電腦/存儲體系結構,憑藉其被諸如Facebook和Google等公司的使用,而日益突顯。
Hyperscale使用許多相對簡單常見的基於硬體的直連式存儲電腦節點,來提高大資料分析環境的性能,比如Hadoop。
和傳統的企業級計算和存儲構架不同,hyperscale在完整的電腦/DAS節點上進行冗餘備份。如果一部分節點遇到故障,失敗的任務將會交給另一個備份節點。整個出故障的單元都會被替換。這個方法適合非常大規模資料的使用者,比如前面提到的一些網路先驅者。
EMC World也推出其軟體定義存儲ViPR。
ViPR在現有的存放裝置上放置了一個橫向擴展物件,能將這些存放裝置——EMC或者其它供應商的存儲陣列、DAS和商品存儲——管理起來作為一個單獨的存儲池。
另外,ViPR的存儲容量可以通過API連接到Hadoop或者其它大資料分析引擎,使資料可以在資料存儲的位置進行分析查詢。
Nutanix被稱為高度融合的存儲和計算節點的出現也反應了這個趨勢。這個初創公司將計算和存儲系統合併到了一起,並出售其支援集群的2U系統,該系統為Hadoop使用者提供hyperscale節點,每個節點有四個CPU插槽。使用SSD和旋轉介質,提供資料分層和壓縮,能達到宣稱的2GBps的輸送量。
●安全問題
某些特殊行業的應用,比如金融資料、醫療資訊以及政府情報等都有自己的安全標準和保密性需求,這都是必須遵從的。
●資料的積累
許多大資料應用都會涉及到法規遵從問題,這些法規通常要求資料要保存幾年或者幾十年。比如財務資訊通常要保存7年。而患者的病歷可能需要保存70或80年,甚至更長。許多情況下,病歷還必須以原始格式永久保存,以滿足法規遵從的要求。
同樣,生命科學研究機構有選擇性的選擇價值足以保留和維護數十年的資料,以期為新研究提供依據。
●成本問題
“大”,也可能意味著代價不菲。而對於那些正在使用大資料環境的企業來說,成本控制是關鍵的問題。
想控製成本,就意味著我們要讓每一臺設備都實現更高的“效率”,同時還要減少那些昂貴的部件。
目前,像重覆資料刪除等技術已經進入到主存儲市場,而且現在還可以處理更多的資料類型,這都可以為大資料存儲應用帶來更多的價值,提升存儲效率。