導讀: 大資料的意義是由人類日益普及的網路行為所伴生的。從海量資料中“提純”出有用的資訊,是一項非常龐大的工程,也是當下大資料時代面臨的重大挑戰。在經歷了近幾年來各界對大資料的批判、質疑、討論、炒作之後,大資料的發展依舊任重道遠。
目前,幾乎所有世界級的網路企業,都將業務觸角延伸至Big
Data產業。
無論社交平臺逐鹿、電商價格大戰、還是門戶網站競爭,都有它的影子。Big Data,正由技術熱詞變成一股社會浪潮,影響社會生活的方方面面。
何謂大數據?大資料或稱巨量資料,是指所涉及的資料量規模,巨大到無法通過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。(在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》中,大數據指不用隨機分析法(抽樣調查)這樣的捷徑,而採用所有資料的方法)大數據的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。那麼我們從定義上來理解一下“大數據”在《大數據時代》所定義的四個特徵中,我們可以大概感知得到它的價值:資料體量大,資料類型多,資料價值密度低,資料具有時效性。
來自於資料儲存方面的挑戰:大數據發展面臨的問題是來自不同地方、不同標準、資料量大、多種結構形式、即時性等多樣化要求的資料資訊。這些問題無疑增加了資料獲取和整合的困難,故此應修改基於塊和檔的儲存系統的架構設計,以克服存在的問題。
來自於資料安全方面的挑戰:資料的持續增長帶來了資料的安全問題。首先,大數據因為目標大而在網路上更容易被發現;其次,大數據存在更敏感更有價值的資料,對潛在攻擊者的吸引力更大。此外,個人資訊的曝露,也會造成個人安全的問題。
來自於資料顯示方面的挑戰:與資料分析相比,很多使用者往往更關心資料結果的顯示。傳統的以文本形式輸出結果,或者直接在電腦終端上,顯示結果的方法在面對小資料量或許是很好的選擇,但是對於形式複雜的海量資料是不可行的。這就需要引入視覺化技術來視覺化最終甚至是中間的計算結果,此外,還需要人機交互技術或者資料起源技術,使得使用者在得到結果的同時更好的理解結果的由來。
來自於資料成本控制方面的挑戰:對於那些正在使用大數據環境的企業來說,成本控制是關鍵的問題。想控制成本,就意味著我們要讓每一台設備都實現更高的“效率”,同時還要減少那些昂貴的部件。重復資料刪除等技術已經進入到主儲存市場,而且還可以處理更多的資料類型,這都可以為大數據儲存應用帶來更多的價值,提升儲存效率。
在資料量不斷增長的環境中,通過減少後端儲存的消耗,哪怕只是降低幾個百分點。當今,資料中心使用的傳統引導驅動器不僅故障率高,而且具有較高的維修和更換成本。
如果用它替換資料中心的獨立伺服器引導驅動器,則能將可靠性提升多達100倍。並且對主機系統是透明的,能為每一個附加伺服器提供唯一的引導鏡像,可簡化系統管理,提升可靠性,並且節電率高達60%,真正做到了節省成本的問題。
來自於資料分析方面的挑戰:資料分析是大數據處理流程的核心,因為大數據的價值就產生於分析的過程,但是它同樣帶來了很大的挑戰。
首先,資料量大帶來更大價值的同時,也帶來了更多的資料噪音,在進行資料清洗等預處理工作時必須更加謹慎,若清洗的細微性過細,很容易將有用的資訊過濾掉,而清洗的細微性過粗,又無法達到理想的清洗效果,因此在質與量之間需要進行仔細的考量和權衡,同時也對機器硬體和演算法都是嚴峻的考驗。
其次,傳統的資料倉庫系統對處理時間的要求並不高,而在很多大數據應用場的要求。
大數據的意義是由人類日益普及的網路行為所伴生的。從海量資料中“提純”出有用的資訊,是一項非常龐大的工程,也是當下大數據時代面臨的重大挑戰。在經歷了近幾年來各界對大數據的批判、質疑、討論、炒作之後,大數據的發展依舊任重道遠。
0 comments:
張貼留言