‧ 大數據要 “實現” 還缺些什麼？

來源：PingWest

“大數據”是在2013年被用濫了的詞彙，但實際上，由於資料量缺失、大數據清洗和分析能力不足，以及資料視覺化瓶頸等問題，“大數據”一直遲遲未能實現。而在最近，隨著基礎設施的發展，意味著大數據的發展，又走到新的一個臨界點。

系統軟體供應商Software AG的Gagan Mehra，在 Venturebeat 網站闡，述了他對於大數據，是大數據2.0時代的重要特徵。

更快的資料處理速度

由於資料量指數型增長，使得對於資料的快速分析的需要，已經變得比以往任何時候都要迫切。幾乎每家大數據廠商，都想要兜售比別家處理速度更快的產品。Hadoop發佈的新品Hadoop 2.0 / YARN，幾乎能即時分析資料。而下一代大數據的計算，牽引框架Apache Spark，它的速度比Hadoop快100倍。

矽谷風險投資機構Andreessen Horowitz，已經以1400萬美元的價格，領投了一家以Apache Spark為業務核心的初創企業Databricks。不久前，亞馬遜也上線了即時流資料服務Kinesis ，來説明沒有資料處理能力的公司無法解決未來發展這一問題。

許多分析供應商都已經認識到了資料處理速度的重要性，並建立了能夠每秒處理TB資料的產品。感測器資料分析、物聯網在工業和消費級市場快速發展的勢頭，驅動了這次變革。比如一家企業的感測器，能夠每秒產生出數百次的事件，即時處理這些資料難度很高。特別是當即時處理的感測器資料，激增到一天5TB的時候，速度，就成了尤為關鍵的指標。

同時，儘管資料儲存成本已經累年下降，但資料儲存的費用還是不小的一筆支出。部分商家相比儲存完整資料流程而言，更傾向於保存過濾掉噪音的資料。

hortonworks.com

智慧清洗“垃圾資料”

在本就難以計數的資料量繼續以指數模型激增時，對於資料品質的強化，便擺上了許多資料供應商的議程。換句話說，在龐大資料面前，即使電腦能夠高效的處理它們，但大量無用的“垃圾”資料，只會給系統帶來負擔，並增添儲存、主機等設備成本。這就需要資料處理過程中，根據特定的規則和參數，對湧進資料流程進行“清洗”和分析，並自動決策該去處理哪些資料，這一切不再需要人工去干預。

在這樣的環境下，如果選擇了一個壞的資料，就會像病毒一樣，可能引發連續的錯誤決策，甚至讓企業蒙受經濟損失。一個例子就是利用演算法去進行股票交易，以毫秒計數股票市場中，任何一點小的差錯，都有可能引發無法巨大的損失。

所以，資料品質已成為服務級別協定(service level agreements)最重要的參數之一。無法遮罩劣質的資料的供應商，會因此被列入行業的黑名單，以及面臨嚴重的經濟處罰。B2B行業為早期資料品質的入局者，他們非常重視資料的品質，來保持商業運作時的穩定性。甚至，許多企業計畫為資料品質部署即時的警告系統，這些警告會被發送於負責相應問題的專員，由他們提供問題的解決方案。

機器學習是另一項需要保證資料品質的領域。機器學習系統部署在一個閉環的生態中，通過模式分析與其他的資料分析技術，細化原來的資料品質規則。而高品質的資料，能夠保證機器進行正確的行為模式分析。

　　

www.mailplus.nl