來源:PingWest
“大數據”是在2013年被用濫了的詞彙,但實際上,由於資料量缺失、大數據清洗和分析能力不足,以及資料視覺化瓶頸等問題,“大數據”一直遲遲未能實現。而在最近,隨著基礎設施的發展,意味著大數據的發展,又走到新的一個臨界點。
系統軟體供應商Software
AG的Gagan Mehra,在 Venturebeat 網站闡,述了他對於大數據,是大數據2.0時代的重要特徵。
更快的資料處理速度
由於資料量指數型增長,使得對於資料的快速分析的需要,已經變得比以往任何時候都要迫切。幾乎每家大數據廠商,都想要兜售比別家處理速度更快的產品。Hadoop發佈的新品Hadoop 2.0 / YARN,幾乎能即時分析資料。而下一代大數據的計算,牽引框架Apache Spark,它的速度比Hadoop快100倍。
矽谷風險投資機構Andreessen
Horowitz,已經以1400萬美元的價格,領投了一家以Apache
Spark為業務核心的初創企業Databricks。不久前,亞馬遜也上線了即時流資料服務Kinesis ,來説明沒有資料處理能力的公司無法解決未來發展這一問題。
許多分析供應商都已經認識到了資料處理速度的重要性,並建立了能夠每秒處理TB資料的產品。感測器資料分析、物聯網在工業和消費級市場快速發展的勢頭,驅動了這次變革。比如一家企業的感測器,能夠每秒產生出數百次的事件,即時處理這些資料難度很高。特別是當即時處理的感測器資料,激增到一天5TB的時候,速度,就成了尤為關鍵的指標。
同時,儘管資料儲存成本已經累年下降,但資料儲存的費用還是不小的一筆支出。部分商家相比儲存完整資料流程而言,更傾向於保存過濾掉噪音的資料。
智慧清洗“垃圾資料”
在本就難以計數的資料量繼續以指數模型激增時,對於資料品質的強化,便擺上了許多資料供應商的議程。換句話說,在龐大資料面前,即使電腦能夠高效的處理它們,但大量無用的“垃圾”資料,只會給系統帶來負擔,並增添儲存、主機等設備成本。這就需要資料處理過程中,根據特定的規則和參數,對湧進資料流程進行“清洗”和分析,並自動決策該去處理哪些資料,這一切不再需要人工去干預。
在這樣的環境下,如果選擇了一個壞的資料,就會像病毒一樣,可能引發連續的錯誤決策,甚至讓企業蒙受經濟損失。一個例子就是利用演算法去進行股票交易,以毫秒計數股票市場中,任何一點小的差錯,都有可能引發無法巨大的損失。
所以,資料品質已成為服務級別協定(service level agreements)最重要的參數之一。無法遮罩劣質的資料的供應商,會因此被列入行業的黑名單,以及面臨嚴重的經濟處罰。B2B行業為早期資料品質的入局者,他們非常重視資料的品質,來保持商業運作時的穩定性。甚至,許多企業計畫為資料品質部署即時的警告系統,這些警告會被發送於負責相應問題的專員,由他們提供問題的解決方案。
機器學習是另一項需要保證資料品質的領域。機器學習系統部署在一個閉環的生態中,通過模式分析與其他的資料分析技術,細化原來的資料品質規則。而高品質的資料,能夠保證機器進行正確的行為模式分析。
越來越多的基礎應用
大數據帶來的變革,使得每一個人都想要利用它,但技術上門檻又讓許多人不得已只能充當一個看客。而應用將有助於人們去克服這一困難。在接下來的幾年中,我們將會看到成千上萬的解決某一垂直領域的專業應用,以應對來自各行各業的大資料挑戰。
目前,已經小有成就的資料分析公司包括eHarmony、 Roambi、
Climate Corporation等等。未來,甚至許多小企業,既不用依賴特定基礎設備,也不要雇傭專業的資料科學家,就能受益於對大資料分析利用。
比如,一些應用將從各種管道,收集關聯的客戶資料,以更好地瞭解客戶的需求。從而企業能夠為特定的目標客戶,提供特定需求的產品,更有針對性地賺到錢。當這些應用走進人們日常的吃喝玩樂、醫療保健等領域,生活也會因此而更美好。
沒有留言:
張貼留言