【編者按】本文作者傅志華先生曾為騰訊社交網路事業群資料中心總監以及騰訊公司資料協會會長。在騰訊前,曾就職於艾瑞市場諮詢、易觀國際、中國互聯網協會,並任DCCI互聯網資料中心副總裁。
Big
Data(大數據)挑戰和機遇並存,Big Data在未來幾年的發展將從前幾年的預期膨脹階段、炒作階段轉入理性發展階段、落實應用階段,Big Data在未來幾年將逐漸步入理性發展期。未來的Big Data發展依然存在諸多挑戰,但前景依然非常樂觀。
Big Data發展的挑戰
目前Big Data的發展依然存在諸多挑戰,包括七大方面的挑戰:業務部門沒有清晰的Big Data需求,導致資料資產逐漸流失;企業內部資料孤島嚴重,導致資料價值不能充分挖掘;資料可用性低,資料品質差,導致資料無法利用;資料相關管理技術和架構落後,導致不具備Big Data處理能力;資料安全能力和防範意識差,導致資料洩露;Big Data人才缺乏導致大資料工作難以開展;Big Data越開放越有價值,但缺乏Big Data相關的政策法規,導致資料開放和隱私之間難以平衡,也難以更好的開放。
挑戰一:業務部門沒有清晰的Big Data需求
很多企業業務部門不瞭解Big Data,也不瞭解Big Data的應用場景和價值,因此難以提出Big Data的準確需求。
由於業務部門需求不清晰,Big Data部門又是非盈利部門,企業決策層擔心投入比較多的成本,導致了很多企業在搭建Big Data部門時猶豫不決,或者很多企業都處於觀望嘗試的態度,從根本上影響了企業在Big Data方向的發展,也阻礙了企業積累和挖掘自身的資料資產,甚至由於資料沒有應用場景,刪除很多有價值歷史資料,導致企業資料資產流失。
因此,這方面需要Big Data從業者和專家一起,推動和分享Big Data應用場景,讓更多的業務人員瞭解Big Data的價值。
挑戰二:企業內部資料孤島嚴重
企業啟動Big Data最重要的挑戰是資料的碎片化。在很多企業中尤其是大型的企業,資料常常散落在不同部門,而且這些資料存在不同的資料倉庫中,不同部門的資料技術也有可能不一樣,這導致企業內部自己的資料都沒法打通。如果不打通這些資料,Big Data的價值則非常難挖掘。
Big Data需要不同資料的關聯和整合才能更好的發揮理解客戶和理解業務的優勢。如何將不同部門的資料打通,並且實現技術和工具共用,才能更好的發揮企業Big Data的價值。
挑戰三:資料可用性低,資料品質差
很多中型以及大型企業,每時每刻也都在產生大量的資料,但很多企業在Big Data的預處理階段很不重視,導致資料處理很不規範。Big Data預處理階段需要,抽取資料把資料轉化為方便處理的資料類型,對資料進行清洗和去噪,以提取有效的資料等操作。
甚至很多企業在資料的上報,就出現很多不規範不合理的情況。以上種種原因,導致企業的資料的可用性差,資料品質差,資料不準確。而Big Data的意義不僅僅是要收集規模龐大的資料資訊,還有對收集到的資料進行很好的預處理處理,才有可能讓資料分析和資料採擷人員,從可用性高的Big Data中提取有價值的資訊。
Sybase的資料表明,高品質的資料的資料應用,可以顯著提升企業的商業表現,資料可用性提高10%,企業的業績至少提升在10%以上。
挑戰四:資料相關管理技術和架構
技術架構的挑戰包含以下幾方面:(1)傳統的資料庫部署不能處理TB級別的資料,快速增長的資料量超越了傳統資料庫的管理能力。如何構建分散式的資料倉庫,並可以方便擴展大量的伺服器成為很多傳統企業的挑戰;(2)很多企業採用傳統的資料庫技術,在設計的開始就沒有考慮資料類別的多樣性,尤其是對結構化資料、半結構化和非結構化資料的相容;(3)傳統企業的資料庫,對資料處理時間要求不高,這些資料的統計結果往往滯後一天或兩天才能統計出來。
但Big Data需要即時處理資料,進行分鐘級甚至是秒級計算。傳統的資料庫架構師缺乏即時資料處理的能力;(4)海量的資料需要很好的網路架構,需要強大的資料中心來支撐,資料中心的運維工作也將成為挑戰。如何在保證資料穩定、支援高併發的同時,減少伺服器的低負載情況,成為海量資料中心運維的一個重點工作。
挑戰五:資料安全
網路化生活使得犯罪分子更容易獲得關於人的資訊,也有了更多不易被追蹤和防範的犯罪手段,可能會出現更高明的騙局。如何保證使用者的資訊安全成為大資料時代非常重要的課題。
線上資料越來越多,駭客犯罪的動機比以往都來的強烈,一些知名網站密碼洩露、系統漏洞導致使用者資料被盜等個人敏感資訊洩露事件已經警醒我們,要加強大資料網路安全的建設。
另外,Big Data的不斷增加,對資料存儲的物理安全性要求會越來越高,從而對資料的多副本與容災機制也提出更高的要求。目前很多傳統企業的資料安全令人擔憂。
挑戰六:Big
Data人才缺乏
Big Data建設的每個環節都需要依靠專業人員完成,因此,必須培養和造就一支掌握Big Data技術、懂管理、有Big Data應用經驗的Big Data建設專業隊伍。目前大資料相關人才的欠缺,將阻礙大資料市場發展。
據Gartner預測,到2015年,全球將新增440萬個與Big Data相關的工作崗位,且會有25%的組織設立首席資料官職位。Big Data的相關職位需要的是複合型人才,能夠對數學、統計學、資料分析、機器學習和自然語言處理等多方面知識綜合掌控。
未來,Big Data將會出現約100萬的人才缺口,在各個行業Big Data中高端人才都會成為最炙手可熱的人才,涵蓋了Big Data的資料開發工程師、Big Data分析師、資料架構師、Big Data後台開發工程師、演算法工程師等多個方向。因此需要高校和企業共同努力去培養和挖掘。目前最大的問題是很多大學缺乏Big Data,所以擁有Big Data的企業應該與學校聯合培養人才。
挑戰七:數據開放與隱私的權衡
在Big Data應用日益重要的今天,資料資源的開放共用已經成為在資料大戰中保持優勢的關鍵。商業資料和個人資料的共用應用,不僅能促進相關產業的發展,也能給我們的生活帶來巨大的便利。
由於政府、企業和行業資訊化系統建設往往缺少統一規劃,系統之間缺乏統一的標準,形成了眾多“資訊孤島”,而且受行政壟斷和商業利益所限,資料開放程度較低,這給資料利用造成極大障礙。
另外一個限制資料資源開放和共用的一個重要因素是政策法規不完善,Big Data採擷缺乏相應的立法。無法既保證共用又防止濫用。因此,建立一個良性發展的資料共用生態系統,是Big Data發展需要邁過去的一道砍。同時,開放與隱私如何平衡,也是Big Data開放過程中面臨的最大難題。如何在推動資料全面開放、應用和共用的同時有效地保護公民、企業隱私,逐步加強隱私立法,將是Big Data時代的一個重大挑戰。
0 comments:
張貼留言