2017年2月6日 星期一

.2017 將重塑大數據行業的五大趨勢

Big Data in 2017: What next? 

去年,大數據市場完全圍繞Hadoop生態系統周圍的技術。從那時起,重心一直是透過已證明增加收入、提高生產力和降低風險,而帶來投資回報的使用場合,「將大數據確實利用起來」。

現在,大數據繼續高奏凱歌。今年我們預計會看到更主流的公司採用大數據和物聯網,大中型企業保守和懷疑的企業組織,會開始一頭扎入其中。
 
  

與幾年前我們剛開始接觸Hadoop時相比,數據融合會來得更重要。通過高級分析平台,結合社交數據、行動應用程序、客戶關係管理(CRM)記錄,和購買歷史記錄,這讓行銷人員得以透過,發現當前和未來購買行為,方面的隱藏模式和寶貴資訊,從而洞察未來。

Hadoop 是什麼?
Hadoop 是指開放原始碼軟體的生態系統,這是分散式處理、儲存的和分析電腦叢集上巨量資料集的架構。 Azure HDInsight 可讓 Hortonworks 資料平台 (HDP) 散發中的 Hadoop 元件在雲端取得,還可部署具高可靠性和可用性的受管理叢集,並提供具 Active Directory 的企業級安全性與管理。 

Apache Hadoop 是可用於巨量資料處理的原始開放原始碼專案。 以下是屬於 Hadoop 技術堆疊之相關軟體和公用程式的開發,包括 Apache Hive、Apache HBase、Apache Spark、Apache Kafka 及其他許多項目。 如需詳細資訊,請參閱 HDInsight 中的 Hadoop 生態系統概觀
—— 資訊來源:Microsoft Azure


自助式數據分析的普及,加上雲計算和Hadoop的廣泛採用,正在整個行業帶來變化,許多公司會抓住這一形勢,或者無視變化、因此面臨險境。實際上,工具仍在出現,而Hadoop平台承諾的還沒有達到公司缺少不了它的地步。

下面是今年將塑造大數據行業的五大趨勢:

物聯網(IoT)
公司日益期望從所有數據中獲得價值;製造、銷售和支持實物的大型工業公司,將與其「物件」連接的傳感器,接入到網路。企業組織將不得不改動技術,以便與物聯網數據銜接起來。這在數據治理、標準、健康保障、安全和供應鏈等方面,帶來了無數新的挑戰和機遇。

物聯網和大數據是同一枚硬幣的兩面;數十億與網路連接的「物件」將生產大量數據。

然而,這本身不會引發另一場工業革命,不會改變日常的數位化生活,也不會提供拯救地球的預警系統。來自設備外部的數據,才是企業讓自己與眾不同的方面。結合上下文來捕獲和分析,這種類型的數據,為公司帶來了新的發展前途。

研究表明,相比計劃維修,預測性維護最多可省下12%的成本,因而使維護成本降低30%,將設備故障造成的停運時間縮短70%。對於製造工廠或運輸公司來說,從數據驅動的決策,獲得這些結果,意味著在改進營運,和節省成本方面大有機會。

深度學習
深度學習,是一套基於神經網路的機器學習技術,它仍在發展之中,不過在解決業務問題方面,顯示出大有潛力。它讓電腦能夠從大量非結構化數據,和二進制數據中,找出感興趣的內容,並且推導出關係,而不需要特定的模型或編程指令。

這些算法的源動力,主要來自人工智能領域,人工智慧的總體目標,是模擬人類大腦觀察、分析、學習和做決定的能力,尤其是處理極其複雜的問題。

深度學習方法的一個關鍵概念,就是數據的分布式表示,因而可以對輸入數據的抽象特徵,實現大量的組合,從而可以緊湊表示每個樣本,最終獲得更豐富的泛化。

深度學習主要用於,從大量未標記/未監督的數據當中學習,因而對於從大數據中,提取有意義的表示和模式,頗具吸引力。比如說,它可以用來辨識許多不同類型的數據,比如影像中的形狀、顏色和對象,或者甚至是圖像中的貓,就像谷歌研製的一個神經網路,在2012年所做的那樣。

因此,企業可能會看到更多的注意力,投向半監督式或未監督式訓練算法,來處理進入的大量數據。

在暫存記憶體中分析
不像常規的商業智慧(BI)軟體,對儲存在伺服器硬碟上的數據,運行查詢,暫存記憶體中技術查詢的,是載入到暫存記憶體中的資訊,這可以透過減少,或甚至消除磁碟輸入/輸出瓶頸,來顯著提升分析性能。

就大數據而言,正是由於TB級系統和大規模並行處理,讓暫存記憶體中分析技術,更令人關注。

在現階段,大數據分析的核心其實是發現數據。要是沒有毫秒級延遲,面對數百萬次/數十億次的更迭,運行更迭以查找數據點之間的關聯,就不會成為現實。在暫存記憶體中處理的速度,比磁盤上處理要快三個數量級。

2014年,Gartner創造了HTAP(混合事務/分析處理)這個術語,描述這樣一種新技術:讓事務和分析,可以在同一個暫存記憶體中數據庫中處理。

它讓應用程序領導人,通過更強的情境意識,和改進的業務敏捷性來進行創新,然而這需要徹底改變原有架構,還需要相應的技術和技能,才能使用暫存記憶體中,計算技術作為賦能者(enabler)。

許多公司已經在充分利用混合事務/分析處理(HTAP);比如說,零售商能夠迅速辨識,在過去一小時內最暢銷的時尚商品,並立即為該商品訂製優惠促銷活動。

但是HTAP方面炒作得很厲害,許多公司一直在過度使用它。如果用戶需要在一天內,多次以同一方式查看同一數據,數據又沒有什麼顯著的變化,那麼使用暫存記憶體中技術是浪費錢。

雖然你可以使用HTAP,更快地執行分析,但所有事務必須駐留在同一個數據庫中。問題是,今天的大多數分析工作,是把來自許多不同系統的事務集中起來。

雲計算
混合雲和公共雲服務越來越受歡迎。大數據成功的關鍵,是在彈性基礎設施上運行(Hadoop)平台。

我們會看到數據儲存和分析趨於融合,帶來新的更智慧的儲存系統,它們將經過優化,用於儲存、管理和排序龐大的PB級數據集。

展望未來,我們可以預計會看到,基於雲的大數據生態系統,在整個繼續迎來發展,不僅僅局限於「早期採用者」。

許多公司想要讓自己可以擴展的平台,通過大力投資於最終僵化的數據中心,是不可能做到這點的。

比如說,人類基因組計劃一開始是個GB級項目,但是很快達到了TB級和PB級。

一些領先的企業,已經開始以雙模(bi-model)方式,來拆分工作負載,在雲端運行一些數據工作負載。許多人預計,隨著這種解決方案,在採用週期上深入發展,這個潮流會加快發展。

現在大家很重視API,以一種可重用的方式,來發掘數據和功能,許多公司期望在雲端和數據中心,運行其API。本地API提供了一種無縫的方式,來發掘傳統系統,並將它們與雲應用程序,連接起來,這對於希望實現雲優先策略的公司來說,至關重要。

更多的公司會在雲端運行API,提供彈性,以便更好地應對需求高峰,並建立高效的連接,從而讓它們能夠比競爭對手,更迅速地適應和創新。

Apache Spark
Apache Spark在點亮大數據。流行的Apache Spark項目提供了Spark Streaming技術,通過主要採用一種在暫存記憶體中,微批量處理的方法,近即時地處理數據流。它已從Hadoop生態系統的一部分,變成許多企業青睞的一種大數據平台。

Spark現在是最龐大的大數據開源項目,相比Hadoop它提供了顯著加快的數據處理速度,因此,對於程序員來說極其自然、極加精確、極其方便。它為並行執行提供了一種高效的通用框架。

Spark Streaming是Spark的主要部分,被用來借助處理器核心,流式傳輸大塊的數據,為此將大數據分割成更小的數據包,然後對其進行轉換,因而加快彈性分布式數據集(RDD)的創建。

這在當下非常有用,如今數據分析通常需要一組,協同運行的機器的資源。

然而值得一提的是,Spark旨在改進而不是替換Hadoop架構。為了從大數據獲得更大的價值,許多公司考慮結合使用Hadoop和Spark,以獲得更好的分析和儲存功能。

越來越複雜的大數據需求意味著,創新的壓力仍然會很高。許多公司會開始明白,客戶的成功離不開數據方面的工作。不利用數據分析的公司會開始歇業,而成功的企業認識到發展的關鍵,是數據精煉和預測分析。




                                                                                                                                                                  

NETGEAR 壁掛式交換器Click Switch

沒有留言:

張貼留言