2015年7月16日 星期四

‧ 你敢說你真的知道 Big Data 是什麼嗎?

品途網 郭煒

不敢,臣妾真真不敢。。。

郭煒簡介:現任聯想研究院大數據方向負責人,畢業於北京大學,曾任萬達電商數據部總經理、曾在中金、IBMTeradata公司擔任Big Data方向重要崗位。在智慧Wi-Fi, BeaconO2O智慧硬體方案,以及O2O Big Data獲取、處理、挖掘、應用具有豐富的理論和實踐經驗,多次在CIO論壇、O2O論壇、創業論壇發表相關演講,在傳統行業和網xj4行業享有盛譽。

以下是郭總分享原文(節錄)

大家好,我是郭煒。今天想跟大家分享一下在Big Data下面的一些我的見解,和過去遇到的一些情況和經驗,那麼主要分三部分。第一是當前Big Data現狀,我會給大家去分析一下現在的Big Data趨勢,然後是O2O領域怎麼去建立Big Data平台,最後分享下我所觀察到的Big Data的未來的一些趨勢。
Big Data現狀
先從Big Data現狀分析開始,先給大家看一張圖。
图片1.jpg 


其實Big Data這個概念,現在被大家炒的非常熱,好像說到統計都要說是由Big Data統計出來的,所有的無論網路金融,還是相關的O2O,還是我們的所有企業都在說自己在做Big Data平台。那麼什麼是Big Data呢?

其實我覺得現在有好多專家,有各式各樣的定義,我覺得其實這個Big Data不是一個特別新鮮的東西,就像我在這個圖裡面給大家劃分出來的,資料和Big Data是產生很多年積累的概念。

馬雲提到說未來是一個DT時代,不是IT時代。那麼他是說將來會在任何方面,都會產生資料和Big Data來決策、影響我們相關的一些生活,那麼其實這個所謂的DT,最早的時候是叫做資料庫,在大概十五年到二十年前,它就已經出現在市場上,。

在那個時候把它叫做ERPCRM時代,都是一些企業內部的一些系統,比如客戶關係管理、庫存管理、進銷存等等,各個模組其實那個時候,就積累了相當多的一些資料,那麼像銀行像電信那麼投入非常大的一些資金來去做資料庫,當時叫做資料庫,其實它也是把我們現在所謂的Big Data的這些詳單,也都收錄在過去的關聯式的資料庫裡,那麼就形成了它的資料庫。

那麼在資料庫之上,當時也有一些概念叫做資料收集。其實也是基於收集到的客戶的詳單,然後找到這個所有資料之間的相關性。還有包括像客戶流失分析、交叉銷售,以及當時最著名的一個案例啤酒和尿片案例。

講的是沃爾瑪經過相關性分析發現,所有的男顧客在買啤酒的時候,經常會買尿片兒,那麼這個現象很奇怪。後來經過調研發現,這一般都是妻子讓自己的老公去商店買尿布,孩子在家已經沒尿片兒了,於是沃爾瑪就把尿片放在啤酒旁邊,然後這個啤酒銷量和整體客流量都有很好的變化。

這個故事其實就是發生在那個ERPCRM時代,當時其實已經有資料分析和資料推薦的味道,只不過發生在純線下時代,所以我們把它叫做ERPCRM的時代。

在這之後,網路興起,包括各大的門戶網站,包括像谷歌、雅虎這些全部都發展起來了,那麼中國的BAT三家也發展起來了,這個時候的就不僅僅是過去我們所謂的交易和銀行的流水這些資料了。

這個時代,其實是主要是以我們的WEB,網路日誌以及搜尋引擎,而產生的搜索關鍵字,或者是APP產生的點擊流,產生了這樣的資料。那麼在這個時代,我把它叫做WEB2.0時代,我們這個時代其實是因為過去的時候,它的所有過去的技術全都是在處理關聯式,還有這種交易類的資料,在這個時代它開始處理的非結構化的資料,比較著名一些品牌像HADOOP開始興起,現在基本上很多的人在做的時候都會說,Big Data是什麼,要建Big Data平台必須建HADOOP

最典型的就是在所有的這些搜尋引擎的網站、電商網站,最終它會給個人消費者開始做一些推薦的工作,比如說猜你喜歡或者是做一些定時提醒等等,這些東西其實都是在幫助最終的消費者,來做一些新的一些購買決策,或者是你在搜索的時候,幫你做下廣告的推薦,這個時代其實叫做2.0時代。

那麼在最後,現在這個時代我管他叫IoTO2O時代。它和過去三個時代差別在哪兒呢?大家可以看到在第一個時代,所有的這些資料,其實都是企業內部的資料,它的產生是由客戶產生,消費這些資料的人,一般是企業內部的所謂的決策層,做一些決策支援,做一些資料分析、報表,只是少數人去分享,在第一個ERP時代大家都叫它BI

WEB2.0時代,其實是有個人的消費者產生資料,根據我們的點擊情況,把這些資料獲取,再根據你的推薦引擎,重新推薦給消費者去方便購買,這個時代其實是在WEB2.0時代。

IoTO2O時代比較有代表性的,比如說像現在做了很多的智慧Wi-Fi,那麼也有現在的炒的比較熱的Beacon的技術。那麼也包括現在咱們手機上的,各個感測器去收集的相關資料,也包括現在像蘋果PC上面去收集的相關資料,那麼還包括像我們的手環、智慧家居,甚至於機器人,包括我們現在線下見到的,這些硬體去收集來的資料,那麼它的資料已經不是過去的這些網路日誌。

而是除了網路日誌之外的,比如說我們的線下行為軌跡流。比如說我們用攝影機監看別人,比如說我們的經濟資料等等,這些所有這些相關的資料,那麼當這些資料來臨的時候,過去其實在WEB2.0的一些技術,又不能完全的去滿足現狀。

舉個例子比如說在WEB2.0的時候,可能大家談的最多的還都是HADOOPHADOOP其實是做批量分析來去幫你做一個推薦,可能是留資料收集模型,在WEB2.0時代已經不能滿足需求了。

其實是因為現在O2O的時代,我們需要的是即時的Big Data,我們需要的是即時的能給客戶做出,根據過去的行為和他現在所在的位置,來去給他做相關的一個推薦,或者是一個推送,或者是指導這樣一個工作,所以在這個時代有很多新的Big Data的技術產生。那麼結合新的智慧硬體,會產生一個完全和WEB2.0SAM不同的時代,那麼這個時代其實就是O2OBig Data時代。

所以我整體分析來看呢,不同的時代我們從這個消費者的距離來看,原來最開始的這個ERP時代,到WEB2.0,到O2O這個時代。距離消費者的資料是由遠到近的,從資料的影響力來講,在過去只是給終端的領導決策層,現在時時融入到生活當中。會發現資料對整個業務的影響,比例由弱到強,隨著技術的發展,會給最終用戶一個全新完全不同的體驗。

图片2.jpg

我給大家分享兩個我的個人畫像,這個畫像其實是在過去在某商業地產的時候,給給我自己畫出來的那麼其中一個畫線了,左側的藍色的那個畫像,其實是我自己一個人的一個線下的行為軌跡流。

其實它是通過我自己在廣場裡面,在每一個這個門店的行走的軌跡,來去捕捉我自己線上下的行為的情況。可以看到說我是經常會去九毛九去吃飯,然後我在那邊會經常看這個影城的一些電影,我會經常去KTV


能看到這裡面所有的這些這個小的字其實都是我過去在我線下的軌跡,來給我個人畫出一個畫像。那麼,這就是我剛才提到,說在IoTO2O時代每一個人,其實優於過去的在WEB2.0的這種點擊流,變成了我們現在線下的這種軌跡流了。

我們能把每一個人在這個廣場裡面,這個所有的消費的記錄,全部都找到,每條明細全部都能,無論你是用是哪個商家的終端,那麼通過的只能智慧POSS我們全部等都能把你的消費消費的明細,全部是拿到雲端。

拿到了這些資料和我們幹什麼呢,其實我在那個時候做了一個叫做場景引擎的東西。那就是一個類似一個虛擬的人,陪你一起在逛這個萬達廣場,站在你進入微風廣場的那個時候,我會請一個即時的進程去跟蹤你的狀態。你買的什麼東西,走到哪裡,然後給你推薦你想要的東西!

這樣其實更能夠根據你現在此時此刻此地,你現在的狀態和你過去的行為的一個偏好,給你推一個優惠,這樣的話就能夠讓促成一筆新的交易,那這些東西其實是在新的IoTO2O時代,那麼其實是和WEB2.0時代是完全不同的。

那在這裡了我再給大家分享一個現在新的時代下,我們和客戶為中心的這樣一個整體的一個Big Data的一個閉環,它會是什麼樣的呢?

那麼大家知道,剛才我提到在新的現在的IOTO2O時代的來臨以後,其實它的各種技術已經發展到一個和過去的WEB2.0時代的Big Data技術,已經完全有些不同了,那麼它會體現在幾方面,一看的是剛才提到的智慧硬體,那麼第二個大家知道最近很多人都聽過深度學習這個概念。

那麼其實隨著深度學習和自然語言演算法的更新,那麼實現了一件什麼事情呢,我們現在的電腦,它可以理解你說的一些話。所以當這件事情發生的時候,我們可以發現說,在整個目前的和用戶交互當中,所產生的無論是線上我們使用者的對話,還是線下使用者打的客戶熱線的內容,其實我們都可以完全能夠理解他。

這樣的話,其實在整個這個閉環裡面,大家可以看到從客戶對這個品牌的感知,到他線下產品的選擇、購買,到使用到服務到創新,這一系列的這個過程,其實在Big Data的説明下他都發生一些變化,那麼分別大概跟大家講講。

图片3.jpg

比如說這個品牌感知,剛才我提到說這個自然語言和Big Data能夠直接和他一起,你會發現過去的所有的這些用戶到底說了些什麼?用戶在論壇上關注什麼?過去其實是很難知道。

現在其實你對你這個品牌,用戶怎麼去交互,她在網路上的評論,論壇怎麼說,你很快的就能夠通過很容易的一種方式,能跟你展現出來,那麼線上下再做產品選擇。

剛才我提到Beacon Wi-Fi技術,影像技術,其實完全可以能夠知道使用者線上的這些產品,他究竟是怎麼樣去選擇了,然後你完全能知道和競爭對手究竟是什麼樣的區別。

在用戶購買的時候我們也能夠做到比較好的用戶購買的畫像,包括他的購買線上線下的購買的路徑。其實一切都可以完全在我們當前的這個Big Data的覆蓋了內容裡面,我們可以做相關的這個分析,也可以給用戶做相關的推薦等等。

整個用戶怎麼去使用你的這個產品,無論你是智慧傢俱也好,你是手環也好好。而在過去的時候,可能還沒有這些東西大家都知道,只是在網路上的網路日誌,現在通過新的這個智慧設備和智慧控制晶片的加入,他怎麼去使用你的這些晶片,怎麼要去使用電腦,怎樣去使用空調,廠家或者商家都可能拿到。

基於這些我們會直接能夠看到說,我們使用者的服務當中會出現了哪些問題,他怎麼樣去就跟你交互,哪些地方需要提高。也可以去做很多的這個業務的創新,比如說我們做一些用戶的分析,也許我們還可以做一些其他的這個資料變現,這些全都是根據現在整體上面,以使用者為中心來做,所以我經常提一句話,我說DT會讓這個商業回歸本源,那本源是什麼,其實這就是過去和這個用戶和商家做買賣的時候,面對面的這樣的過程。

現在能夠讓企業,無論多大,無論賣什麼東西,通過DT的技術又可以重回到那個直接針對你最終用戶的這樣一個形態。
Big Data平台建立方案
前面的是跟大家聊了一下在新的O2OIoT這個環境下,我們Big Data的一些新的技術和一些新的發展,那麼下面的我跟大家聊聊,這個創業企業的一些Big Data裡方案的一些討論。

其實這個問題Big Data是由過去我的一些朋友經常在問我說,都是O2O和一些創業企業。那麼他在融資以後Big Data就會想說我們要建一個Big Data平台,經常問我技術方案是怎樣的?

其實我的觀點是這樣,所有的Big DataBig Data和這個技術其實都是為你的業務服務的。所以總體上不要為了Big DataBig Data,那麼我大概有個簡單的給做它做了一個區分。我把它分為按照PV(Page View)來算,那麼是一個是PV少於五十萬的時候,PV這個少於一千萬的時候,和PV大於五千萬的時候,可以大致這麼區分。

那麼我一般在給大家介紹首其實PV五十萬以下的這些企業,對他們來講我覺得其實他不太需要Big Data。那麼他真的如果需要去做這個,無論APP或者是網頁或者是剛才我提到的這些資料分析的時候,其實完全可以用傳統的資料庫的形式,加上傳統ETL的模式,加上一些開源的LOG的分析工具,完全可以滿足他現有的一些分析需求。那麼整體的解決方案,加上固雇傭相關的人,那一年也不會超過五十萬。

而如果在我們的PV處於五十萬到一千萬的時候,這個時候要考慮些建立一些Big Data平台。但是在現在這個環境下的我的建議是,如果可以的話,在這個時代你的企業,還不是特別穩定的時候,你可以考慮一些雲端服務的方式,來建設Big Data平台來滿足你的業務的需要。

因為在這個時候其實你的Big Data積累,和最終的這個需求,還不是那麼的明確,你的變化還是比較大,那你這時候你如果去雇傭相關的Big Data人才,和相關建立相關的硬體,你的投入可能會非常高。

在這個時候,你還是會儘量考慮節約自己的資源,如果真的要建HADOOP這樣的平台,也不要建超過十個節點的平台,一般十個節點的平台就足夠,但是需要幾個JAVA的工程師説明。

但是如果當你的PV到一千萬以上,這個時候你就會需要去做一個決策,的確是需要建立你自己的這個平台了,你的相關的推薦服務也需要。

現在目前在這個新的這個時代下,在這個最新的這個領域裡,我還是推薦除了HADOOP之外我會推薦SPARK這個即時資料計算的平台,它在覆蓋目前你的企業裡面IoTO2O的相關的一些服務,即時運算能你滿足你,至少在未來的一段時間的需求,它的資料量的增長,隨著你的機器數量增長,你的機器其實是可以有評估基礎,然後你再去建相關的平台。

當然如果這個時候你的日PV已經過億了,這個時候其實你是需要一個不同的一個領域,那麼你需要的東西,是要做一些自主優化的資料儲存,和你的一個雲端資料的處理一個平台和中心。而且你要去設定你自己的處理平台,和你的資料分析平

在這個時候一般來講,比較高級的這些技術人員是你必須要準備,因為你會面臨著直接修改HADOOP和這種SPARK源碼的需求,否則你沒辦法支持你的業務發展。
Big Data發展的幾個趨勢
那麼接下來,我也大概給大家分享一下,我所看到的未來的這個Big Data發展幾個趨勢。

一個趨勢是,我認為未來的Big Data會迅速的形成Big Data聯盟。這個可能在以前也跟一些分享的時候跟大家講過,因為在過去的時候,大家總是在說這個企業自己內部有這個資訊孤島,而不能把資料打通,現在其實在經過這樣的這個技術的一些革新後,企業內部基本上都是大一統的。

但是,企業自己變成了這個孤島,所以企業在Big Data的環境下,那如果要他以用戶為中心,那麼它一定是要形成一些Big Data聯盟的,這種聯盟可以通過這種資料複合購買,也可以通過其他併購,也可以通過資料的交換。所以能看到最近很多的併購的案例啟示背後,都是有Big Data的交換來作為他其中的一個幾個重要的並購意向。

第二個我看到的趨勢是,說叫Big Data的雲端化。因為在過去的時候,其實還有很多企業很難接受自己的資料,是在協力廠商的地方。但是在現在這個環境,隨著物聯網的發展,我們的資料過去都是在企業內部。而現在網路,我剛才提到O2OIoT這些資料,其實都是在網路上的。

它的資料獲取器是給雲端的這個資料中心提供了一個機會,就是我們可以在雲端提供相關的Big Data服務。同時現在的加密技術,已經有相關的硬體能夠支援即時的資料加密,所以這些資料處理上的時間,也不會有太多的這些代價,能夠讓加密解密能夠在Big Data環境下來進行生存。

第三是,說比如說我們現在的很多的爬蟲技術,剛才我提到說通過網路的聲音,來瞭解我的客戶。那這些資料其實都是在網路上面的,也不需要說每個企業,自己都要爬整個網路。所以提供雲端服務,其實也是所有的企業眾望所歸。

第四點的就是,說我們現在其實這對於這個Big Data平台來講,因為它是開源平台的,其實到一定程度以後,這些開源平台的一些難點和維護工作量還是挺大。而且現在Big Data炒的比較熱,相關的高級技術人員的成本也比較高,所以不是每一個企業都有錢,能夠去雇這樣一個人來,去做相關的Big Data背後的開發,所以也給Big Data雲端平台提供了機會。

那麼今天的我的分享就到這裡,謝謝大家,也希望了Big Data的技術,能説明各位的企業技術能上更大的一個台階。

                                                                                                                                                                                                                            

沒有留言:

張貼留言