‧ 什麼是「大數據」（Big Data）

來源：華為IT產品解決方案作者：潘少

最近一篇探討大數據的文章在網路上流傳，據說是從華為內部流出的。究竟「大數據」這個詞意味著什麼呢？看完這一則就知道！(3S Market：請您耐心看吧！)

一、詳解時髦詞彙：大數據

似乎一夜之間，大數據（Big Data）變成一個IT行業中最時髦的詞彙。

首先，大數據不是什麼完完全全的新生事物，Google的搜索服務就是一個典型的大數據運用，根據客戶的需求，Google實時從全球海量的數位資產（或數位垃圾）中快速找出最可能的答案，呈現給你，就是一個最典型的大數據服務。只不過過去這樣規模的數據量處理和有商業價值的應用太少，在IT行業沒有形成成型的概念。

現在隨著全球數字化、網路寬頻化、互聯網應用於各行各業，累積的數據量越來越大，越來越多企業、行業和國家發現，可以利用類似的技術更好地服務客戶、發現新商業機會、擴大新市場以及提升效率，才逐步形成大數據這個概念。

有一個有趣的故事是關於奢侈品行銷的。PRADA在紐約的旗艦店中每件衣服上都有RFID碼。每當一個顧客拿起一件PRADA進試衣間，RFID會被自動辨識。同時，數據會傳至PRADA總部。每一件衣服在哪個城市？哪個旗艦店？什麼時間被拿進試衣間？停留多長時間，數據都被儲存起來加以分析。

紐約Prada概念旗艦店

如果有一件衣服銷量很低，以往的作法是直接幹掉。但如果RFID傳回的數據顯示這件衣服雖然銷量低，但進試衣間的次數多。那就能另外說明一些問題。也許這件衣服的下場就會截然不同，也許在某個細節的微小改變就會重新創造出一件非常流行的產品。

從這個案例來看，大數據並不是很神奇的事情。就如同電影《永無止境》提出的問題：人類通常只使用了20%的大腦，如果剩餘80%大腦潛能被激發出來，世界會變得怎樣？在企業、行業和國家的管理中，通常只有效使用了不到20%的數據（甚至更少），如果剩餘80%數據的價值激發起來，世界會變得怎麼樣呢？特別是隨著海量數據的新摩爾定律，數據爆發式增長，然後數據又得到更有效應用，世界會怎麼樣呢？

Limitless Movie Trailer Official (HD)

單個的數據並沒有價值，但越來越多的數據累加，量變就會引起質變，就好像一個人的意見並不重要，但1千人、1萬人的意見就比較重要，上百萬人就足以掀起巨大的波瀾，上億人足以改變一切。

中國的航班晚點非常多，相比之下美國航班準點情況好很多。這其中，美國航空管制機構一個的好做法發揮了積極的作用，說起來也非常簡單，就是美國會公佈每個航空公司、每一班航空過去一年的晚點率和平均晚點時間，這樣客戶在購買機票的時候就很自然會選擇準點率高的航班，從而通過市場手段牽引各航空公司努力提升準點率。這個簡單的方法比任何管理手段都直接和有效。

沒有整合和挖掘的數據，價值也呈現不出來。《永無止境》中的庫珀如果不能把海量信息圍繞某個公司的股價整合起來、串聯起來，這些信息就沒有價值。

因此，海量數據的產生、獲取、挖掘及整合，使之展現出巨大的商業價值，這就是我理解的大數據。在互聯網對一切重構的今天，這些問題都不是問題。因為，大數據是互聯網深入發展的下一波應用，是互聯網發展的自然延伸。目前，可以說大數據的發展到了一個臨界點，因此才成為IT行業中最熱門的詞彙之一。

二、大數據將重構很多行業的商業思維和商業模式

我想以對未來汽車行業的狂野想像來展開這個題目。

在人的一生中，汽車是一項巨大的投資。以一部30萬車、7年換車週期來算，每年折舊費4萬多（這裡還不算資金成本），加上停車、保險、油、維修、保養等各項費用，每年耗費應在6萬左右。汽車產業也是一個很長產業鏈的龍頭產業，這個方面只有房地產可以媲美。

但同時，汽車產業鏈是一個低效率、變化慢的產業。汽車一直以來就是四個輪子、一個方向盤、兩排沙發。這麼一個昂貴的東西，圍繞車產生的數據卻少的可憐，行業產業鏈之間幾無任何數據傳遞。

我們在這裡狂野地想像一番，如果將汽車全面數位化，都大數據了，會產生什麼結果？

有些人說，汽車數位化，不就是加個MBB模塊嗎？不，這太小兒科了。在我理想中，數位化意味著汽車可以隨時聯上互聯網，意味著汽車是一個大型計算系統加上傳統的輪子、方向盤和沙發，意味著可以數字化導航、自動駕駛，意味著你和汽車相關的每一個行動都數位化，包括每一次維修、每一次駕駛路線、每一次事故的錄像、每一天汽車關鍵部件的狀態，甚至你的每一個駕駛習慣（如每一次的剎車和加速）都記錄在案。這樣，你的車每月甚至每週都可能產生T比特的數據。

好了，我們假設這些數據都可以儲存並分享給相關的政府、行業和企業。這裡不討論隱私問題帶來的影響，假設在隱私保護的前提下，數據可以自由分享。

那麼，保險公司會怎麼做呢？保險公司把你的所有數據拿過去建模分析，發現幾個重要的事實：一是你開車主要只是上下班，從深圳南山到坂田這條線路是非繁華路線，紅綠燈很少，這條路線過去一年統計的事故率很低；你的車況（車的使用年限、車型）好，此車型在全深圳也是車禍率較低；甚至統計你的駕駛習慣，加油平均，臨時剎車少，超車少，和周圍車保持了應有的車距，駕駛習慣好。最後結論是你車型好，車況好，駕駛習慣好，常走的線路事故率低，過去一年也沒有出過車禍，因此可以給予更大幅度的優惠折扣。

這樣保險公司就完全重構了它的商業模式了。在沒有大數據支撐之前，保險公司只把車險客戶做了簡單的分類，一共分為四種客戶，第一種是連續兩年沒有出車禍的，第二種過去一年沒有出車禍，第三種過去一年出了一次車禍，第四種是過去一年出了兩次及以上車禍的，就四種類型。在大數據的支持下，保險公司可以真正以客戶為中心，把客戶分為成千上萬種，每個客戶都有個性化的解決方案，這樣保險公司經營就完全不同，對於風險低的客戶敢於大膽折扣，對於風險高的客戶報高價甚至拒絕，一般的保險公司就完全難以和這樣的保險公司競爭了。

擁有大數據並使用大數據的保險公司比傳統公司將擁有壓倒性的競爭優勢，大數據將成為保險公司最核心的競爭力，因為保險就是一個基於概率評估的生意，大數據對於準確評估概率毫無疑問是最有利的武器，而且簡直是量身定做的武器。

在大數據的支持下，4S店的服務也完全不同了。車況信息會定期傳遞到4S店，4S店會根據情況及時提醒車主及時保養和維修，特別是對於可能危及安全的問題，在客戶同意下甚至會採取遠程干預措施，同時還可以提前備貨，車主一到4S店就可以維修而不用等待。

對於駕駛者來說，不想開車的時候，在大數據和人工智能的支持下，車輛可以自動駕駛，並且對於你經常開的線路可以自學習自優化。谷歌的自動駕駛汽車，為了對周圍環境作出預測，每秒鐘要收集差不多1GB的數據，沒有大數據的支持，自動駕駛是不可想像的；在和周圍車輛過近的時候，會及時提醒車主避讓；上下班的時候，會根據實時大數據情況，對於你經常開車的線路予以提醒，繞開擁堵點，幫你選擇最合適的線路；到城市中心，尋找車位是一件很麻煩的事情，但未來你可以到了商場門口後，讓汽車自己去找停車位，等想要回程的時候，提前通知讓汽車自己開過來接。

智慧交號誌

車輛是城市最大最活躍的移動物體，是擁堵的來源，也是最大的污染來源之一。數字化的車輛、大數據應用將帶來很多的改變。紅綠燈可以自動優化，根據不同道路的擁堵情況自動進行調整，甚至在很多地方可以取消紅綠燈；城市停車場也可以大幅度優化，根據大數據的情況優化城市停車位的設計，如果配合車輛的自動駕駛功能，停車場可以革命性演變，可以設計專門為自動駕駛車輛的停車樓，地下、地上樓層可以高達幾十層，停車樓層可以更矮，只要能高於車高度即可（或者把車豎起來停），這樣將對城市規劃產生巨大的影響；政府還可以每年公佈各類車型的實際排污量、稅款、安全性等指標，鼓勵民眾買更節能、更安全的車。

電子商務和快遞業也可能發生巨大的變化。運快遞的車都可以自動駕駛，不用趕白天的擁堵的道路，晚上半夜開，在你家門口設計自動接收箱，通過密碼開啟自動投遞進去，就好像過去報童投報一樣。

這麼想像下來，我認為，汽車數位化、互聯網化、大數據應用、人工智能，將對汽車業及相關的長長的產業鏈產生難以想像的巨大變化和產業革命，具有無限的想像空間，可能完全被重構。當然，要實現我所描述的場景，估計至少50年、100年之後的事情了，估計我這輩子是看不到的。

在這個章節的最後，我想總結一下自己對大數據的看法。

第一，大數據使企業真正有能力從以自我為中心改變為以客戶為中心。企業是為客戶而生，目的是為股東獲得利潤。只有服務好客戶，才能獲得利潤。大數據的使用能夠使對企業的經營對像從客戶的粗略歸納（就是所謂提煉歸納的“客戶群”）還原成一個個活生生的客戶，這樣經營就有針對性，對客戶的服務就更好，投資效率就更高。

第二，大數據一定程度上將顛覆了企業的傳統管理方式。現代企業的管理方式是來源於對軍隊的模仿，依賴於層層級級的組織和嚴格的流程，依賴信息的層層匯集、收斂來製定正確的決策，再通過決策在組織的傳遞與分解，以及流程的規範，確保決策得到貫徹，確保每一次經營活動都有質量保證，也確保一定程度上對風險的規避。

第三，大數據另外一個重大的作用是改變了商業邏輯，提供了從其他視角直達答案的可能性。現在人的思考或者是企業的決策，事實上都是一種邏輯的力量在主導起作用。大數據給了我們其他的選擇，就是利用數據的力量，直接獲得答案。就好像我們學習數學，小時候學九九乘法表，中學學幾何，大學還學微積分，碰到一道難題，我們是利用了多年學習沉澱的經驗來努力求解，但我們還有一種方法，在網上直接搜索是不是有這樣的題目，如果有，直接抄答案就好了。很多人就會批評說，這是抄襲，是作弊。但我們為什麼要學習啊？不就是為了解決問題嘛。

第四，通過大數據，我們可能有全新的視角來發現新的商業機會和重構新的商業模式。我們現在看這個世界，比如分析家中食品腐敗，主要就是依賴於我們的眼睛再加上我們的經驗，但如果我們有一台顯微鏡，我們一下就看到壞細菌，那麼分析起來完全就不一樣了。大數據就是我們的顯微鏡，它可以讓我們從全新視角來發現新的商業機會，並可能重構商業模型。

我們的產品設計可能不一樣了，很多事情不用猜了，客戶的習慣和偏好一目了然，我們的設計就能輕易命中客戶的心窩；我們的行銷也完全不同了，我們知道客戶喜歡什麼、討厭什麼，更有針對性。特別是顯微鏡再加上廣角鏡，我們就有更多全新的視野了。這個廣角鏡就是跨行業的數據流動，使我們過去看不到的東西都能看到了。

最後一點，我想談的是大數據發展對IT本身技術架構的革命性影響。大數據的根基是IT系統。我們現代企業的IT系統基本上是建立在IOE（IBM小型機、Oracle數據庫、EMC儲存）+Cisco模型基礎上的，這樣的模型是Scale-UP型的架構，在解決既定模型下一定數據量的業務流程是適配的，但如果是大數據時代，很快會面臨成本、技術和商業模式的問題，大數據對IT的需求很快就會超越了現有廠商架構的技術頂點，超大數據增長將帶來IT支出增長之間的線性關係，使企業難以承受。

因此，目前在行業中提出的去IOE趨勢，利用Scale-out架構+開源軟件對Scale-up架構+私有軟件的取代，本質是大數據業務模型所帶來的，也就是說大數據將驅動IT產業新一輪的架構性變革。去IOE潮流中的所謂國家安全因素，完全是次要的。

文茜世界財經周報／解碼大數據　不可不知科技最新浪潮

所以，美國人說，大數據是資源，和大油田、大煤礦一樣，可以源源不斷挖出大財富。而且和一般資源不一樣，它是可再生的，是越挖越多、越挖越值錢的，這是反自然規律的。對企業如此，對行業、對國家也是這樣，對人同樣如此。

三、新智慧生物的誕生？

自然語言的機器翻譯，是長期以來人工智能研究的一個重要體現。人工智能從過去到未來都有清晰而巨大的商業前景，是以前IT業的熱點，其熱度一點不亞於現在的“互聯網”和“大數據”。但是，人類過去在推進人工智能的研究遇到了巨大的障礙，最後幾乎絕望。

當時人工智能就是模擬人的智能思考方式來構築機器智能。以機器翻譯來說，語言學家和語言專家必須不辭勞苦地編撰大型詞典和與語法、句法、語義學有關的規則，數十萬詞彙構成詞庫，語法規則高達數万條，考慮各種情景、各種語境，模擬人類翻譯，計算機專家再構建複雜的程序。

最後發現人類語言實在是太複雜了，窮舉式的做法根本達不到最基本的翻譯質量。這條道路最後的結果是，1960年代後人工智能的技術研發停滯不前數年後，科學家痛苦地發現以“模擬人腦”、“重建人腦”的方式來定義人工智能走入一條死胡同，這導致後來幾乎所有的人工智能項目都進入了冷宮。

後來有人就想，機器為什麼要向人學習邏輯呢，又難學又學不好，機器本身最強大的是計算能力和數據處理能力，為什麼不揚長避短、另走一條道路呢？這條道路就是IBM“深藍”走過的道路。1997年5月11日，國際象棋大師卡斯帕羅夫在和IBM公司開發的計算機“深藍”進行對弈時宣布失敗，計算機“深藍”因此贏得了這場意義深遠的“人機對抗”。

www.cyberstyle.ru

類似的邏輯在後續也用到了機器翻譯上。谷歌、微軟和IBM都走上了這條道路。就是主要採用匹配法，同時結合機器學習，依賴於海量的數據及其相關相關統計信息，不管語法和規則，將原文與互聯網上的翻譯數據對比，找到最相近、引用最頻繁的翻譯結果做為輸出。

總而言之，利用這種技術，計算機教會自己從大數據中建立模式。有了足夠大的信息量，你就能讓機器學會做看上去有智能的事情，別管是導航、理解話語、翻譯語言，還是識別人臉，或者模擬人類對話。

假設目前剛剛興起的穿戴式計算設備取得巨大的進展。這種進展到什麼程度呢？就是你家的寵物小狗身上也裝上了各種傳感器和穿戴式設備，比如有圖像採集，有聲音採集，有嗅覺採集，有對小狗的健康進行監控的小型醫療設備，甚至還有電子藥丸在小狗的胃中進行消化情況監控。小狗當然也聯上網，也一樣產生了巨大的數據量。

這時，我們假設基於這些大數據建模，能夠模擬小狗的喜怒哀樂，然後還能夠通過擬人化的處理進行語音表達，換句話說，就是模擬小狗說人話，比如主人回家時，小狗搖尾巴，旺旺叫，那麼這個附著於小狗身上的人工智能係統就會說，“主人，真高興看到你回家”。不僅如此，你還可以和小狗的人工智能係統進行對話，因為這個人工智能係統能基本理解你的意思，又能夠代替小狗擬人化表達。

我們繼續把這個故事來做延伸，把小狗換成未來的人，人在一生中產生大量的數據，根據這些數據建模可以直接推演出很多的結論，比如喜歡看什麼樣的電影啊，喜歡什麼口味的菜啊，在遇到什麼問題時會怎麼採取什麼行動啊。

這樣的數據一直累積下來，直到這個人去世。我們有個大膽的想像，這些巨大的數據能否讓這個人以某種方式繼續存在下去呢？後代有什麼問題需要尋求答案的時候，比如在人生的關鍵抉擇時，比如大學要上什麼專業、該不該和某個姑娘結婚，可不可以問問這個虛擬的人（祖先）有什麼建議呢？答案是當然可以。

blog.vormetric.com

在這種情況下，數字化生存不僅在人生前存在，也可以在人死後繼續存在。人死了，可以在虛擬空間中繼續存在。一輩子、一輩子的人故去，這些虛擬的智慧都可以繼續存在，假設很多年過去了，這些虛擬智慧的祖宗們太多太多了，活著的子孫們甚至可以組建一個“祖宗聯席參謀委員會”，優選那些考得好的（比如中過狀元），當過國家高級公務員（比如太守）、當過企業高管（比如CEO）、當過教授、當過作家的等等當過成功人士的祖宗，專門用於後代的諮詢、解惑。讓這些祖宗死後還有競爭，別死了就沒有事情乾了。

這些說明什麼呢？就是隨著大數據和機器學習的進一步進展，這個世界出現了新的智慧生物！大數據和機器學習在改變、重構和顛覆很多企業、行業和國家以後，終於到了改變人類自身的時候了！人類的演進出現了新的分支！

有科學家畫了下面一張圖，來描述這兩者智慧生物。一種是基於生物性的，經過幾百萬年的進化而來；一種是基於IT技術，基於大數據和機器學習，通過自模擬、自學習而來。前者更有邏輯性，更有豐富的情感，有創造力，但生命有限；後者沒有很強的邏輯性，沒有生物上的情感，但有很強的計算、建模和搜索能力，理論上生命是無限的。

當然，這些事情要發生都會非常非常遙遠。反正我們活著的時候是見不到了，死了也見不到，因為我們死的時候，我相信這種建立在大數據和機器學習之上的虛擬生命還不會存在。

四、結語

我最後想說的是，我們對未來的認知，主要是基於常識和對未來的想像。根據統計，現在《紐約時報》一周的信息量比18世紀一個人一生所收到的資訊量更大，現在18個月產生的信息比過去5000年的總和更多，現在我家一台5000元電腦的計算能力比我剛入大學時全校的計算能力更強大。