新浪微博 趙國棟
1.資訊基礎設施持續完善,包括網路頻寬的持續增加、存放裝置性價比不斷提升,猶如高速公路之於物流,為Big
Data的儲存和傳播準備物質基礎。
2.網路領域的公司最早重視資料資產的價值,最早從Big Data中淘金,並且引領Big Data的發展趨勢。
3.雲端運算為Big Data的集中管理和分散式訪問,提供了必要的場所和分享的管道。Big Data是雲端運算的靈魂和必然的升級方向。
4.物聯網與行動終端持續不斷的產生大量資料,並且資料類型豐富,內容鮮活,是Big Data重要的來源。
資訊科技進步
如果把資訊技術的不斷進步,看成世界萬物持續數位化的過程,則會理出一條清晰地主線。資訊科技具有三個最核心和基礎的能力:資訊處理、資訊儲存和資訊傳遞,幾十年來這三個能力的飛速進步,是人類科技史上最為激動人心的故事之一。
現代意義上電腦的發明,歸功於軍事上的需要。1946 年2 月14 日,由美國軍方訂製的世界上第一台電子電腦——“電子數位積分電腦”在美國賓夕法尼亞大學問世,主要是為了滿足計算彈道需要而研製的。“電子電腦”的稱謂的確名副其實,其最初的目的就是為了更迅速的進行大量數學運算。
艾倫·圖靈 |
迄今為止,人類都把圖靈機作為現代智慧類工具的鼻祖。美國電腦協會(ACM,Associationfor
Computer Machinery)於1966 年設立圖靈獎,專門獎勵那些對電腦科學研究,與推動電腦技術發展,有卓越貢獻的傑出科學家。
它被公認為電腦界的“諾貝爾”獎。以他命名的圖靈機是一個二進位計算的抽象理論模型,並不是電腦的工程設計。
約翰·馮·諾依曼 |
1965 年,戈登·摩爾(Gordon Moore③)——英特爾公司的創始人之一,準備了一個關於電腦記憶體發展趨勢的報告。在他開始繪製資料時,發現了一個驚人的趨勢:每個新晶片大體上包含上一代晶片兩倍的容量,每個晶片的產生都是在前一個晶片產生後的18~24 個月內。
如果這個趨勢繼續的話,電腦的計算能力相對於時間週期,將呈指數式上升。簡而言之,“晶片上可容納的電晶體數目,每隔18 個月左右便會增加一倍,性能也將提升一倍。”後來人們發現,這不僅適用於對記憶體晶片的描述,也精確地說明了計算能力,和磁片儲存容量的發展,於是,摩爾定律成為許多工業對於性能預測的基礎,主宰了資訊產業的發展。
在摩爾定律的指引下,資訊產業週期性地推出新的電腦,作業系統和計算能力,均在不斷提高。工業界和個人都不斷地升級電腦設備,從而推動資訊產業的巨大進步。每當英特爾公司開發出計算能力更強的晶片,微軟公司就會適時推出功能更強大、操作更方便的作業系統。
當人們採用了微軟的新作業系統後,就會發現系統變慢,不得不升級硬體設備。每當電腦產業發展放緩,硬體生產商就會翹首企盼微軟新的作業系統,帶動客戶新一輪的升級換機熱潮。這種循環持續不間斷地上演了40 餘年。這段波瀾壯闊的歷史,使資訊處理和儲存能力獲得了成千上萬倍的提升。
1977 年,世界上第一條光纖通信系統,在美國芝加哥市投入商用,速率為45Mbit/s,自此,拉開了資訊傳輸能力大幅躍升的序幕。有人甚至將光纖傳輸頻寬的增長規律,稱為超摩爾定律。認為頻寬的增長速度,比晶片性能提升的速度還要快。
事實上,儲存的價格從20
世紀60 年代1 萬美元1MB,降到現在的1 美分1GB 的水準,其價差高達億倍,如圖1-1 所示。線上即時觀看高清電影,在幾年前還是難以想像的,現在卻變得已習以為常了。網路的接入方式,也從有線連接向高速無線連接的方式轉變。毫無疑問,網路頻寬和大規模儲存技術的高速持續發展,為Big Data時代提供了廉價的儲存和傳輸服務。因而本文假定儲存和頻寬,不再是限制資料應用的因素。
網路誕生
網路的出現,在科技史上可以比肩“火”與“電”的發明。這個偉大的發明,同樣是由軍事目的驅動的。電腦在軍方應用得越廣泛,電腦上保存的軍事機密就越多。人們擔心如果保存重要軍事機密資料的主要電腦被摧毀的話,很可能就會輸掉整個戰爭,於是,推動電腦之間互相傳遞資料,並互為備份的通信機制被提上日程。1969 年,把分屬於不同大學的四台電腦互相連接起來,這就是最早的網路雛形。
網路把每個人桌面上的電腦連接起來,改變了人們的生活,成為大家獲取各類資料的首要管道。通過網路獲取資料的模式,可以被簡單地抽象為“請求”加“回應”的模式。理解這種獲取資訊的方式,有助於理解“Big Data”的價值,所以我們多花些筆墨把這個模式解釋清楚。
網路上的“腳印”
用收音機聽廣播,或者用電視機看電視節目,都是“廣播”加“接收”的模式。不管有沒有電視機在接收信號,廣播塔總是在發送電視節目信號。隨時打開電視機,隨時就能收看電視節目。在“廣播”加“接收”模式中,廣播塔是不知道有誰在接收節目的,如圖1-3 所示。
“請求”加“回應”模式則不同,如果用戶端(所有接入網路的設備、軟體等)不主動要求,伺服器端是不會發送任何資料的,如圖1-4 所示。網路應用協定基本上都是這種模式。
當然也有“廣播”加“接收”模式的協定,但是不常用。每一次訪問請求其實就是一次滑鼠點擊操作,伺服器的日誌中,忠實地記錄下來每個人訪問的時間、請求的命令、訪問的網址等資料。這些訪問記錄,就像人們在雪地上行走留下的腳印一樣,“腳印”連成一串,構成了人們在網路上的“行為軌跡”。
想一想獵人是怎樣通過追蹤腳印捕獲獵物的,就會明白這些“軌跡”中蘊含著巨大的價值。所以各類伺服器上的日誌,就是一種非常重要的Big Data類型。
曾經有製作服裝的公司,想要調查顧客的購買意願。需要統計顧客拿起了哪件衣服?試穿了哪件衣服?在專賣店逗留了多長時間?這就需要安裝攝影機,要選樣本,可能花費上億的資金。
要想省錢的話,其結果可能會失去參考價值。如果在網上做同樣的事情,成本近乎為“零”。大家可以想想,在亞馬遜或者雅虎奇摩商城的主頁上,每一個網頁都相當於一家店鋪,打開這個網頁就等於進入了店鋪;點擊了衣服,相當於顧客拿起衣服仔細端詳;把衣服放到我的最愛,可以理解為試穿;在實體店中的顧客行為幾乎被完整地映射到網頁上。
不同的是,網路忠實地記錄下“顧客”在“店”裡停留的時間、關心的品類;此外,顧客和銷售員的對話、顧客與顧客之間的對話,也被忠實地記錄、保存。網路企業做與那家製衣公司同樣的調查,成本近乎為“0”。
雲端運算與大數據
因為網路的內在機理,使網路成為大規模接近消費者、最理解消費者的工具和平臺。網路沒有刪除鍵,人們在網路上的一言一行都被忠實地記錄。古代皇帝身邊總有一位兢兢業業的史官,隨身攜帶紙筆,記下皇帝的起居作息、金口玉言。網路就像每個人的“史官”,它從不知疲倦,事不分大小,悉心而精準地記錄著一切。事實上,這位“史官”記錄的就是大家的數位化生活。
雲端運算,再一次改變了資料的儲存和訪問方式。在雲端運算出現之前,資料大多分散保存在每個人的個人電腦中、每家企業的伺服器中。雲端運算,尤其是公用雲端運算,把所有的資料集中儲存到“資料中心”,也即所謂的“雲端”,用戶通過流覽器或者專用應用程式來訪問。
一些大型的網站,通過提供基於“雲”的服務,積累大量的資料,成為事實上的“資料中心”。“資料”是這些大型網站最為核心的資產。他們不惜花費高昂的費用付出巨大的努力,來保管這些資料,以便加快使用者的存取速度。
谷歌公司甚至購買了單獨的水力發電站,為其龐大的資料中心提供充足的電力。根據一些公開資料顯示,谷歌在全球分佈著36個資料中心。圖1-6 是谷歌公司資料中心內一景,大家可以由此領略到科技之美。
這幾年全世界各地,興起了建設雲端運算基地的風潮,客觀上為“Big Data”的誕生準備了必備的儲存空間和訪問管道。各大銀行、電信運營商、大型網路公司、政府各個部委都擁有各自的“資料中心”。銀行、電信、網路公司,絕大部分已經實現了全國級的資料集中工作。
在我們的Big Data包告中曾經提了一個觀點,引起了廣泛的關注和爭議:“沒有Big Data的雲端運算,就是房地產的代名詞①”。雲端運算確實可以稱為一場資訊技術領域內的革命,甚至對社會也必將產生革命性的影響,但是它卻並不是一場技術革命,雲端運算在本質上是一場IT 產品/服務消費方式的變革②,雲端運算中的一個廣為宣傳的核心技術——虛擬化軟體。而這個技術早在20 世紀60 年代就已經被應用在IBM 的大型主機中了。
雲端運算是Big Data誕生的前提和必要條件。沒有雲端運算,就缺少了集中採集資料和儲存的資料商業基礎。雲端運算為Big Data提供了儲存空間和訪問管道;Big Data則是雲端運算的靈魂和必然的升級方向。
2012 年,所有的雲端運算大會,無論是什麼背景主辦,都是把“Big Data”作為一個核心的主題。甚至有時候都分不清楚,這是雲端運算的會,還是Big Data的會。
物聯網
物聯網是另一個資訊技術領域的熱詞,究其本質是感測器技術進步的產物。遍佈大街小巷的攝影機,是大家可以直觀感受到的,一種物聯網形態。事實上,感測器幾乎無處不在,使用它可以監測大氣的溫度、壓強、風力,監測橋樑、礦井的安全,監測飛機、汽車的行駛狀態。
一架軍用戰鬥機上的感測器多達數千個。現在大家常用的智慧手機中,就包括重力感應器、加速度感應器、距離感應器、光線感應器、陀螺儀、電子羅盤、攝影機等各類感測器。這些不同類型的感測器,無時無刻不在產生大量的資料。其中的某些資料被持續地收集起來,成為Big Data的重要來源之一。
社交網路
社交網路是網路發展史上的,又一個重要的里程碑。它把人類真實的人際關係,完美地映射到網路空間,並借助網路的特性而大大昇華。廣義的看,社交網路使得網路甚至具備某些人類的特質,譬如“情緒”:人們分享各自的喜怒哀樂,並相互傳染傳播。
社交網路為Big Data帶來一類,最具活力的資料類型,人們的喜好和偏愛。更重要的是,人們還知道在社交網路中,如何利用線民的關係鏈來傳播這些喜好和偏愛。這就為研究消費者行為,打開了另一扇方便之門。
如果深入地分析社交網路,就會發現,大型的社交網路平臺事實上構成了以“個人”為樞紐的不同的資料的集合。借助“分享”按鈕,人們在不同網站上的購物資訊、流覽的網頁都可以“分享”到社交網路上。想想前面提到的雪地上的腳印,社交網路把線民在不同網站上留下的“腳印”連結起來,形成完整的行為軌跡和“偏好”鏈。
圖1-7
是Facebook 的一個實習生,把網站中人們相互聯繫的資料通過建模、渲染得到的一幅圖片,越是明亮的地方,人們相互交流越是活躍。現在Facebook 是世界上最大的社交網站,每月的活躍用戶數突破10 億。
沒有留言:
張貼留言