2017年3月10日 星期五

.對創業公司的忠告:這麼玩數據才不會死

The Single Most Important Thing You Need To Know As A Startup




leiphone 作者:恒亮


按:本文原作者 Matthew Coffman,他是專注於企業雲的風投基金 High Alpha 的產品經理,具有豐富的大數據行業經驗,也參與和見證了許多數據類公司的創立和發展。

根據自己在行業裡多年的觀察和思考,Matthew Coffman 提出了以下幾條針對初創公司的數據科學實踐指南。

对创业公司的忠告:这么玩数据才不会死
Matthew Coffman

首先,我們需要明確一個概念:什麼是數據科學家?

一般的定義是:能夠採用科學方法、運用數據挖掘工具,對複雜多量的資訊,進行數位化重現與認識,並能從中找出新的數據洞察的工程師或專家。

這裡,從實際工程的角度,來自知名資訊聚合平台 Slack 的首席數據工程師 Josh Wills ,對數據科學家下了這樣一個更精闢的定義:軟體工程師裡統計學最好的,統計學家裡編程能力最強的那些人,就是數據科學家。

对创业公司的忠告:这么玩数据才不会死

下面進入正題,作為一個初創公司的項目主管,怎樣才能更好地應對數據科學挑戰呢,有如下幾條實踐指導。

第一步:理解數據科學的格局
首先需要明確的一點是,當前的數據科學、機器學習和 AI 作為一個獨立的行業,都已經具備了相當的體量。利用各種供應商提供的各種平台、工具和算法,我們幾乎可以解決所有應用程序的相關問題。

但這些工具和平台,與真正的數據科學家是兩回事。事實上,目前所有的大公司,都在競聘行業裡頂尖的數據科學家。因此,對於那些專注於研究下一代的智慧聊天機器人,或者大數據分析應用的創業者來說,機會已經不多了。

如果你的公司足夠幸運,已經招到了一位珍貴的數據科學家,那就一定要讓他作為你的合伙人,共同規劃和執行公司的項目。同時你需要明確的一點是,在建構和擴展應用程序的所有其他複雜功能方面,數據科學家們很多時候,並不具備其他工程師的專業知識和經驗。一定要讓數據科學家和工程師協同合作,共同參與項目的規劃,才能最大限度地確保成功。

那麼,在缺少主題專家的情況下,項目主管要怎樣為其產品,尋求有意義的數據科學驅動功能呢?這裡推薦一個非常實用的方法:就像大多數其他產品的規劃流程一樣,做到理智的取捨。在當前豐富而強大的工具和平台的幫助下,團隊可以實現幾乎任何想要的功能。因此,對項目主管來說,重點就在於確定真正核心的功能並平衡其影響。

对创业公司的忠告:这么玩数据才不会死

第二步:最小化的可用數據產品(Minimum viable data products,MVDP)
創業圈流行這樣一個理念:開發產品時先做出一個簡單的原型——最小化的可用產品(Minimum Viable Product, MVP),然後通過測試,並收集用戶的回應,快速迭代,不斷修正產品,最終適應市場的需求,推出讓用戶滿意的產品。這一點放在數據產品上也同樣適用。

要做到 MVDP,有以下三點需要注意:

1. 對客戶真正有價值:增強或加深他們與產品的關係;

2. 可用和足夠的數據:即使是最好的算法,也不能沒有數據去執行;

3. 即時性的交付:團隊是否可以利用現有的資源,和現成的解決方案實現功能。

項目主管可以從產品特性討論開始,優先考慮那些對客戶最有價值的特性。並且與工程師團隊(以及潛在的數據科學專業人員)一起討論,確定待實現的特性與現有的數據、資源是否匹配。

不要擔心縮小範疇,MVDP 本身的目標,就是快速輸出一個對客戶有價值的原型產品。只要能證明這個原型有價值,後續可以再添加額外的複雜功能。這一點放在數據科學項目上尤其重要,因為數據產品在很大程度上,就是要盡量防止過多的複雜性,以減少項目落空的機會。

第三步:制訂對工程師友好的解決方案
當前,一般的工程師和產品團隊,在實現產品性能方面,都表現優異,但是他們通常都需要一些工具包,或者框架的幫助。數據科學家們提供了給定數據集的深層次的理解,提供了正確的工具/技術來幫助實現產品特性,並成功將這些工具和產品應用,到產品研發的過程中。

可能有些創業公司目前並沒有自己的數據科學家,但可喜的是,現在互聯網上充滿了相關教程和學習資料,還有豐富的程序Demo和API接口,可以幫助這些公司實現數據科學的相關功能。

而且,目前幾乎所有的算法和技術,都可以找到第三方實現好的現成的工具包,工程師團隊真正的研發重點,應該是數據的準備和加載,訓練和選擇合適的模型/算法/工具,並將其成功應用在產品裡。

必須明確的一點是:團隊不應該完全從零開始建構所有東西,這是一種寶貴資源的浪費。

隨著 MVDP 的實現,下面需要找到最實用的方法,來實現產品特性。當然,需要首先明確的一點是:並不存在某個單一的工具或平台適合所有產品。對此,我們給出以下幾條建議。


对创业公司的忠告:这么玩数据才不会死
1. 通用的機器學習平台和預測服務:Google Prediction APIAmazon Machine Learning APIMicrosoft Azure Machine Learning API 以及 BigML。通過這些開放 API 接口,用戶可以將數據輸入到,預先建構好的或者自定義的模型,實現快速測試,並合併到產品中。

這種類型的服務,非常適合於預測用戶行為,在大數據集中標記用戶和產品,以及對數據集進行優先級排序等場景。

对创业公司的忠告:这么玩数据才不会死

2. 特定用途的 AI 平台:這一類的工具似乎發展勢頭強勁,初創公司可以直接接入這些平台,然後通過雲端運算,實現各種各樣的創新功能。主要的供應商包括 IBM Watson(語音辨識,圖像辨識,翻譯)和 Google Cloud(語音,文字,圖像和其他服務),並且每天都有許多這一類的新興的初創公司湧現。

3. 博客,資源和社區討論:與大多數其他領域的發展一樣,互聯網提供了一個分享互助的基礎,初創公司可以相對容易地,與其他團隊分享和交流,他們的數據科學項目經驗,並相互學習,取長補短。這裡建議 KDnuggets 和 O'Reilly 這兩個社區。

這裡還需要強調:無論借助哪種工具或者框架的幫助,項目主管都需要明確:始終聚焦於向客戶提供,有價值的最小化的可行產品,然後其他所有的各項措施,都是圍繞這一核心目標展開的。明確這一點,有助於保持數據科學的相關項目,始終在可控的範圍內成長。

第四步:根據用戶反饋迭代產品
在做任何一個特性之前,都需要首先明確,如何衡量客戶對該特性的滿意度。考慮到數據科學項目額外的複雜性,因此,在客戶回應和特性迭代之間,建立一個緊密的循環機制,就變得更加重要。

而且由於對數據和模型的巨大依賴,因此通常情況下,研發人員很難排查,為什麼最終實現的特性,沒有預想的效果好。另外,項目主管在制訂每一輪迭代的預期工作量時,都發揮著非常重要的作用,並且通常還需要針對,一些計劃外的工作價值做出判斷。在某些極端的情況下,如果一個特性看起來,需要太多的工作投入,或者結果仍然不可預測,那麼就有可能選擇完全放棄該特性。

值得注意的是:一個好的項目主管,應該在客戶和數據之間,保持一種勤奮的工作關係。當客戶實測一個,數據科學驅動的新特性時,即時準確地考察,來自這兩個來源的回應,將變得非常重要。

總結:重視數據科學
Slack的首席數據工程師 Josh Wills 表示:當前對許多公司而言,數據科學方面的投入,只是其眾多產品投入的一部分。在大多是情況下,只需要一項或者兩項的投入起作用,就能支撐起整個產品。

而且,數據科學的入門真的很難,他稱之為信仰的行為(an act of faith)。像Facebook、谷歌和亞馬遜這樣的巨頭公司,他們的發展規模,其實早已超出了建立時的初衷,數據科學幾乎變成了所有業務的核心驅動力。

現在,機器學習和數據科學,幾乎變成了所有大公司,用來創造價值的主要工具,他們通過考察用戶體驗掌握先機,然後透過自動化的方法,透過特定的產品,使客戶的生活變得越來越便捷。

從實用的觀點來說,當下的項目主管應該要開始嘗試,將數據科學的相關特性,融入到產品中去。雖然趕超大公司,可能仍然是一個不小的挑戰,但我們需要聚焦於,我們自己的目標客戶的實際需求,並盡一切可能的努力,去提升他們的使用體驗。

                                                                                                                                                                                                                 

沒有留言:

張貼留言