來源: 經營報 作者:譚驗、王蕾
醫療行業是數據密集型產業,數據積累亙古存在。然而,在數據的應用水平上,很多醫療行業遠遠落後於網路、金融和電信等資訊化程度更好的行業。
峰瑞資本生物醫療技術團隊從數據產生、數據處理、數據消費的角度分析了醫療數據產業鏈。
分析顯示,醫院、診所等專業醫療機構和保險機構仍然是醫療數據產生的最重要來源,來自手機 App 和可穿戴設備的數據,開始提升數據的完整性、連續性和準確性;數據處理是個系統工程,包括清洗、整理、分析等標準環節,對數據結構化提出了更高要求;截至目前,為醫療數據買單的是 B端的醫療機構、藥企和保險公司,讓 C 端的病人和醫生為數據付費目前還不現實。
美國的醫療體制相對市場化,對醫療體系的投入巨大,使其在技術、服務和流程等支柱產業,都可以成為許多國家醫療產業發展的遠景參照物。近幾年,醫療數據產業在美國發展迅速。峰瑞資本生物醫療技術團隊挑選了4 家有代表性的美國醫療大數據公司(Flatiron、IBM Watson Oncology、IMS Health Oncology、Palantir)做案例分析。
大數據產業的出現和醫療數據投資策略分析
醫療大數據的發展帶來多重健康福利。
一、IBM用3V定義大數據
IBM最早提出了大數據的3V定義。3V是Volume,Variety,Velocity。
Volume 比較好理解,因為大數據本身的 「大」 代表了數據數量的巨大。數據量越來越大的原因很多,其中一個是現在機器和網路每天都在生成大量的數據。據統計,我們現在每兩天產生的數據量,約等於自人類文明開始到 2013 年的數據量的總和。
第二個特徵是 Variety,多樣化。多樣化主要指不同的數據來源和種類。傳統意義上的數據主要來自類似 excel 的表格和數據庫。現在人類能夠分析各種形式和類型的數據,比如電子郵件、圖片、視訊、音訊、監控儀器,等等。
第三個特徵是 Velocity,即數據生成的速度。比如,網路上數據的生成是以秒甚至毫秒來計算的。再比如,基因測序儀、網路監控的錄像,都在隨時隨地產生大量數據。
以上 3 個 V 是公認的大數據定義。在 2013 年波士頓的大數據峰會上,Express Scripts 的首席數據科學家 Inderpal Bhandar 提出了 Veracity 的概念。Veracity 主要是指數據是否有偏差、數據噪聲有多大,以及是否有異常值。
當業界大量積累各種來源的數據時,數據是否準確變成一個非常重大的問題,否則最後就是 「Garbage in,Garbage out」。
觀點(freesvc)
從以上對大數據的描述可以發現,大數據對數據儲存、數據傳輸和數據處理這 3 方面的能力提出了挑戰。
企業在數據產生和處理端也逐漸出現了一些變化。企業開始儲存海量數據,數據傳輸並分布式地儲存到數據中心,數據在雲端進行處理和分析,通過網路端進行數據的呈現,並指導商業決策。
二、大數據的產業鏈分析
得益於計算能力的快速增長、數據傳輸能力的增長和成本的下降,以及數據儲存成本的下降,大數據獲得了極大的發展。
上游數據的產生
大數據產業的最上游是數據的產生,這包括了數據的定義和數據的蒐集。數據的定義顧名思義就是定義哪些是數據。例如在搜索廣告出現之前,用戶點擊鏈接本身並不產生任何價值,也就不被定義為數據。數據定義產生之後,就開始快速、準確、有效地收集數據。
中游數據的處理
大數據產業的中游是數據處理,其中包括了數據的準備,例如數據清洗和整合,以及數據分析,例如數據建模、可視化呈現,等等。
下游數據的消費
大數據產業的最下游是數據消費,例如利用數據指導商業決策,指導商業決策之後產生的結果,本身又成為了新的數據,因此數據的消費和數據的產生形成了一個閉環。
在整個大數據產業的所有環節中,都存在數據儲存和數據管理,這兩個技術貫穿了整個大數據的週期。
三、數據驅動型企業結構的分析
在一個通過數據驅動的商業環境中,企業組織或者技術組織結構,一般分為以下 3 個邏輯板塊。從底層到上層分別是 Data engineering(數據工程),Data sciences(數據科學)和 Decision sciences(決策科學)。
下層數據平台:通用性平台為主,完整解決方案,開源解決方案
最底層是工程性的工作,主要指對於數據底層的工程性技術解決方案,例如對原始數據進行清洗、驗證和糾正,數據儲存和調取。在這一層有很多的開源解決方案和系統整合服務商。
這一步的目的是收集和整理大量數據,把它變成便於數據科學家使用的方式。大部分企業或者工程師,把 80% 的時間花在了這一步 。美國財富雜誌前幾天公佈的數據顯示,美國企業每年在大數據服務上的花費,是40 億美金左右,其中 40% 花在了數據整合和清洗上。可以說,整個數據工程在時間和花費上,都佔據了很重要的位置。
中層算法和數據呈現:通用性算法接口,行業專業知識,開源解決方案
處於中間層的是數據科學,這可能是大家最常聽到的一個領域。現在很熱的人工智慧、深度學習,都屬於這一層。這一層的作用是通過數據建立起對某個問題的模型。
比如說,通過歷史數據建立起天氣預報模型,或者通過大量病理數據,建立起疾病的預測或者診斷模型。
開源社區的發展讓很多非常複雜的算法模型,變得非常容易使用,極大地促進了數據科學的發展。數據科學家可以很快地驗證預測模型,並使用到實際的商業項目中。目前的解決方案主要是開源方案,一些商業 API 以及企業內部的私有數據計算框架等等。
上層商業決策:深入的行業專業知識,商業洞察,內部決策和外部咨詢
第三層是決策科學,它是數據的最頂層,也是實際產生商業價值的。比如我們預測明天要下雨,這個預測的價值在於,得到這個訊息的商家第二天,可以把傘放到更明顯的地方,以增加購買量。這樣就產生了商業價值。
這只是一個簡單的例子,實際情況要複雜很多。比如,很多遊戲中,機器可以根據玩家玩遊戲的時間、模式,來預測用戶是否對遊戲感興趣,一旦發現玩家對遊戲的興趣正在減弱,就會自動進行一些獎勵措施,比如獎勵裝備、獎勵點數來留住玩家,都是商業決策的範疇。
大數據的產生和利用,天生就和商業決策聯繫緊密。
四、大數據企業的商業模式:在咨詢和軟體服務中徘徊
大數據的價值往往通過商業價值來體現,而不同公司的商業邏輯往往有很大的區別。因此,大數據公司往往在咨詢模式,和軟體模式之間徘徊。
這兩種商業模式不難理解,咨詢有很強的可客製化性,能夠準確有效地解決公司的商業需求,但是需要大量和長期的人力支持,花費高,不容易規模化。軟體服務則具有邊際成本低、人力支持少、容易規模化的特點,但是它缺乏可客製化性。很多時候企業並不能直接解決問題,所以面臨難以銷售的問題。
五、企業數據化的演化歷程:傳統訊息化,在線化,雲端化,數據化
企業數據化的演化歷程:傳統訊息化,在線化,雲端化,數據化。
各個行業的數據化發展程度,因其行業特點而不同。相較於傳統零售、農業和製造業,醫療行業在數據累積上有領先優勢,但是在數據的應用水準上,醫療行業往往遠遠落後於網路、金融和電信等訊息化程度更好的行業。
觀點(freesvc)
通過分析各個行業數據化的程度看到:
網路化程度越高的企業數據化水準越高
數據變現越容易的企業數據化程度越高
個性化需求越高的企業數據化程度越明顯
數據儲備量越大的企業數據化趨勢越快
行業的數據化
受到商業變現能力和模式的驅動
依賴於底層基礎設施的發展
依賴於行業數據的積累
六、醫療數據產業鏈
接下來我們從數據產生、數據處理、數據消費的角度來分析醫療數據產業鏈。
目前,醫療數據的產生最大的來源是醫院、診所等專業醫療機構,以及保險機構。這些數據包含了病理、臨床、診療和理賠數據。隨著行動醫療和智慧硬體行業的發展,越來越多的數據開始來自手機 App 記錄,以及可穿戴設備,這些數據主要包含了人體的生命體徵和行為數據,等等。
這些數據有助於提升數據的完整性、連續性和準確性,並開始得到重視。峰瑞資本投資的 Haalthy 已經在收集肺癌用戶院外數據方面取得進展。
醫療數據的處理不僅包含清洗、整理和分析等標準環節,它還有其特殊性。例如,臨床數據往往來自於電子病歷等以自然語言描述的文本文件,且不同醫療機構或者醫生對臨床症狀的描述往往存在一些細微差別,這對數據結構化提出了較高的需求。
醫療數據的消費端比較明確,在 C 端主要是病人和醫生,B 端包括了醫療機構、藥企和保險公司等。從目前的情況來看,通過 C 端來收費和變現比較困難,主要的商業模式還是圍繞著 B 端開發。
七、美國 Top 醫療大數據公司產品分析
近幾年,醫療數據產業在美國發展迅速。這歸功於電子病歷在過去 10 年的逐步普及,以及包括醫院、藥廠和保險等機構對數據分析價值的高度認可。
除了傳統的數據巨頭 IMS Health,一些新型數據公司和數據分析公司紛紛湧現。我們挑出 4 家有代表性的公司(Flatiron、IBM Watson Oncology、IMS Health Oncology、Palantir)來分析。
它們分別代表了當前醫療數據領域發展的大方向:基於腫瘤臨床數據的事實;腫瘤人工智能輔助決策;腫瘤全景數據;醫療公眾資源數據。
我們把重點放到腫瘤數據上。這個領域的診療過程複雜、不確定性高、治癒率低,市場價值巨大,因而,數據在這個領域的作用和價值,也得以突顯和被重視。 其它疾病領域數據的方法論其實非常相似。
以 Flatiron 為例
創立於 2012 年的 Flatiron,是一家基於腫瘤病患的醫療數據分析公司。它接連獲得頂級投資機構和藥廠的融資,抗癌藥巨頭 Roche/Genetech 的參與,充分說明機構方認可癌症臨床數據,對藥品研發和市場指導的作用。
Flatiron 平台由行業領先的腫瘤學家、醫生和工程師共同打造,在這個平台上醫生可以記錄、整理、追蹤和分析自己病人的情況。
FLATIRON 的網站首頁上寫著:腫瘤治療技術的新標準。
基於平台上收集到的訊息, Flatiron 打造了幾款主要產品。
FLATIRON- ONCOEMR 是一個癌症病人電子病歷,它的主要使用方是醫院和醫生,藥廠也會購買它後台的數據,然後自己做數據分析,或者通過第三方協議的形式,由 IMS Health 幫助與其他數據進行整合。其它醫療數據分析和人工智慧公司,也是FLATIRON- ONCOEMR後台數據的使用者。
FLATIRON-ONCOANALYTICS 主要基於數據做整理,並形成高質量的分析和總結。比如,某種類型的病人的增長、正在治療的病人的增長、存活率的跟進,這類產品能對醫院與醫生管理診療工作,和病人提供商業和運營上的見解,受到醫療機構的歡迎。
FLATIRON-ONCOBILLING 在醫保、商保發達的美國用途廣泛。在醫院和醫生端,FLATIRON-ONCOBILLING清晰地瞭解治療的付費情況、病人的保險組合,對各項治療、各類病人的成本和收入,採用更合理有效的治療流程和手段,以更好的控費;保險公司對這類產品的關注度更是毋庸置疑,大量數據能為控費,和更好的理賠設計提供支持。
和 Flatiron 一樣,也有一些平台基於電子病歷的數據積累,建立起過往沒有的診療過程的數據挖掘。儘管它們是基於樣本醫院的病歷, 但是已經足夠大到提供統計學上有意義的 「怎樣做」 和 「為什麼」 的見解。
IBM Watson Oncology
最大的私家癌症中心 MSKCC 與 IBM 合作,將臨床專業知識、分子和染色體數據、以及大量癌症案例數據整合到一項循證解決方案中, 分析大量數據並從中提取重要訊息,以制訂出關鍵決策。
腫瘤學專家培訓 Watson,將患者的醫學訊息與大量的治療方針、已發表的研究結果和其他洞察力訊息相對比,為醫師提供個性化的、基於置信度的建議。
Watson 的自然語言處理能力允許系統利用非結構化數據,例如雜誌文章、醫師的筆記、以及來自National Comprehensive Cancer Network (NCCN) 的指導方針和最佳實踐訊息。
IMS Health Oncology Analyzer
憑借龐大的用藥和醫生數據基礎,結合豐富的醫藥咨詢經驗,醫療數據界的巨頭IMS Health,多年來一直在打造醫藥醫療全景數據圖。沒有任何一個數據源頭能提供足夠全面的訊息,IMS 除了擁有巨大的數據量,在數據拼接和整合上也有豐富的經驗,隨著電子病歷數據的引入和增長,IMS 致力於把藥廠銷量、銷售到醫療機構的量、醫療機構用藥治療情況,以及病人保險付費情況,全部串聯到一起。
併購了 Quintile 以後,IMS 還能整合臨床實驗的數據。其咨詢業務基於 IMS 自身匯攏的數據產生的見解,能夠對數據業務帶來良好正回饋。合併後近 200 億美金的估值,體現了市場對醫療數據價值的認可。
IMS 在世界範圍內不斷複製其美國模式,逐步形成自己的壟斷地位。
Palantir 的模式在市場上比較難於複製, 先不贅述。
觀點(freesvc)
瞭解了以上幾家美國著名醫療數據公司後, 我們回顧下之前的報告,並結合現有醫療數據項目的重點, 我們總結出醫療數據創業項目的 4 大方向:
1. 基於腫瘤臨床數據的事實。大量創業項目從這個方向切入;
2. 腫瘤人工智能輔助決策。現在相對較難,因為是建立在 1 的基礎上;
3. 腫瘤全景數據。和 1 類似,創業項目能獲取到的其他數據比較少;
4. 醫療公眾資源數據。對岸中國的數據基礎弱,這個方向可能需要國家和上層推動。
0 comments:
張貼留言