3S Market「全球智慧科技應用」市場資訊網: ．深度研究：醫療數據創業的四大發展方向

來源：經營報作者：譚驗、王蕾

醫療行業是數據密集型產業，數據積累亙古存在。然而，在數據的應用水平上，很多醫療行業遠遠落後於網路、金融和電信等資訊化程度更好的行業。

峰瑞資本生物醫療技術團隊從數據產生、數據處理、數據消費的角度分析了醫療數據產業鏈。

分析顯示，醫院、診所等專業醫療機構和保險機構仍然是醫療數據產生的最重要來源，來自手機 App 和可穿戴設備的數據，開始提升數據的完整性、連續性和準確性；數據處理是個系統工程，包括清洗、整理、分析等標準環節，對數據結構化提出了更高要求；截至目前，為醫療數據買單的是 B端的醫療機構、藥企和保險公司，讓 C 端的病人和醫生為數據付費目前還不現實。

美國的醫療體制相對市場化，對醫療體系的投入巨大，使其在技術、服務和流程等支柱產業，都可以成為許多國家醫療產業發展的遠景參照物。近幾年，醫療數據產業在美國發展迅速。峰瑞資本生物醫療技術團隊挑選了4 家有代表性的美國醫療大數據公司（Flatiron、IBM Watson Oncology、IMS Health Oncology、Palantir）做案例分析。

大數據產業的出現和醫療數據投資策略分析

　　醫療大數據的發展帶來多重健康福利。

一、IBM用3V定義大數據

IBM最早提出了大數據的3V定義。3V是Volume，Variety，Velocity。

Volume 比較好理解，因為大數據本身的「大」代表了數據數量的巨大。數據量越來越大的原因很多，其中一個是現在機器和網路每天都在生成大量的數據。據統計，我們現在每兩天產生的數據量，約等於自人類文明開始到 2013 年的數據量的總和。

第二個特徵是 Variety，多樣化。多樣化主要指不同的數據來源和種類。傳統意義上的數據主要來自類似 excel 的表格和數據庫。現在人類能夠分析各種形式和類型的數據，比如電子郵件、圖片、視訊、音訊、監控儀器，等等。

第三個特徵是 Velocity，即數據生成的速度。比如，網路上數據的生成是以秒甚至毫秒來計算的。再比如，基因測序儀、網路監控的錄像，都在隨時隨地產生大量數據。

以上 3 個 V 是公認的大數據定義。在 2013 年波士頓的大數據峰會上，Express Scripts 的首席數據科學家 Inderpal Bhandar 提出了 Veracity 的概念。Veracity 主要是指數據是否有偏差、數據噪聲有多大，以及是否有異常值。

當業界大量積累各種來源的數據時，數據是否準確變成一個非常重大的問題，否則最後就是「Garbage in，Garbage out」。

觀點（freesvc）

從以上對大數據的描述可以發現，大數據對數據儲存、數據傳輸和數據處理這 3 方面的能力提出了挑戰。

企業在數據產生和處理端也逐漸出現了一些變化。企業開始儲存海量數據，數據傳輸並分布式地儲存到數據中心，數據在雲端進行處理和分析，通過網路端進行數據的呈現，並指導商業決策。

二、大數據的產業鏈分析

得益於計算能力的快速增長、數據傳輸能力的增長和成本的下降，以及數據儲存成本的下降，大數據獲得了極大的發展。

上游數據的產生

大數據產業的最上游是數據的產生，這包括了數據的定義和數據的蒐集。數據的定義顧名思義就是定義哪些是數據。例如在搜索廣告出現之前，用戶點擊鏈接本身並不產生任何價值，也就不被定義為數據。數據定義產生之後，就開始快速、準確、有效地收集數據。

中游數據的處理

大數據產業的中游是數據處理，其中包括了數據的準備，例如數據清洗和整合，以及數據分析，例如數據建模、可視化呈現，等等。

下游數據的消費

大數據產業的最下游是數據消費，例如利用數據指導商業決策，指導商業決策之後產生的結果，本身又成為了新的數據，因此數據的消費和數據的產生形成了一個閉環。

在整個大數據產業的所有環節中，都存在數據儲存和數據管理，這兩個技術貫穿了整個大數據的週期。

三、數據驅動型企業結構的分析

在一個通過數據驅動的商業環境中，企業組織或者技術組織結構，一般分為以下 3 個邏輯板塊。從底層到上層分別是 Data engineering（數據工程），Data sciences（數據科學）和 Decision sciences（決策科學）。

下層數據平台：通用性平台為主，完整解決方案，開源解決方案

最底層是工程性的工作，主要指對於數據底層的工程性技術解決方案，例如對原始數據進行清洗、驗證和糾正，數據儲存和調取。在這一層有很多的開源解決方案和系統整合服務商。

這一步的目的是收集和整理大量數據，把它變成便於數據科學家使用的方式。大部分企業或者工程師，把 80% 的時間花在了這一步。美國財富雜誌前幾天公佈的數據顯示，美國企業每年在大數據服務上的花費，是40 億美金左右，其中 40% 花在了數據整合和清洗上。可以說，整個數據工程在時間和花費上，都佔據了很重要的位置。

中層算法和數據呈現：通用性算法接口，行業專業知識，開源解決方案

處於中間層的是數據科學，這可能是大家最常聽到的一個領域。現在很熱的人工智慧、深度學習，都屬於這一層。這一層的作用是通過數據建立起對某個問題的模型。

比如說，通過歷史數據建立起天氣預報模型，或者通過大量病理數據，建立起疾病的預測或者診斷模型。

開源社區的發展讓很多非常複雜的算法模型，變得非常容易使用，極大地促進了數據科學的發展。數據科學家可以很快地驗證預測模型，並使用到實際的商業項目中。目前的解決方案主要是開源方案，一些商業 API 以及企業內部的私有數據計算框架等等。

上層商業決策：深入的行業專業知識，商業洞察，內部決策和外部咨詢

第三層是決策科學，它是數據的最頂層，也是實際產生商業價值的。比如我們預測明天要下雨，這個預測的價值在於，得到這個訊息的商家第二天，可以把傘放到更明顯的地方，以增加購買量。這樣就產生了商業價值。

這只是一個簡單的例子，實際情況要複雜很多。比如，很多遊戲中，機器可以根據玩家玩遊戲的時間、模式，來預測用戶是否對遊戲感興趣，一旦發現玩家對遊戲的興趣正在減弱，就會自動進行一些獎勵措施，比如獎勵裝備、獎勵點數來留住玩家，都是商業決策的範疇。

　　大數據的產生和利用，天生就和商業決策聯繫緊密。

四、大數據企業的商業模式：在咨詢和軟體服務中徘徊

大數據的價值往往通過商業價值來體現，而不同公司的商業邏輯往往有很大的區別。因此，大數據公司往往在咨詢模式，和軟體模式之間徘徊。

這兩種商業模式不難理解，咨詢有很強的可客製化性，能夠準確有效地解決公司的商業需求，但是需要大量和長期的人力支持，花費高，不容易規模化。軟體服務則具有邊際成本低、人力支持少、容易規模化的特點，但是它缺乏可客製化性。很多時候企業並不能直接解決問題，所以面臨難以銷售的問題。

五、企業數據化的演化歷程：傳統訊息化，在線化，雲端化，數據化

企業數據化的演化歷程：傳統訊息化，在線化，雲端化，數據化。

各個行業的數據化發展程度，因其行業特點而不同。相較於傳統零售、農業和製造業，醫療行業在數據累積上有領先優勢，但是在數據的應用水準上，醫療行業往往遠遠落後於網路、金融和電信等訊息化程度更好的行業。

觀點（freesvc）

　　通過分析各個行業數據化的程度看到：

　　網路化程度越高的企業數據化水準越高

　　數據變現越容易的企業數據化程度越高

　　個性化需求越高的企業數據化程度越明顯

　　數據儲備量越大的企業數據化趨勢越快

　　行業的數據化

　　受到商業變現能力和模式的驅動

　　依賴於底層基礎設施的發展

　　依賴於行業數據的積累

六、醫療數據產業鏈

接下來我們從數據產生、數據處理、數據消費的角度來分析醫療數據產業鏈。

目前，醫療數據的產生最大的來源是醫院、診所等專業醫療機構，以及保險機構。這些數據包含了病理、臨床、診療和理賠數據。隨著行動醫療和智慧硬體行業的發展，越來越多的數據開始來自手機 App 記錄，以及可穿戴設備，這些數據主要包含了人體的生命體徵和行為數據，等等。

這些數據有助於提升數據的完整性、連續性和準確性，並開始得到重視。峰瑞資本投資的 Haalthy 已經在收集肺癌用戶院外數據方面取得進展。

醫療數據的處理不僅包含清洗、整理和分析等標準環節，它還有其特殊性。例如，臨床數據往往來自於電子病歷等以自然語言描述的文本文件，且不同醫療機構或者醫生對臨床症狀的描述往往存在一些細微差別，這對數據結構化提出了較高的需求。

醫療數據的消費端比較明確，在 C 端主要是病人和醫生，B 端包括了醫療機構、藥企和保險公司等。從目前的情況來看，通過 C 端來收費和變現比較困難，主要的商業模式還是圍繞著 B 端開發。

七、美國 Top 醫療大數據公司產品分析

近幾年，醫療數據產業在美國發展迅速。這歸功於電子病歷在過去 10 年的逐步普及，以及包括醫院、藥廠和保險等機構對數據分析價值的高度認可。

除了傳統的數據巨頭 IMS Health，一些新型數據公司和數據分析公司紛紛湧現。我們挑出 4 家有代表性的公司（Flatiron、IBM Watson Oncology、IMS Health Oncology、Palantir）來分析。

它們分別代表了當前醫療數據領域發展的大方向：基於腫瘤臨床數據的事實；腫瘤人工智能輔助決策；腫瘤全景數據；醫療公眾資源數據。

我們把重點放到腫瘤數據上。這個領域的診療過程複雜、不確定性高、治癒率低，市場價值巨大，因而，數據在這個領域的作用和價值，也得以突顯和被重視。其它疾病領域數據的方法論其實非常相似。

以 Flatiron 為例

創立於 2012 年的 Flatiron，是一家基於腫瘤病患的醫療數據分析公司。它接連獲得頂級投資機構和藥廠的融資，抗癌藥巨頭 Roche/Genetech 的參與，充分說明機構方認可癌症臨床數據，對藥品研發和市場指導的作用。

Flatiron 平台由行業領先的腫瘤學家、醫生和工程師共同打造，在這個平台上醫生可以記錄、整理、追蹤和分析自己病人的情況。

　　FLATIRON 的網站首頁上寫著：腫瘤治療技術的新標準。

基於平台上收集到的訊息， Flatiron 打造了幾款主要產品。

FLATIRON- ONCOEMR 是一個癌症病人電子病歷，它的主要使用方是醫院和醫生，藥廠也會購買它後台的數據，然後自己做數據分析，或者通過第三方協議的形式，由 IMS Health 幫助與其他數據進行整合。其它醫療數據分析和人工智慧公司，也是FLATIRON- ONCOEMR後台數據的使用者。

FLATIRON-ONCOANALYTICS 主要基於數據做整理，並形成高質量的分析和總結。比如，某種類型的病人的增長、正在治療的病人的增長、存活率的跟進，這類產品能對醫院與醫生管理診療工作，和病人提供商業和運營上的見解，受到醫療機構的歡迎。

FLATIRON-ONCOBILLING 在醫保、商保發達的美國用途廣泛。在醫院和醫生端，FLATIRON-ONCOBILLING清晰地瞭解治療的付費情況、病人的保險組合，對各項治療、各類病人的成本和收入，採用更合理有效的治療流程和手段，以更好的控費；保險公司對這類產品的關注度更是毋庸置疑，大量數據能為控費，和更好的理賠設計提供支持。

和 Flatiron 一樣，也有一些平台基於電子病歷的數據積累，建立起過往沒有的診療過程的數據挖掘。儘管它們是基於樣本醫院的病歷，但是已經足夠大到提供統計學上有意義的「怎樣做」和「為什麼」的見解。

IBM Watson Oncology

最大的私家癌症中心 MSKCC 與 IBM 合作，將臨床專業知識、分子和染色體數據、以及大量癌症案例數據整合到一項循證解決方案中，分析大量數據並從中提取重要訊息，以制訂出關鍵決策。

腫瘤學專家培訓 Watson，將患者的醫學訊息與大量的治療方針、已發表的研究結果和其他洞察力訊息相對比，為醫師提供個性化的、基於置信度的建議。

Watson 的自然語言處理能力允許系統利用非結構化數據，例如雜誌文章、醫師的筆記、以及來自National Comprehensive Cancer Network （NCCN）的指導方針和最佳實踐訊息。

IMS Health Oncology Analyzer

憑借龐大的用藥和醫生數據基礎，結合豐富的醫藥咨詢經驗，醫療數據界的巨頭IMS Health，多年來一直在打造醫藥醫療全景數據圖。沒有任何一個數據源頭能提供足夠全面的訊息，IMS 除了擁有巨大的數據量，在數據拼接和整合上也有豐富的經驗，隨著電子病歷數據的引入和增長，IMS 致力於把藥廠銷量、銷售到醫療機構的量、醫療機構用藥治療情況，以及病人保險付費情況，全部串聯到一起。

併購了 Quintile 以後，IMS 還能整合臨床實驗的數據。其咨詢業務基於 IMS 自身匯攏的數據產生的見解，能夠對數據業務帶來良好正回饋。合併後近 200 億美金的估值，體現了市場對醫療數據價值的認可。

IMS 在世界範圍內不斷複製其美國模式，逐步形成自己的壟斷地位。

Palantir 的模式在市場上比較難於複製，先不贅述。

觀點（freesvc）

瞭解了以上幾家美國著名醫療數據公司後，我們回顧下之前的報告，並結合現有醫療數據項目的重點，我們總結出醫療數據創業項目的 4 大方向：

1. 基於腫瘤臨床數據的事實。大量創業項目從這個方向切入；

2. 腫瘤人工智能輔助決策。現在相對較難，因為是建立在 1 的基礎上；

3. 腫瘤全景數據。和 1 類似，創業項目能獲取到的其他數據比較少；

4. 醫療公眾資源數據。對岸中國的數據基礎弱，這個方向可能需要國家和上層推動。

按此回今日3S Market新聞首頁

3S Market「全球智慧科技應用」市場資訊網

2016年9月5日星期一

．深度研究：醫療數據創業的四大發展方向

沒有留言:

張貼留言

2016年9月5日 星期一

．深度研究：醫療數據創業的四大發展方向

沒有留言:

張貼留言

2016年9月5日星期一