2015年4月14日 星期二

‧ 行動醫療大數據的幾個偽命題:大數據的陷阱與小數據的重要性

leiphone Dr.2

The trap
在醫療大數據專案中,很多情況下,由於無法驗證有效性、敏感性和特異性,所以即使得出了100個結果趨勢,卻沒有幾個是有臨床參考意義的,就是說即使看起來是那麼一回事,又怎麼樣,能反過來指導臨床嗎?因為醫療是非常特殊的行業,所以單獨強調大數據是一種很片面、盲目的做法。在這個大數據時代裡,我們要重視傳統的小數據研究(或者也可以稱之為抽樣資料),其實大數據和小數據可以相互結合,相互印證,互為補充,互相借鑒的。
那什麼是小數據呢?小數據研究有幾個方向:
1.搜集一段時間和地點內的大量醫學資料,進行回顧性研究。
2.根據所要研究或者驗證的意圖,設計方案,通常有一比一配對,隨機對照雙盲等方法,進行前瞻性研究。
這兩類分析在搜集資料的時候都要進行統計學處理,均衡性檢驗,去除很多無效的雜波和噪音干擾,相比一些所謂大數據分析的眉毛鬍子一把抓,通常得出的結果更為精準。
3.還有一類就是持續追蹤個體的小數據,也就是我們每個人的數位化資訊。因為人存在很多的個體差異,所以每個人身上的小數據也是千差萬別的。它不比大數據那樣浩瀚繁雜,卻對我自己至關重要。
當然把大量的人的小數據整合起來可以視為大數據分析,但是前文Dr.2也說過,有的時候整體平均趨勢對個人是無價值的,甚至有害的。前天看個笑話,有個身高1.8米的人問大數據科學家能不能過前面這條河,科學家經過全河流域的大數據分析後,得出平均水深1.2米,於是他放心地趟過去,結果淹死了!



再比如癌症治療,現在有十分火熱的個體化治療,基因治療和細胞治療,不是僅僅“對症下藥”,而是要同時“對人下藥”。與其他行業不同,一些重大疾病的治療是一個“非標”的過程,這其中需要組織醫生、患者、醫療資源等,治療每個疾病,不同患者所需要的時間、財力、流程和預後都是不同的,而且每個人的基礎和個性需求也是多樣化的,不可能達到標準化。因此,這些個性化的治療都需要記錄和分析個人的小資料,並進行預判和綜合評估。
當然,Dr.2從來沒有說過大數據不重要。事實上,在醫學上發現的一般規律,往往是從大量資料中隱藏的一些重要線索。歐美各國都在計畫編制患者資訊的整體資料庫,不僅是為了統計分析,也是為開發新藥物、新技術和新方法,更好地服務整個人群。集成大量的線上資料庫也可以指導個性化用藥(如計算安全性的概率),減輕他們的痛苦。
從大數據中得到規律,用小數據去驗證,在小數據中發現問題,再觀察相關大數據的變化,交互印證是非常重要的,但是目前很多的商業行為充斥著我們的行動醫療圈,過分強調大數據的背後,是有利益驅動的故事在的!
接下來,我就來跟大家說一說大數據的陷阱!
1.資料獲取帶有傾向性。
我們在對海量資料進行分析,這其中存在了一個概念的偷換,就是你首先假設了你分析的大數據都是有價值的,然後才會去做這個事情。打個不恰當的比喻,好像現在的各大媒體,無論結果如何,不需審判,就可以都對郭美美進行“有罪推定”,而不再考慮什麼嚴謹啊,法律合規啊,人權之類的事情(即使是罪犯也有人權),那麼無窮無盡批評中國缺乏法制精神的這批道貌岸然的人,其法制精神何在?一切只為利益、眼球和收視率!
採用嚴重有偏的資料幾乎能夠產生任何人需要的任何結果。Dr.2在第一章就曾經說過,我們經常能夠看到有些公司說“通過XX大數據分析,得出YY的結論,而我們的產品符合啥啥的結論,所以是多麼多麼好!”你乍一看就不怎麼樣,仔細一看還不如乍一看!因為這樣帶來的結果能給他們帶來商業價值。


LGTMedical Pulse Oximiter
mobihealthnews.com

2.大數據本身的“陷阱”。
大數據“採礦”常犯的錯誤之一,就是由於因為相關性存在於多種可能性之中,但是你會怎麼選擇呢?這是系統性問題,理論上來說,只要有超大樣本和很多變數,我們都可能找到無厘頭式的相關性。它完全符合統計方法的嚴格要求,但兩者之間是個什麼關係呢?只要我們對著一堆足夠多的資料進行反復研究,進行不同模型的嘗試,上千次後,一定會找到統計學意義上成立的相關性。這就是常見的大數據分析所犯的另一個人為的錯誤——由相關性去論證因果關係。
在剛剛結束不久的2014年百度聯盟峰會中,李彥巨集在大數據和醫療的結合中提到:“未來真正的大數據積累應該是可以提前預測人的疾病情況,因為疾病不是一天出現的,而是天長日久累計出來的,各種資料一定發生變化。有價值的資料,不是無用的資訊爆炸,而是有價值的慢資料,可以預測個性化資訊的資料。”Dr.2深表同意,在大數據之上的慢資料,去掉了很多雜波干擾的資料,才是真正有價值的。
醫療監測是時下行業內很熱的一個話題。現在已經出現了某種監測技術通過對周圍的大數據進行監測並分析周邊疫情動態來預測下一場變異性流感等流行病的大規模爆發。人們再也不必恐慌和擔心被傳染,早就有相應提示及時應對預防;而與此密切相關的醫療行業,可以及時獲悉疾病爆發趨勢,合理分配和部署好醫務人員,同時提醒和建議市民預防疫病,降低人們染病幾率……這是不是看似很美好很強大?其實不然。
大數據監測流行病忽略了一個事實:大數據是根據所收集到的海量資料,與目前醫學領域中已有的傳統疾病進行對照研究、資料分析等一系列工作。所以其通常很難預測未知的新疾病,像SARS、甲型H1N1流感和現在的埃博拉病毒的爆發等。去年衛生部發言人就曾提到:“中國面臨傳統流行病威脅持續存在、新發流行病不斷出現的嚴峻形勢。”所以我們要對大數據的疾病預測能力有客觀的評估,一邊倒地鼓吹並無價值,從系統上來說,想預測黑天鵝,這本身就是一個“mission impossible”的哲學命題!


futureofcio.blogspot.com

3. 統計學一樣會欺騙你。
統計學是通過搜索、整理、分析資料等手段,以達到推斷所測物件的本質,甚至預測物件未來的一門綜合性科學。它是一種模型,是一種探索未知世界的工具,試圖對事物本身有所認知上的突破。但通過統計學所得來的認知是僅供參考的,誰說90%的人說它正確,它就一定正確了?就像千百年前,所有人都認為太陽圍繞地球轉一樣。
其實這與“市場失靈”是一個道理,再比如物理課上我們還總是假設一個小球從沒有摩擦的斜坡上滾下,然後以此來計算小球的各種資料……然在現實生活中,怎麼可能呢?所以統計學經常會出錯的,黑天鵝無處不在。
谷歌雖然在09年的流感預測上做出了漂亮的成績,但是在2013年初,谷歌流感趨勢被媒體大量批評,原因就在於其資料總是大幅偏高於真實的流感資料。因為在進行資料分析的時候,我們需要盡可能地利用各種統計分析方法來剔除系統誤差。但是在谷歌流感案例中因為它無法剔除殘差的“自相關性”以及季節性(因為到了換季時節容易感冒,所以即使我沒有生病,那時也會去進行相關的檢索),也就是Dr.2前文中提到的“大數據反作用於大數據”,所以導致它的分析結果出現系統性誤差。
4. 無法確定“主觀性資料”是否經過資料來源者的美化。
動醫療大數據分析確實有一部分是客觀資料,但是也有很多是來自於受眾的“主觀性資料”。如果普通大眾願意配合提供自身資料,那我們如何保證這些資料都是真實有效的目標資料呢?這也是動醫療需要提前考慮的一個重要問題。
我們假設某動醫療企業,不帶偏向性地深入市場調研然後進行大數據分析證明,20~40歲群體中有20%的人每日鍛煉時間在2小時以上。從該公司的整個調查和分析過程中,確實是沒有什麼問題,均衡性檢驗我們也發現不了異常。但是!有時候我們忽略了,被調查的人他們自己會虛報情況!出於這樣那樣的原因,比如跟別人說自己從來不運動,是不是不好啊,沒面子啊,感覺很low啊,於是就會將自己的資料向上統計。



所以賈伯斯說,我從來不做所謂的市場調查,這是有原因的。因為主觀性資料非常容易出現虛假!在進行街頭調查的時候,你可能會得出,喜歡閱讀各類時尚雜誌和財經雜誌的人特別多,但是當大夥冷靜地看一下銷售量,你就會發現故事會、知音和青年文摘這種有深度的期刊,其月銷量是某些“高大上”雜誌的幾十倍!
全文連載至現在將告一段路,Dr.2收到了很多小夥伴們的回饋、鼓勵與批評,我將其整理了一下,發現這也是一個有意思的小規模“大數據分析”。一般動醫療從業者,他們中性或者批評意見比較多,不明真相的群眾一般都是“好,太棒了,漲姿勢”之類的話,專業人士多會針對某一點進行辯論和探討,並給我列出不少參考文獻,在此一併感謝,我會繼續努力學習,與時俱進的!
最近我讀了美國頗有影響力的預測專家納特·西爾弗的《信號與雜訊》,他在書中分析到:“如果資訊的數量以每天250兆億位元組的速度增長,其中有用的資訊肯定接近於零。
大部分資訊都只是雜訊而已,而且雜訊的增長速度要比信號快得多。”由此看來,當資料資訊鋪天蓋地而來之時,我們也有可能距離真相越來越遠。最後我也提出一個問題讓大家進行思考,因為批評一件事很容易,構建一個體系很困難,在現實中,對於一個想以大數據分析來運營驅動的行動醫療企業來說,到底該如何去做才能一步一步實現我們的理想呢? 

                                                                                                                                                                                                                            

沒有留言:

張貼留言