2016年7月29日 星期五

‧ 機器學習如何應用於金融領域?

leiphone 張馳

机器学习如何应用于金融领域?

去年P2P公司遇冷後,紛紛轉型稱會用大數據、機器學習等科技手段服務金融,搖身一變成為時髦的Fintech金融科技公司。但實現過程並不簡單,讓機器代替人去處理數據做判斷,在金融領域才剛剛起步。

CreditX氪信是一家用機器學習做風投的公司,在金融領域擁有不少實驗經驗和思考。最近氪信創始人朱明傑在朗迪中國峰會發表演講,談及了將機器學習應用於金融的難點,以及如何提升模型的可解釋性。下文編輯自演講內容,有刪減。

我做了十多年的機器學習,用機器代替人去處理數據做決策和判斷。過去十多年的機器學習,成功的應用都是在互聯網上,搜索,廣告,推薦,可以說互聯網率先達到了數據時代。而到金融創新這個領域,如何實現互聯網級別的機器學習和人工智能,大家都剛剛起步,我今天想講講我們CreditX在金融領域實踐互聯網級別機器學習的一些經驗和思考。

金融風控的痛點
我一直認為,「科技進步是被業務需求逼出來的」。過去我們在網路行業靠算法和機器,都是被逼的,為什麼,因為數據量實在太大了,你想去淘寶搜個手機殼,讓阿里的同學人肉從上億的商品裡,幫你找出最喜歡最合適的,那根本不可能。傳統金融場景裡,一筆100萬的貸款主要靠風控人員和關係,那是可行的;而到了銀行的信用卡中心,積壓的申請審核,讓審批人員每周加班,都批不完。

那現在網路金融要面臨更加普惠的場景,比如幾百塊錢一筆的手機貸,靠鋪人力一定是行不通的。所以,這已經不單單是提升運營效率問題,而是必須要把活兒交給機器,讓機器來學習人的風控經驗,機器人變成風控專家。

金融領域應用機器學習與人工智能的難點
第一個問題是數據太少。因為金融數據非常稀疏,而且現在的很多金融產品形式在以前沒有發生過,所沒有十幾年的數據積累。換句話說就是缺少訓練數據,這又被稱為冷啓動,缺數據。另外,金融領域出現壞賬情況少則一個月多則數月,數據積累需要等很久,相比之下,互聯網搜索領域內可以迅速拿到點擊反饋,兩者差別很大。所以數據缺失是阻礙機器來學習人類經驗的巨大障礙。

第二個是數據太多。這裡指的是數據特徵維度多,超過了人的處理能力。傳統金融只有十幾維度的特徵變量,人工調公式即可應對。但現在面臨這麼多維度的數據,大家也想了很多很好的願景,討論很多數據都可以用。

但為什麼用不上呢?問題在於我們有什麼辦法可以有一個很強的表達能力將這些很原始的,也可以叫弱變量的數據特徵利用起來。將弱特徵數據組合起來,與結果聯繫起來,讓人的直觀經驗可以理解,讓風控專家去反饋。

在金融場景內,不能像互聯網機器學習一樣是一個黑盒子,一堆數據扔進去,等結果來反饋迭代。金融場景內,特別強調模型的可解釋性,這樣才能把人的風控經驗和直觀感受跟數據表現結果關聯起來。在此基礎上,我們才能說把人的經驗介入到利用數據進行機器學習建模的操作中去。做到特徵要能夠追溯回去,尤其是金融的反饋結果要等很久,需要人能夠快速干預反饋。

如何解決金融風控冷啓動問題
數據太少
對於數據太少和產生太慢的問題,冷啓動問題是一個非常典型的case。我們在互聯網行業經常面臨缺少數據的問題,也積累了成熟的經驗,就是把人的因素疊加到機器學習過程中去。我們做搜索廣告時,會請人標注數據,然後通過標注數據的專家來指導算法工程師調優算法,改進排序結果。而在金融場景裡,我們有很多現成的經驗,以及經驗豐富的風控人員,這些專家有很強的風控知識。

理論上講,如果有幾百個風控專家,不用發工資,我們做手機貸也可以做下去,但實際情況是我們必須靠機器去學習人的風控經驗。所以我們通過半監督學習的方法,把業務風控專家和實際的信貸結果在online學習中做一個結合。在這個過程中,風控人員可以實時的介入,不停地根據輸出結果做一些調整,然後非常實時地反饋到模型訓練的迭代提升的過程當中。

這就說我們特別重視人的因素。

現在大家都在講人工智慧,人工智慧的本質是什麼?在我的理解其實就是讓機器學習人的經驗。以前我們依賴幾個經驗豐富的風控人員,現在我們可以讓機器,把人的經驗學過來,然後讓機器來做一個自動的決策。

金融的業務結果和樣本非常珍貴。比如,我之前在房貸業務上積累了一些樣本,然後換到一個新的消費信貸業務上,或者從一個消費信貸業務切換到另一個新的業務。這些珍貴的樣本數據不能丟掉,但怎麼去用呢?

我們可以做到盡可能利用已有的經驗和知識,把generic的風險核心模型和domain knowledge分開,再去根據業務的場景訊息,以及場景內的先驗知識結合起來,在此基礎上學習和復用跨領域跨場景的知識,並且可以做到知識積累。

深度學習技術解決特徵工程的難點

數據太多

接下來我們來看「數據太多」。我將這個問題分為兩個部分來看。

首先是數據的特徵維度很多。我們關心的是如何將大數據和金融風控的問題掛鈎起來,這裡面其實是需要非常強大的特徵加工和表達能力。這是傳統的線性回歸統計建模方法,很難去完成的。我們的辦法有很多,這裡面包括大家現在熱度很高的「深度學習」。

深度學習的本質是通過數據特徵的處理,去學習人處理知識和數據的方式。為瞭解決數據太多的問題,讓人能看透浩瀚的原始數據,在模型的前端,我們嘗試了不同的深度特徵編碼方法,非監督學習的方法對原始數據進行預處理,從而實現特徵的降維,將浩瀚的原始數據和最後結果掛上鈎。

模型的可解釋性
其次是模型的可解釋性。金融專家特別關心模型的可解釋性。這裡面有兩個意義:

如果給信貸對象一個打分的結果,如果不能解釋,這個很難和申請人去溝通的;

另外,我們所面臨的是一個非常複雜的環境,如果對於風控結果仍然是黑盒進黑盒出的話,風險是很難去把控和估計的。

如果模型出了問題,造成的風險漏洞是我們不能承受的。在網路金融業務這麼快速成長的背景下,很有可能公司的業務都做不下去。所以,網路內黑盒進黑盒出的方法就不適用於金融場景,需要有一個可解釋的local模型去做到。

我們的實踐經驗是,利用LIME去捕獲結果或者局部結果中的關鍵變量,然後讓風控專家迅速的抓到是哪些特徵導致結果的變化。

氪信取得的效果

我們把網路的技術經驗,在金融場景內做了一些艱難的嘗試,並得到了一些實踐經驗,包括從最開始。

                                                                                                                                                                                                                            

沒有留言:

張貼留言