分享到微信打開(kāi)微信,點(diǎn)擊底部的“發(fā)現(xiàn)”, |
DT財(cái)經(jīng) 2019-08-30 14:08:41
作者:吳昊 責(zé)編:王藝
這些年,數(shù)據(jù)科學(xué)家這個(gè)新職業(yè)物種出現(xiàn)在了現(xiàn)代商業(yè)文明中,運(yùn)用大數(shù)據(jù)與科學(xué)方法解決業(yè)務(wù)實(shí)際問(wèn)題變了數(shù)據(jù)科學(xué)家的“掌上魔法球”。通過(guò)大數(shù)據(jù)與人工智能的魔力,他們改變了商業(yè)玩法,讓傳統(tǒng)行業(yè)有了新的生命力。
雖然,數(shù)據(jù)與科學(xué)家的融合催生了數(shù)據(jù)科學(xué)家這個(gè)“高大上”的名詞,但回歸業(yè)務(wù)本源,他們依舊是在企業(yè)中利用技術(shù)解決問(wèn)題的、樸素的實(shí)操者。不過(guò),想要真實(shí)地了解數(shù)據(jù)科學(xué)家,就必須通過(guò)這些“魔法師”自己的嘴了來(lái)講述。于是,8月盛夏,在上海360金融的總部,我們專訪了首席數(shù)據(jù)科學(xué)家沈赟博士,讓他告訴讀者們,他和團(tuán)隊(duì)是如何利用數(shù)據(jù)科學(xué)在金融風(fēng)控領(lǐng)域施法布道。
歷經(jīng)AI周期
“什么機(jī)緣巧合之下與數(shù)據(jù)科學(xué)結(jié)緣的?”面對(duì)我們拋出的第一個(gè)問(wèn)題,已在360金融擔(dān)任首席數(shù)據(jù)科學(xué)家的沈赟博士馬上打開(kāi)了自己的話匣子。
沈赟從小就接觸電腦,之后興趣使然,一直學(xué)習(xí)計(jì)算機(jī)科學(xué),直到今天,從事了一份與數(shù)據(jù)科學(xué)相關(guān)的工作。1996年,沈赟的父母給他買了一臺(tái)電腦,從此他便愛(ài)上了這個(gè)電子玩物。
“一方面是打游戲,另一方面,我也愛(ài)編程,當(dāng)時(shí)還用古老的帕斯卡語(yǔ)言,不過(guò)初中就編出了小型數(shù)據(jù)庫(kù)了。”說(shuō)到兒時(shí)與計(jì)算機(jī)結(jié)緣的過(guò)程,沈赟露出自豪的笑容。
電腦在90年代后期進(jìn)入中國(guó)家庭,見(jiàn)證了中國(guó)互聯(lián)網(wǎng)的誕生、發(fā)展與崛起,陪伴了80后一代人的年輕歲月,并進(jìn)入屬于他們的互聯(lián)網(wǎng)技術(shù)(IT)的大時(shí)代。直至今日,伴隨著DT(大數(shù)據(jù))時(shí)代的到來(lái),電腦依然成為人工智能技術(shù)的載體。
沈赟在2002年從江蘇常州考入了上海交大的計(jì)算機(jī)系,學(xué)習(xí)計(jì)算機(jī)科學(xué),并在大四那年參與了雙學(xué)位的留學(xué)項(xiàng)目,前往柏林科技大學(xué)繼續(xù)深造。與現(xiàn)在火爆的機(jī)器學(xué)習(xí)課程不同,當(dāng)時(shí)沈赟選擇的機(jī)器學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)并不是熱門專業(yè),當(dāng)被問(wèn)到為什么學(xué)習(xí)那個(gè)當(dāng)時(shí)的大冷門課程時(shí),他說(shuō):“聽(tīng)大家說(shuō)這個(gè)門課比較難,涉及很多復(fù)雜的數(shù)學(xué)公式和編程技巧,每年能通過(guò)考試的人也不多,我覺(jué)得比較有挑戰(zhàn)性。”
機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)早在上世紀(jì)中期就已經(jīng)出現(xiàn),并在80年代實(shí)現(xiàn)復(fù)興,進(jìn)入計(jì)算機(jī)科學(xué)的主流世界。但當(dāng)時(shí)受限于算力無(wú)法驅(qū)動(dòng)算法,數(shù)據(jù)量較小,發(fā)展一度停滯。在很長(zhǎng)的一段時(shí)間(上世紀(jì)80年代至2006年Jeffery Hinton提出深度學(xué)習(xí)),學(xué)習(xí)機(jī)器學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)的課程大多門可羅雀。2010年之后,深度學(xué)習(xí)的崛起促成了機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的復(fù)興,并演繹出了人工智能的第三次浪潮。
沈赟說(shuō)自己完整地經(jīng)歷了一輪人工智能的周期,此話非常確切。研究生畢業(yè)之后,做游戲、建網(wǎng)站才是當(dāng)時(shí)互聯(lián)網(wǎng)的熱門職業(yè),再三考慮之后,沈赟回到柏林的校園,在柏林科技大學(xué)繼續(xù)攻讀博士,方向定在了計(jì)算機(jī)科學(xué)的理論研究。
在德國(guó),沈赟曾結(jié)識(shí)了不少大牛,其中就包括LSTM(長(zhǎng)短時(shí)記憶網(wǎng)絡(luò))的發(fā)明者之一的Sepp Hochreiter。Sepp Hochreiter和沈赟一樣,也是一位歷經(jīng)人工智能周期的研究人員。起初,Sepp研究神經(jīng)網(wǎng)絡(luò)起家,并在90年代初通過(guò)畢業(yè)論文首次提出了LSTM??上г旎?,在人工智能的第二次寒冬中(貫穿90年代,直到21世紀(jì)初的幾年),他轉(zhuǎn)向了對(duì)于支持向量機(jī)(SVM)等領(lǐng)域的研究。
沈赟說(shuō):“我讀碩士的時(shí)候認(rèn)識(shí)了Sepp Hochreiter,他正好是我教授的研究組里的博士后,并在柏林科技大學(xué)擔(dān)任助理教授,當(dāng)時(shí)他研究的是在學(xué)術(shù)圈很流行,且比較容易發(fā)論文的SVM。”
2010年之后,神經(jīng)網(wǎng)絡(luò)的復(fù)興讓90年代發(fā)明LSTM的Sepp Hochreiter封神,成為了AI技術(shù)圈的絕對(duì)大牛。而沈赟博士畢業(yè)之后,投入工業(yè)界,開(kāi)始將博士時(shí)對(duì)于風(fēng)險(xiǎn)控制和AI技術(shù)的本領(lǐng)應(yīng)用在高頻交易、風(fēng)險(xiǎn)控制等金融領(lǐng)域中。
在經(jīng)歷了多個(gè)人工智能的金融應(yīng)用項(xiàng)目之后,沈赟選擇加入360金融,將自己在大數(shù)據(jù)風(fēng)控領(lǐng)域的理論與經(jīng)驗(yàn)積累應(yīng)用到商業(yè)實(shí)戰(zhàn)中。當(dāng)時(shí),伴隨著中國(guó)人均可支配收入的增長(zhǎng)和較高的儲(chǔ)蓄率,中國(guó)消費(fèi)市場(chǎng)被廣泛看好,在線消費(fèi)信貸一時(shí)間成為互聯(lián)網(wǎng)巨頭們搶籌布局的業(yè)務(wù)場(chǎng)景。談及為何在眾多橄欖枝中選擇了360金融,沈赟說(shuō), 360金融有很強(qiáng)的科技基因且發(fā)展勢(shì)頭好,在這里,能夠從0到1搭建整個(gè)人工智能的風(fēng)控模型平臺(tái)。
金融風(fēng)控的數(shù)據(jù)科學(xué)之道
沈赟加入360金融并擔(dān)任首席數(shù)據(jù)科學(xué)家之后,通過(guò)大數(shù)據(jù)與人工智能技術(shù)幫助公司控制與管理業(yè)務(wù)風(fēng)險(xiǎn)。
事實(shí)上,風(fēng)控的核心就來(lái)自于人的信用,但在征信領(lǐng)域,中國(guó)還有長(zhǎng)的路要走。據(jù)沈赟介紹,中國(guó)有大量的征信未覆蓋人群,這就需要用技術(shù)方式挖掘信息,并給出個(gè)人的信用評(píng)級(jí)。沈赟說(shuō):“我們做的就是通過(guò)用戶數(shù)據(jù)來(lái)判定信用風(fēng)險(xiǎn),然后決定是否授信。”
對(duì)于數(shù)據(jù)科學(xué)如何賦能信貸業(yè)務(wù),沈赟解釋到:“信貸產(chǎn)品的大數(shù)據(jù)風(fēng)控分為貸前、貸中和貸后三個(gè)階段,每個(gè)階段都需要大數(shù)據(jù)與人工智能技術(shù)的參與。”
從貸前主要涉及用技術(shù)的方式判斷是否給借貸者授信,其中分為反欺詐和信用風(fēng)險(xiǎn)判斷兩大塊。反欺詐需要辨別出以騙款為目的黑色產(chǎn)業(yè),在這方面,沈赟團(tuán)隊(duì)通過(guò)構(gòu)建關(guān)系網(wǎng)絡(luò),以知識(shí)圖譜等形式找出風(fēng)險(xiǎn)點(diǎn)。以抱團(tuán)欺詐為例,沈赟團(tuán)隊(duì)在GPS的一個(gè)精度范圍內(nèi)對(duì)借貸者與群體進(jìn)行分析,他說(shuō):“如果一個(gè)借款申請(qǐng),出現(xiàn)在同一個(gè)地理位置,并且連接在同一個(gè)Wifi或者4G信號(hào)基站,就很有可能被判定為抱團(tuán)欺詐風(fēng)險(xiǎn);另外,我們還參考手機(jī)聯(lián)系人的關(guān)系網(wǎng)絡(luò),如果同一批申請(qǐng)人存在相同的聯(lián)系人關(guān)系網(wǎng)絡(luò),可能也存在欺詐風(fēng)險(xiǎn)”。同時(shí),360金融還會(huì)維護(hù)諸如黑中介電話號(hào)碼庫(kù)之類的數(shù)據(jù)庫(kù),通過(guò)通訊記錄與聯(lián)系人關(guān)系,找到與黑中介關(guān)聯(lián)上的人,并認(rèn)作潛在的欺詐風(fēng)險(xiǎn)。
在貸前的信用評(píng)分中,沈赟利用歷史數(shù)據(jù)作為有監(jiān)督機(jī)器學(xué)習(xí)的測(cè)試數(shù)據(jù)集,將借貸人群區(qū)分為好人與壞人。之后,通過(guò)規(guī)則條件、用戶分層,用分類器將用戶做信用分的區(qū)分,以拒絕低信用分的用戶,提供高額度給優(yōu)質(zhì)信用分用戶。
進(jìn)入貸中環(huán)節(jié)之后,沈赟團(tuán)隊(duì)則需要?jiǎng)討B(tài)通過(guò)數(shù)據(jù)來(lái)調(diào)整用戶的貸款額度與利率,通過(guò)數(shù)據(jù)為互聯(lián)網(wǎng)用戶運(yùn)營(yíng)提供策略。
最后一個(gè)環(huán)節(jié)叫貸后,這是一個(gè)通過(guò)機(jī)器學(xué)習(xí)輔助收款的過(guò)程。沈赟介紹,團(tuán)隊(duì)通過(guò)機(jī)器學(xué)習(xí)模型可以判斷用戶還款能力,并將用戶分類,比如容易收款的用戶、不容易收款的用戶,他們就會(huì)通過(guò)不同的運(yùn)營(yíng)方式進(jìn)行催收。
在沈赟博士的一套嚴(yán)密的數(shù)據(jù)科學(xué)風(fēng)控術(shù)下,360金融的借貸保持了健康的增長(zhǎng)。在360金融披露的2019年第二季度業(yè)績(jī)報(bào)告中,授信用戶達(dá)到了1923萬(wàn),同比增長(zhǎng)了169%,累計(jì)借款人達(dá)1254萬(wàn)人,同比漲幅為167%,超90天的逾期率僅為1.02%。
在賦能業(yè)務(wù)的同時(shí),360金融的數(shù)據(jù)科學(xué)能力也對(duì)外輸出,將獲客、反欺詐、風(fēng)控以及貸后管理能力輸出給了多家金融機(jī)構(gòu),完成貸前、貸中、貸后的流程優(yōu)化,實(shí)現(xiàn)降本提效。這些數(shù)字和成績(jī)的背后是沈赟博士和團(tuán)隊(duì)的努力。
難以左右的宏觀變量
沈赟說(shuō)自己很看好數(shù)據(jù)科學(xué)在應(yīng)用層面的發(fā)展,越來(lái)越多的商業(yè)應(yīng)用會(huì)反哺理論研究,因?yàn)槠髽I(yè)和政府層面的商業(yè)投資會(huì)持續(xù)支持研發(fā),就會(huì)相對(duì)地形成一個(gè)正向循環(huán)。
既然在金融風(fēng)控領(lǐng)域,數(shù)據(jù)科學(xué)具有如此“魔力”,那又有什么是沈赟無(wú)法左右的呢?
沈赟調(diào)整了看待問(wèn)題的格局,從宏觀的角度闡述到:雖然數(shù)據(jù)科學(xué)助力了金融業(yè)務(wù)在中國(guó)的發(fā)展,但也存在一些非可逆性因素對(duì)行業(yè)的影響,而首當(dāng)其沖的就是債務(wù)周期。在世界上大量的發(fā)達(dá)國(guó)家和地區(qū)都出現(xiàn)過(guò)信貸或債務(wù)周期性的風(fēng)險(xiǎn),而如此的宏觀與系統(tǒng)性的變量是一個(gè)數(shù)據(jù)科學(xué)家難以把握的。
最近,沈赟在讀著名投資人達(dá)里奧的《債務(wù)周期:我的應(yīng)對(duì)原則》一書,書中達(dá)里奧對(duì)于債務(wù)周期提出了自己的解析與思考,并從影響經(jīng)濟(jì)發(fā)展的生產(chǎn)率和長(zhǎng)短債務(wù)周期的角度構(gòu)建了自己的避險(xiǎn)模型。
當(dāng)面對(duì)這些無(wú)法左右的宏觀變量時(shí),沈赟選擇了沉寂與思考,他說(shuō):“因?yàn)槟壳斑@個(gè)行業(yè)還沒(méi)有碰到信貸周期的問(wèn)題,但未來(lái)可能會(huì)碰到,所以,需要從中去學(xué)習(xí)一些經(jīng)驗(yàn)。”
當(dāng)數(shù)據(jù)科學(xué)乘著人工智能的第三波浪潮迅速被各行各業(yè)廣泛應(yīng)用時(shí),我們是否想象過(guò)非技術(shù)的宏觀變量呢?這也正是數(shù)據(jù)科學(xué)家們正在試圖理解與解答的問(wèn)題。
數(shù)據(jù)科學(xué)50人成員
沈赟博士,現(xiàn)任360金融首席數(shù)據(jù)科學(xué)家,曾在知名互金機(jī)構(gòu)與量化交易公司擔(dān)任數(shù)據(jù)科學(xué)家。柏林科技大學(xué)計(jì)算機(jī)科學(xué)博士,在人工智能、應(yīng)用數(shù)學(xué)與量化金融多個(gè)領(lǐng)域的國(guó)際頂級(jí)學(xué)習(xí)期刊和會(huì)議上發(fā)表多篇學(xué)術(shù)論文。具備深厚的機(jī)器學(xué)習(xí)與金融數(shù)學(xué)的理論功底,在量化策略研發(fā)與互金風(fēng)險(xiǎn)控制領(lǐng)域有著超過(guò)10年以上的研究與實(shí)戰(zhàn)經(jīng)驗(yàn)。
關(guān)于數(shù)據(jù)科學(xué)50人
“數(shù)據(jù)科學(xué)50人”項(xiàng)目是由第一財(cái)經(jīng)旗下DT財(cái)經(jīng)發(fā)起的中國(guó)頂尖數(shù)據(jù)科學(xué)從業(yè)者的系列專訪與社群組織,從數(shù)據(jù)科學(xué)領(lǐng)域選出最具代表性的50位先鋒進(jìn)行深度專訪,50人由DT財(cái)經(jīng)獨(dú)立評(píng)審并發(fā)布。
國(guó)家發(fā)展改革委等六部門印發(fā)《關(guān)于完善數(shù)據(jù)流通安全治理 更好促進(jìn)數(shù)據(jù)要素市場(chǎng)化價(jià)值化的實(shí)施方案》。
TMT板塊成為驅(qū)動(dòng)新租需求的主力軍,人工智能、大數(shù)據(jù)與平臺(tái)互聯(lián)網(wǎng)等關(guān)鍵賽道發(fā)揮支柱作用。
建立覆蓋政府、行業(yè)、企業(yè)等主體及國(guó)家、省、市、縣等層級(jí)的全國(guó)一體化的分布式數(shù)據(jù)目錄,形成全國(guó)數(shù)據(jù)“一本賬”,支撐跨層級(jí)、跨地域、跨系統(tǒng)、跨部門、跨業(yè)務(wù)的數(shù)據(jù)有序流通和共享應(yīng)用。
國(guó)家發(fā)展改革委、國(guó)家數(shù)據(jù)局、工業(yè)和信息化部印發(fā)《國(guó)家數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)指引》。
鼓勵(lì)探索多元化數(shù)據(jù)流通利用方式,發(fā)展數(shù)據(jù)經(jīng)紀(jì)、數(shù)據(jù)托管等新業(yè)態(tài)、新模式,提升數(shù)據(jù)流通效率。