博客專欄

EEPW首頁 > 博客 > 概述:機(jī)器學(xué)習(xí)和大數(shù)據(jù)技術(shù)在信貸風(fēng)控場景中的應(yīng)用(2)

概述:機(jī)器學(xué)習(xí)和大數(shù)據(jù)技術(shù)在信貸風(fēng)控場景中的應(yīng)用(2)

發(fā)布人:數(shù)據(jù)派THU 時(shí)間:2022-01-16 來源:工程師 發(fā)布文章

1.基于知識(shí)圖譜技術(shù)的復(fù)雜網(wǎng)絡(luò)

在影視節(jié)目當(dāng)中,我們經(jīng)??吹骄燹k案時(shí)會(huì)把嫌疑人、證人、受害人及他們之間的關(guān)聯(lián)關(guān)系等信息畫在墻上,用以分析案情,這就是典型的關(guān)系圖譜應(yīng)用。墻上的畫便是圖,圖中有用的信息便是知識(shí),將其進(jìn)一步擴(kuò)展到其他事物;人為實(shí)體,在圖中我們稱之為點(diǎn),人之間代表著關(guān)聯(lián)關(guān)系的連線,在圖中我們稱之為邊,就這樣點(diǎn)與邊共同組成了我們的關(guān)系圖譜。

10.jpg

構(gòu)建關(guān)系圖譜的底層還是大數(shù)據(jù)的技術(shù):基于龐大的用戶數(shù)據(jù),從不同的數(shù)據(jù)源抽取出來存入到圖數(shù)據(jù)庫里,所以數(shù)據(jù)是構(gòu)建關(guān)系圖譜的基礎(chǔ)。一種是以關(guān)系型數(shù)據(jù)庫存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),例如:IP地址,經(jīng)緯度,設(shè)備指紋等,另一種是爬蟲采集的非機(jī)構(gòu)化數(shù)據(jù),例如行為記錄、網(wǎng)上的瀏覽記錄。實(shí)踐應(yīng)用中我們利用機(jī)器學(xué)習(xí)、自然語言處理技術(shù)把這些數(shù)據(jù)變成結(jié)構(gòu)化的數(shù)據(jù)也存入到圖譜里。

從用戶大數(shù)據(jù)和基于大數(shù)據(jù)的關(guān)系圖譜體系我們可以實(shí)現(xiàn)以下目的:

2.1 資料偽造識(shí)別

校驗(yàn)用戶信息可以用來判斷借款人是否可能存在欺詐風(fēng)險(xiǎn),使用關(guān)系圖譜做交叉校驗(yàn),雖然不能保證百分之百的準(zhǔn)確性,但是它在人工審核時(shí)便是一個(gè)有力的參考依據(jù)。欺詐用戶填寫的個(gè)人信息通常都是虛假的。例如:比如借款人張三和借款人李四填寫的是同一個(gè)公司電話,但張三填寫的公司和李四填寫的公司完全不一樣,這就成了一個(gè)風(fēng)險(xiǎn)點(diǎn)。我們將關(guān)系圖譜數(shù)據(jù)可視化,可以很直觀的發(fā)現(xiàn)兩者的矛盾,我們便可以判斷他們二人至少有一人存在欺詐風(fēng)險(xiǎn)。

2.2 團(tuán)伙欺詐分析

在信貸場景中,團(tuán)伙欺詐造成的損失更加嚴(yán)重,不過從繁復(fù)的數(shù)據(jù)中發(fā)現(xiàn)團(tuán)伙的難度也很大?;谥R(shí)圖譜我們通常直觀分析多層級(jí)的數(shù)據(jù),一度關(guān)聯(lián)、二度關(guān)聯(lián)、三度關(guān)聯(lián),甚至是更多維度關(guān)聯(lián)。團(tuán)伙雖然使用虛假信息進(jìn)行授信、支用,但通常都有共有的信息,例如同一個(gè)WIFI,同一片區(qū)域。LOUVAIN、LPA、SLPA等社區(qū)發(fā)現(xiàn)算法、標(biāo)簽傳播算法可以有效快速的發(fā)現(xiàn)團(tuán)伙。

11.jpg

2.3 失聯(lián)客戶管理

對于貸后管理來說,用戶本人及緊急聯(lián)系人失聯(lián)是催收失敗最大的原因,這時(shí)可以利用關(guān)系圖譜去發(fā)現(xiàn)失聯(lián)用戶的潛在聯(lián)系人,提高催收成功率。例如張三是失聯(lián)用戶,李四和趙六是張三的聯(lián)系人也都失聯(lián)了,這時(shí)我們可以試圖通過李四的聯(lián)系人王五,或者與張三使用相同設(shè)備的用戶老王來達(dá)到失聯(lián)客戶管理的目的。

12.png

3.征信數(shù)據(jù)與信用評分卡

3.1征信與大數(shù)據(jù)

與國外相比,中國最大的差異在于征信體系的不完善。我們的人行征信系統(tǒng)覆蓋了8億人,但是可能只有4億左右是有信貸記錄的,剩下的無任何信貸記錄的,我們稱之為白戶。所以國內(nèi)****對于大部分非中高端用戶實(shí)際上是不愿意也沒有能力提供金融服務(wù)的。沒有征信數(shù)據(jù),那套國外搬過來的基于征信數(shù)據(jù)的方式方法就不管用了。

不過,我們很快發(fā)現(xiàn),利用互聯(lián)網(wǎng)技術(shù)可以解決征信數(shù)據(jù)缺失的白戶問題,而這些看似與信貸記錄不相關(guān)的數(shù)據(jù)在一定程度上卻能夠評估是否能夠給該用戶借款:

(1)All data is credit data:互聯(lián)網(wǎng)可以提供每個(gè)信貸申請用戶龐大的、碎片化的、種類繁多的信息。這里面包括用戶提交的電子化信息(如身份證、營業(yè)執(zhí)照、房產(chǎn)證、學(xué)歷證、工資單、社保,****流水等),第三方權(quán)威機(jī)構(gòu)的查詢信息(如公民身份證查詢中心、教育部學(xué)歷中心、法院訴訟信息查詢中心等可查詢信息),還包括了海量的互聯(lián)網(wǎng)碎片數(shù)據(jù),如用戶的電商交易信息、微博等社交網(wǎng)絡(luò)數(shù)據(jù),百度搜索引擎數(shù)據(jù)等。

(2)互聯(lián)網(wǎng)的高效性和便捷性使我們能以較低的成本、較短的時(shí)間,積累大量的用戶數(shù)據(jù),為分析建模提供足夠的樣本量。

在信貸的業(yè)務(wù)實(shí)踐中,常用的行業(yè)大數(shù)據(jù)包括:

央行征信報(bào)告:一般持牌金融機(jī)構(gòu)有央行征信介入權(quán)限,包括個(gè)人的執(zhí)業(yè)資格記錄、行政獎(jiǎng)勵(lì)和處罰記錄、法院訴訟和強(qiáng)制執(zhí)行記錄、欠稅記錄等。

司法信息:最高法以及省市各級(jí)法院的最新公布名單,包括執(zhí)行法院、立案時(shí)間、執(zhí)行案號(hào)、執(zhí)行標(biāo)的、案件狀態(tài)、執(zhí)行依據(jù)、執(zhí)行機(jī)構(gòu)、生效法律文書確定的義務(wù)、被執(zhí)行人的履行情況、失信被執(zhí)行人的行為等信息。

公安信息:覆蓋公安系統(tǒng)涉案、在逃和有案底人員信息,包括案發(fā)時(shí)間、案件詳情如詐騙案/生產(chǎn)、銷售假****案等信息。

****信息:****儲(chǔ)蓄卡/****支出、收入、逾期等信息。

航旅信息:包含過去一年中,每個(gè)季度的飛行城市、飛行次數(shù)、座位層次等數(shù)據(jù)。

社交信息:包含社交賬號(hào)匹配類型、社交賬號(hào)性別、社交賬號(hào)粉絲數(shù)等。

運(yùn)營商信息:核查運(yùn)營商賬戶在網(wǎng)時(shí)長、在網(wǎng)狀態(tài)、消費(fèi)檔次、通話習(xí)慣等信息。

網(wǎng)貸黑名單:根據(jù)個(gè)人姓名和身份證號(hào)碼驗(yàn)證是否有網(wǎng)貸逾期、黑名單信息。

駕駛證狀態(tài),租車黑名單,電商消費(fèi)記錄等也是可以考量的因素

正是因?yàn)榇髷?shù)據(jù)技術(shù)的發(fā)展才形成了帶著強(qiáng)烈中國特色的官方+民間結(jié)合的征信體系,支撐互聯(lián)網(wǎng)信貸脫離蠻荒可以實(shí)現(xiàn)高速發(fā)展,信貸從業(yè)者可以在合規(guī)的前提下獲取對提升效率有用的用戶信息完善風(fēng)控策略。

3.2 機(jī)器學(xué)習(xí)與評分卡

評分卡我們應(yīng)該是最為熟悉的,芝麻信用分就是一個(gè)典型的信用評分,支付寶官方利用自身積累及外部征信渠道獲取的各種數(shù)據(jù)從五個(gè)維度對一個(gè)用戶進(jìn)行評分,而這個(gè)評分對于每個(gè)用戶來說是透明的,這也非常好幫助用戶理解和改善自身的信用狀況。

從和信貸業(yè)內(nèi)的小伙伴溝通來看,芝麻的信用評分還是比較有區(qū)分度的,這與阿里的大數(shù)據(jù)積累息息相關(guān),阿里體系內(nèi)積累了大量用戶特有數(shù)據(jù)可以對用戶形象進(jìn)行更好的刻畫。

13.jpg

這套評分卡的背后其實(shí)是一套依賴在大數(shù)據(jù)基礎(chǔ)上的機(jī)器學(xué)習(xí)算法,因此在本身擁有大量數(shù)據(jù)的基礎(chǔ)上如何挖掘出一套有效的客戶評分這就是機(jī)器學(xué)習(xí)需要做的事情。

機(jī)器學(xué)習(xí)中目前應(yīng)用最廣泛的就是有監(jiān)督學(xué)習(xí):這類模型最復(fù)雜的地方在于模型的訓(xùn)練過程,算法人員根據(jù)這些歷史用戶的表現(xiàn)打上標(biāo)簽(逾期/不逾期),基于這些用戶大量數(shù)據(jù),使用不同的算法(一般來說都會(huì)使用邏輯回歸算法)來對這些用戶進(jìn)行評分,得到一個(gè)在各維度評價(jià)指標(biāo)來看都能過關(guān)的模型,并用這個(gè)模型來預(yù)測未來的數(shù)據(jù)表現(xiàn)。

14.png

目前********體系、網(wǎng)貸體系基本都是使用類似的方法構(gòu)建評分卡,當(dāng)然不同的場景、不同的行業(yè)所用的評分卡也不盡相同?;谶@套評分卡我們基本上可以在用戶申請環(huán)節(jié)實(shí)現(xiàn)量化風(fēng)險(xiǎn)的目的?;诖髷?shù)據(jù)的機(jī)器學(xué)習(xí)并不是完全改變傳統(tǒng)風(fēng)控,實(shí)際是豐富傳統(tǒng)風(fēng)控的數(shù)據(jù)緯度和量化風(fēng)險(xiǎn)的方式。

結(jié)語

本文簡單介紹了大數(shù)據(jù)和機(jī)器學(xué)習(xí)在信貸風(fēng)控領(lǐng)域的應(yīng)用場景。機(jī)器學(xué)習(xí)聽起來很高大上,在實(shí)際工作中也經(jīng)常會(huì)遇到一味炒作概念的人,過分夸大機(jī)器學(xué)習(xí)所能起到的作用,或者盲目的追求高深復(fù)雜的算法。不過無論是機(jī)器學(xué)習(xí)還是大數(shù)據(jù)其本質(zhì)還是為了服務(wù)業(yè)務(wù),提高業(yè)務(wù)的效率降低成本是其最根本的目的。

隨著信貸行業(yè)的不斷發(fā)展,機(jī)器學(xué)習(xí)和大數(shù)據(jù)技術(shù)的越來越成熟,二者結(jié)合的應(yīng)用場景相信也會(huì)愈加豐富,相信在這塊未來會(huì)有更多新穎的應(yīng)用場景。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: 深度學(xué)習(xí)

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉