博客專欄

EEPW首頁 > 博客 > 干貨 | 聯(lián)通政企數(shù)據(jù)運(yùn)營體系建設(shè)

干貨 | 聯(lián)通政企數(shù)據(jù)運(yùn)營體系建設(shè)

發(fā)布人:數(shù)據(jù)派THU 時(shí)間:2023-07-12 來源:工程師 發(fā)布文章
以下內(nèi)容整理自大數(shù)據(jù)能力提升項(xiàng)目必修課《大數(shù)據(jù)系統(tǒng)基礎(chǔ)》同學(xué)們的期末答辯匯報(bào)。


圖片


我們將從以下幾個(gè)方面為大家介紹我們的項(xiàng)目,首先第一部分是需求分析,然后是數(shù)據(jù)提取及處理,接著樣本定義與分布、特征粗篩與模型選擇、特征精篩與評分卡建模、TOAD評分卡構(gòu)建及決策建議。

圖片


首先是需求分析。聯(lián)通在客戶評級場景下有以下痛點(diǎn)。首先,政企客戶的欠費(fèi)情況比較普遍,他們的逾期客戶占比比較高,并且賬收比高企,并且聯(lián)通公司對于逾期客戶缺乏預(yù)警,缺乏預(yù)期風(fēng)險(xiǎn)、營收規(guī)模、客戶自身經(jīng)營風(fēng)險(xiǎn)等的綜合評估,并且缺乏客戶評級,也因此導(dǎo)致他們在客戶服務(wù)力量和資源的分配上沒有辦法按照科學(xué)的評級進(jìn)行調(diào)配。此外,聯(lián)通內(nèi)部的數(shù)據(jù)相對比較混亂,缺乏一個(gè)具體的指標(biāo),因此就對我們提出了以下幾個(gè)具體的需求:首先第一個(gè)需求是進(jìn)行數(shù)據(jù)清洗,我們對現(xiàn)有的這樣的數(shù)據(jù)資源來進(jìn)行整合,重點(diǎn)是去篩選出來我們需要的指標(biāo);第二方面是我們需要搭建有效的這樣的一個(gè)客戶評級模型,我們借鑒金融風(fēng)控的C卡模型來構(gòu)建我們的評分卡體系,原因是我們需要根據(jù)已有的逾期的情況去預(yù)期他們是否能夠按期還款,接著我們需要提高模型的準(zhǔn)確率,因?yàn)樾枰ジ恍┚唧w的企業(yè)客戶進(jìn)行催收的工作,所以需要盡可能減少我們的用戶打擾,所以我們需要同時(shí)使用客戶逾期可能性以及客戶的逾期嚴(yán)重程度來進(jìn)行模型搭建;最后,我們需要使用DWF平臺(tái)來搭建一個(gè)可視化的用戶評級體系來促進(jìn)業(yè)務(wù)使用,并且給予業(yè)務(wù)一些象限分析的商業(yè)建議。

圖片


首先我們進(jìn)行的數(shù)據(jù)提取與整理,我們主要包括兩部分的數(shù)據(jù),第一部分是關(guān)于我們的工商數(shù)據(jù),我們主要是使用一個(gè)組件entid來對54張工商信息的表進(jìn)行有效的整合。其次,我們是對過往的欠費(fèi)數(shù)據(jù)進(jìn)行了寬表整理,其中比較重要的事情是目標(biāo)變量的選擇,主要包括兩個(gè)變量,第一個(gè)是預(yù)期可能性。我們和業(yè)務(wù)進(jìn)行溝通之后,認(rèn)為單月逾期涉及多方面因素,所以不能輕易的定義為逾期客戶,因此我們將連續(xù)兩個(gè)月以上逾期的客戶定義為外客戶。第二個(gè)指標(biāo)是逾期嚴(yán)重程度。為了規(guī)劃企業(yè)自身的季節(jié)性消費(fèi)波動(dòng),我們計(jì)算單月逾期占年逾期的金額比例作為逾期的嚴(yán)重程度。也根據(jù)以上這兩個(gè)跟業(yè)務(wù)溝通的目標(biāo)變量的定義,進(jìn)行了具體的邏輯計(jì)算,并且使用SQL進(jìn)行最后的數(shù)據(jù)提取。最后,我們將工商數(shù)據(jù)與過往的欠費(fèi)數(shù)據(jù)進(jìn)行表的組合。

圖片


接下里進(jìn)入到兩個(gè)目標(biāo)變量的解釋。我們這個(gè)項(xiàng)目整個(gè)大環(huán)境是一個(gè)決策智能建議,決策智能最重要的其實(shí)并不是后面的模型,反而更重要的是前面target定義。就我們在這個(gè)決策智能領(lǐng)域,只要把target給定義好了,其實(shí)后面的事情跑通很簡單。所以首先第一個(gè)是剛才同學(xué)講的這些壞的可能性,或者說壞的趨勢,術(shù)語叫做M2plus。單看一個(gè)月壞,它并不是壞,基于他們領(lǐng)域知識(shí),他們認(rèn)為連續(xù)兩個(gè)月壞才有一個(gè)壞的趨勢。我們基于這樣的知識(shí)去定義一個(gè)二分類的樣本定義,在表現(xiàn)期內(nèi),如果連續(xù)兩個(gè)月以上處于逾期是一個(gè)正樣本。大部分人還是好的一個(gè)樣本,當(dāng)然這個(gè)比金融領(lǐng)域的會(huì)稍微正樣本會(huì)多一些??紤]到時(shí)間關(guān)系,導(dǎo)師在系統(tǒng)里面給我們抽樣千分之一左右,這是讓我們在本地可以跑的量級。

圖片


然后除了壞的趨勢之外,我們還要看客戶壞的程度。根據(jù)剛才講的指標(biāo),分母是采用年化出賬金額去把它規(guī)劃到季節(jié)性的消費(fèi)波動(dòng)。所以一個(gè)客戶,如果他消費(fèi)的多,他同時(shí)他逾期又多,那才有可能是壞的。但最后產(chǎn)生另一個(gè)問題,既然是決策的話,我們可能并不需要一個(gè)連續(xù)的變量。它本來原始的數(shù)據(jù)是一個(gè)連續(xù)值,我們需要去做一個(gè)二分類才方便去做決策,但是問題是在于,如果與其比例是一個(gè)連續(xù)的,究竟選一個(gè)什么樣的點(diǎn)是合適的?我們plot出了一個(gè)比例和前面M2plus的相關(guān)關(guān)系。我們用軸步法去大概判斷出一個(gè)人的逾期比例、企業(yè)的逾期比例大于等于四分之一或者三分之一的這個(gè)區(qū)間里。以四分之一來判斷,如果一個(gè)企業(yè)客戶在這一個(gè)賬期內(nèi),在這一年內(nèi),他的預(yù)期比例大于或等于25%我們把它判定為正樣本,然后其他的是副樣本,這樣本正副樣本比例大概一比五左右,比剛剛會(huì)稍微要高一些。

圖片


樣本定義完之后,我們在智能決策領(lǐng)域,我們講究三個(gè)重要的指標(biāo),一個(gè)是模型的準(zhǔn)確性或者泛化能力,第二個(gè)是講究模型的穩(wěn)定性,第三個(gè)還要講究模型的可解釋性。和剛剛同學(xué)用深度學(xué)習(xí)講的不一樣的地方在于,我們并不是追求它預(yù)測準(zhǔn)確性,所以您看到我們整個(gè)十折交叉驗(yàn)證的重要指標(biāo)其實(shí)是K值,是能夠在金融領(lǐng)域或者說這種風(fēng)險(xiǎn)決策領(lǐng)域區(qū)分出好壞之間的差別的。所以AUC并不是我們判定的唯一指標(biāo),我們通過對比就三種模型,就Lr算一個(gè)可解釋性很強(qiáng)的線性模型,后面兩個(gè)是黑箱模型,我們想要這邊想要做一個(gè)事情,就是用線性可解釋的模型是否可以達(dá)到和黑箱模型相同的效果,但同時(shí)線性模型有更強(qiáng)的解釋力呢?我們通過十折交叉驗(yàn)證發(fā)現(xiàn)在兩個(gè)target上面都確實(shí)有這樣的一個(gè)結(jié)論。當(dāng)然,前提是我們對Lr做了一個(gè)變換,沒有做WOE變換的話,其實(shí)效果很差的。

圖片


選定Lr模型之后,我們又進(jìn)一步去看不同的特征在不同的模型之間的重要性。黑箱模型其實(shí)是適合對特征做一個(gè)粗篩,兩個(gè)模型如果都認(rèn)為重要的,我們一定放進(jìn)后期的評分卡建設(shè)中。但如果隨機(jī)森林認(rèn)為不重要,但是Lr認(rèn)為重要,我們可能會(huì)后續(xù)斟酌一下,看是否會(huì)放進(jìn)去。

圖片


最后我們就進(jìn)入到后面的評分卡模型建設(shè)。在評分卡不變的話,第一步首先是基于變量的信息量對變量的粗篩。去除了一些不會(huì)進(jìn)入最終評分卡模型的變量之后,我們會(huì)主要是根據(jù)它的iv值,就是它的信息值來對它進(jìn)行篩選。iv其實(shí)是每一個(gè)變量里面正負(fù)樣本的差值和對數(shù)比的相關(guān)系數(shù),主要是衡量變量的信息預(yù)測能力。而在評分卡的業(yè)務(wù)上應(yīng)用的時(shí)候,對于iv值大于1的一些變量,一般就會(huì)認(rèn)為它是有信息泄露的可能,一般會(huì)把這些變量做額外的規(guī)則,或者基于業(yè)務(wù)的一些調(diào)整或者分時(shí)之后再考慮添加。然后iv值在0.02以下的話一般是一個(gè)對于預(yù)測沒有太多價(jià)值的變量,所以一般就是在考慮在大于0.02到1的這一部分的變量作為進(jìn)粗篩的變量。第二步的話是調(diào)整變量分箱,因?yàn)槲覀冏詈蟮挠檬窃u分卡,主要用的是能獨(dú)立回歸,所以最后希望實(shí)現(xiàn)基于每一個(gè)分箱之間的odds值是等級即進(jìn)和單調(diào)變化。最理想的話,右下角這邊是里面的近12個(gè)月的逾期欠費(fèi)次數(shù)的理想狀況,它的紅色代表壞賬率,這個(gè)線是單調(diào)的,而且基于業(yè)務(wù)解釋的話,也能夠解釋到在12月的觀察期內(nèi)以及欠費(fèi)次數(shù)越多的話,代表它后面的逾期欠費(fèi)可能性越高,或者說rate的程度可能會(huì)越高的業(yè)務(wù)解釋是通的,而且這樣的單調(diào)和線性的分箱結(jié)果在進(jìn)入到WOE編碼之后,才會(huì)有一個(gè)更好的結(jié)果。而對于像左下角這種分類變量的話,比如說在這里只會(huì)有一個(gè)負(fù)值到正值的一個(gè)整數(shù)變量的話,一般的話會(huì)考慮到左上角的iv值和它的分箱結(jié)果,然后去手動(dòng)嘗試一些調(diào)整的分箱。比如,單獨(dú)把-1的這部分給提取出來,iv值會(huì)增長,而且還是保持一個(gè)比較理想的單調(diào)變化。所以最后在評分卡模型里面也會(huì)保持三個(gè)分箱的結(jié)果,而以此類推對其他的所有可能的變量作分箱之后,就可以進(jìn)入到我們后面的第二次的變量篩選,是基于模型算法的一個(gè)篩選。

圖片


在評論卡里面主要是通過逐步回歸來篩選正向逆向選擇里面的變量子集,然后以AIC和BIC的準(zhǔn)則去篩選到最后的一些能夠進(jìn)入到里面的一些變量,也會(huì)考慮采用LASSO或者嶺回歸的選擇。最后目標(biāo)是能夠保持在8到15個(gè)變量在評分卡里面。然后右邊的話就是分別以m2plus和二分后的rate的兩個(gè)目標(biāo)變量做的評分卡的建模的十折交叉驗(yàn)證,然后在評分卡的模型建構(gòu)過程中,主要是用的邏輯回歸。十折交叉驗(yàn)證,對于整體的性能和模型穩(wěn)定性都有一個(gè)比較好的解釋,比如在左邊能看到基本上十折跑出來的結(jié)果穩(wěn)定性還是相對比較高的。右邊的以二分后的逾期欠費(fèi)占比的評分卡會(huì)稍遜于前面的M2plus。整體的話也在變量篩選的過程中參考到隨機(jī)森林和Lr聯(lián)動(dòng)的時(shí)候的一些重要的特征,最后確定的模型在M2plus的評分卡里面有11個(gè),然后里面有7個(gè)是前面的共有的特征,然后rate的評分卡有10個(gè)會(huì)進(jìn)入到最后的模型,還有一些像psi這樣的指標(biāo)是衡量評論卡里面變量的穩(wěn)定性,通過實(shí)際的一些驗(yàn)證之后,里面的變量基本都是小于0.01的水平是比較理想的。對于最優(yōu)模型的篩選,主要是用到ks bucket,在壞賬率這一列,如果它是一個(gè)組和組之間的區(qū)別,相對大而且顯示出嚴(yán)格單增,一般就是考慮到這個(gè)模型是一個(gè)比較理想的,可以作為最優(yōu)的模型。
最后的話是對評分卡的賦分,一般的話是基于業(yè)務(wù)的決策層和管理層,他們對于業(yè)務(wù)理解和解釋的需求,對基礎(chǔ)的比率和評分之后做出了一個(gè)人為輸入的主觀的一些部分。最后TOAD這個(gè)包會(huì)通過人為的部分,然后跑出來每一個(gè)變量對每一個(gè)分箱指定的分?jǐn)?shù)。正值的話是分?jǐn)?shù)越高,客戶逾期的可能性越低。如果是負(fù)值的分箱,代表落到這個(gè)分箱里面的客戶,他的逾期可能性會(huì)越高。評分卡的特點(diǎn)對于業(yè)務(wù)人員而言,容易解釋不同客戶的不同得分,容易理解這些得分背后的原因,而且理解他如何提高得分以去判定客戶的逾期可能性。然后下一步一般在實(shí)際的業(yè)務(wù)里面還會(huì)耗時(shí)間耗資源的是評分卡實(shí)施前后的報(bào)告,或者說穩(wěn)定性報(bào)告以及以結(jié)合業(yè)務(wù)專家或者結(jié)合到長期的實(shí)施和實(shí)踐里面的評價(jià),對于一些iv值過高的特殊變量,會(huì)對它進(jìn)行單獨(dú)的客戶分群處理等等。由于我們這個(gè)項(xiàng)目的條件的限制,這部分可能就沒有在我們這個(gè)項(xiàng)目里體現(xiàn)。
然后接下來是我們把整體的評分卡設(shè)計(jì)到DWF平臺(tái)上去。我們的初衷,希望能夠通過我們查看客戶的id可以迅速定位到他各個(gè)指標(biāo)的情況,比如說我們可能查詢其他的條件,比如成立時(shí)長比較長的公司,包括它注冊資本規(guī)模相對來說是什么樣規(guī)格的公司,它的情況,以及我們在和黃云老師溝通的過程中,我們說到可能國資背景的企業(yè)會(huì)多一些,我們也加入了這個(gè)行業(yè)的搜索等等,這是我們想實(shí)現(xiàn)的第一個(gè)功能。然后第二個(gè)就是我們在查詢到這個(gè)公司或者說查詢到幾類公司之后,我們能迅速給出一個(gè)評分卡的指標(biāo),包括總分以及各個(gè)指標(biāo)上的對應(yīng)的分?jǐn)?shù),通過交互的方式來讓客戶知道在各個(gè)評分卡的中的情況。
在這個(gè)過程中,聯(lián)通的這個(gè)項(xiàng)目讓我們意識(shí)到不僅僅是對于聯(lián)通公司而言,只是評估他的客戶逾期的風(fēng)險(xiǎn)怎樣,或者他的收益是怎么樣。更重要的是可能背后我們認(rèn)為可以去監(jiān)測中小企業(yè),包括說一些大企業(yè)的運(yùn)行狀況,對于工商的監(jiān)測來講是一個(gè)更好的補(bǔ)充。然后第二個(gè)就是說在我們溝通的過程中存在一個(gè)技術(shù)邏輯和業(yè)務(wù)邏輯之間的爭論。通過我們平時(shí)研究的角度,我們往往會(huì)從理論上去建立一些評分卡指標(biāo),但是在這個(gè)過程中,我的隊(duì)友包括現(xiàn)有數(shù)據(jù)的研究中,可能先有一個(gè)理論的框架去搜索數(shù)據(jù)。我們先從數(shù)據(jù)出發(fā),然后再去建立評分卡,然后再走向理論和現(xiàn)實(shí)意義。

圖片


在這個(gè)基礎(chǔ)上,我們最后想實(shí)現(xiàn)的一個(gè)功能是給予聯(lián)通公司也給予政府一個(gè)能夠決策的建議,分為兩個(gè)層面,第一個(gè)層面,企業(yè)本身有沒有逾期的可能性;第二個(gè)是關(guān)于逾期的程度,就是說它逾期的金額大概有多少。這是第一個(gè)指標(biāo)。第二個(gè)指標(biāo),我們想說企業(yè)本身的營收能力,給聯(lián)通公司帶來的營收能力大概是高還是低。第二個(gè)就是結(jié)合它的預(yù)期風(fēng)險(xiǎn),建立這樣一個(gè)思維的指標(biāo),我們了解并不是僅僅去完成一個(gè)作業(yè),而是可能在這個(gè)項(xiàng)目溝通包括完成任務(wù)的過程中,我們要更加細(xì)心,更加負(fù)責(zé)任。


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉