博客專欄

EEPW首頁 > 博客 > 干貨 | 聯(lián)通政企數(shù)據(jù)運(yùn)營(yíng)體系建設(shè)

干貨 | 聯(lián)通政企數(shù)據(jù)運(yùn)營(yíng)體系建設(shè)

發(fā)布人:數(shù)據(jù)派THU 時(shí)間:2023-07-12 來源:工程師 發(fā)布文章
以下內(nèi)容整理自大數(shù)據(jù)能力提升項(xiàng)目必修課《大數(shù)據(jù)系統(tǒng)基礎(chǔ)》同學(xué)們的期末答辯匯報(bào)。


圖片


我們將從以下幾個(gè)方面為大家介紹我們的項(xiàng)目,首先第一部分是需求分析,然后是數(shù)據(jù)提取及處理,接著樣本定義與分布、特征粗篩與模型選擇、特征精篩與評(píng)分卡建模、TOAD評(píng)分卡構(gòu)建及決策建議。

圖片


首先是需求分析。聯(lián)通在客戶評(píng)級(jí)場(chǎng)景下有以下痛點(diǎn)。首先,政企客戶的欠費(fèi)情況比較普遍,他們的逾期客戶占比比較高,并且賬收比高企,并且聯(lián)通公司對(duì)于逾期客戶缺乏預(yù)警,缺乏預(yù)期風(fēng)險(xiǎn)、營(yíng)收規(guī)模、客戶自身經(jīng)營(yíng)風(fēng)險(xiǎn)等的綜合評(píng)估,并且缺乏客戶評(píng)級(jí),也因此導(dǎo)致他們?cè)诳蛻舴?wù)力量和資源的分配上沒有辦法按照科學(xué)的評(píng)級(jí)進(jìn)行調(diào)配。此外,聯(lián)通內(nèi)部的數(shù)據(jù)相對(duì)比較混亂,缺乏一個(gè)具體的指標(biāo),因此就對(duì)我們提出了以下幾個(gè)具體的需求:首先第一個(gè)需求是進(jìn)行數(shù)據(jù)清洗,我們對(duì)現(xiàn)有的這樣的數(shù)據(jù)資源來進(jìn)行整合,重點(diǎn)是去篩選出來我們需要的指標(biāo);第二方面是我們需要搭建有效的這樣的一個(gè)客戶評(píng)級(jí)模型,我們借鑒金融風(fēng)控的C卡模型來構(gòu)建我們的評(píng)分卡體系,原因是我們需要根據(jù)已有的逾期的情況去預(yù)期他們是否能夠按期還款,接著我們需要提高模型的準(zhǔn)確率,因?yàn)樾枰ジ恍┚唧w的企業(yè)客戶進(jìn)行催收的工作,所以需要盡可能減少我們的用戶打擾,所以我們需要同時(shí)使用客戶逾期可能性以及客戶的逾期嚴(yán)重程度來進(jìn)行模型搭建;最后,我們需要使用DWF平臺(tái)來搭建一個(gè)可視化的用戶評(píng)級(jí)體系來促進(jìn)業(yè)務(wù)使用,并且給予業(yè)務(wù)一些象限分析的商業(yè)建議。

圖片


首先我們進(jìn)行的數(shù)據(jù)提取與整理,我們主要包括兩部分的數(shù)據(jù),第一部分是關(guān)于我們的工商數(shù)據(jù),我們主要是使用一個(gè)組件entid來對(duì)54張工商信息的表進(jìn)行有效的整合。其次,我們是對(duì)過往的欠費(fèi)數(shù)據(jù)進(jìn)行了寬表整理,其中比較重要的事情是目標(biāo)變量的選擇,主要包括兩個(gè)變量,第一個(gè)是預(yù)期可能性。我們和業(yè)務(wù)進(jìn)行溝通之后,認(rèn)為單月逾期涉及多方面因素,所以不能輕易的定義為逾期客戶,因此我們將連續(xù)兩個(gè)月以上逾期的客戶定義為外客戶。第二個(gè)指標(biāo)是逾期嚴(yán)重程度。為了規(guī)劃企業(yè)自身的季節(jié)性消費(fèi)波動(dòng),我們計(jì)算單月逾期占年逾期的金額比例作為逾期的嚴(yán)重程度。也根據(jù)以上這兩個(gè)跟業(yè)務(wù)溝通的目標(biāo)變量的定義,進(jìn)行了具體的邏輯計(jì)算,并且使用SQL進(jìn)行最后的數(shù)據(jù)提取。最后,我們將工商數(shù)據(jù)與過往的欠費(fèi)數(shù)據(jù)進(jìn)行表的組合。

圖片


接下里進(jìn)入到兩個(gè)目標(biāo)變量的解釋。我們這個(gè)項(xiàng)目整個(gè)大環(huán)境是一個(gè)決策智能建議,決策智能最重要的其實(shí)并不是后面的模型,反而更重要的是前面target定義。就我們?cè)谶@個(gè)決策智能領(lǐng)域,只要把target給定義好了,其實(shí)后面的事情跑通很簡(jiǎn)單。所以首先第一個(gè)是剛才同學(xué)講的這些壞的可能性,或者說壞的趨勢(shì),術(shù)語叫做M2plus。單看一個(gè)月壞,它并不是壞,基于他們領(lǐng)域知識(shí),他們認(rèn)為連續(xù)兩個(gè)月壞才有一個(gè)壞的趨勢(shì)。我們基于這樣的知識(shí)去定義一個(gè)二分類的樣本定義,在表現(xiàn)期內(nèi),如果連續(xù)兩個(gè)月以上處于逾期是一個(gè)正樣本。大部分人還是好的一個(gè)樣本,當(dāng)然這個(gè)比金融領(lǐng)域的會(huì)稍微正樣本會(huì)多一些??紤]到時(shí)間關(guān)系,導(dǎo)師在系統(tǒng)里面給我們抽樣千分之一左右,這是讓我們?cè)诒镜乜梢耘艿牧考?jí)。

圖片


然后除了壞的趨勢(shì)之外,我們還要看客戶壞的程度。根據(jù)剛才講的指標(biāo),分母是采用年化出賬金額去把它規(guī)劃到季節(jié)性的消費(fèi)波動(dòng)。所以一個(gè)客戶,如果他消費(fèi)的多,他同時(shí)他逾期又多,那才有可能是壞的。但最后產(chǎn)生另一個(gè)問題,既然是決策的話,我們可能并不需要一個(gè)連續(xù)的變量。它本來原始的數(shù)據(jù)是一個(gè)連續(xù)值,我們需要去做一個(gè)二分類才方便去做決策,但是問題是在于,如果與其比例是一個(gè)連續(xù)的,究竟選一個(gè)什么樣的點(diǎn)是合適的?我們plot出了一個(gè)比例和前面M2plus的相關(guān)關(guān)系。我們用軸步法去大概判斷出一個(gè)人的逾期比例、企業(yè)的逾期比例大于等于四分之一或者三分之一的這個(gè)區(qū)間里。以四分之一來判斷,如果一個(gè)企業(yè)客戶在這一個(gè)賬期內(nèi),在這一年內(nèi),他的預(yù)期比例大于或等于25%我們把它判定為正樣本,然后其他的是副樣本,這樣本正副樣本比例大概一比五左右,比剛剛會(huì)稍微要高一些。

圖片


樣本定義完之后,我們?cè)谥悄軟Q策領(lǐng)域,我們講究三個(gè)重要的指標(biāo),一個(gè)是模型的準(zhǔn)確性或者泛化能力,第二個(gè)是講究模型的穩(wěn)定性,第三個(gè)還要講究模型的可解釋性。和剛剛同學(xué)用深度學(xué)習(xí)講的不一樣的地方在于,我們并不是追求它預(yù)測(cè)準(zhǔn)確性,所以您看到我們整個(gè)十折交叉驗(yàn)證的重要指標(biāo)其實(shí)是K值,是能夠在金融領(lǐng)域或者說這種風(fēng)險(xiǎn)決策領(lǐng)域區(qū)分出好壞之間的差別的。所以AUC并不是我們判定的唯一指標(biāo),我們通過對(duì)比就三種模型,就Lr算一個(gè)可解釋性很強(qiáng)的線性模型,后面兩個(gè)是黑箱模型,我們想要這邊想要做一個(gè)事情,就是用線性可解釋的模型是否可以達(dá)到和黑箱模型相同的效果,但同時(shí)線性模型有更強(qiáng)的解釋力呢?我們通過十折交叉驗(yàn)證發(fā)現(xiàn)在兩個(gè)target上面都確實(shí)有這樣的一個(gè)結(jié)論。當(dāng)然,前提是我們對(duì)Lr做了一個(gè)變換,沒有做WOE變換的話,其實(shí)效果很差的。

圖片


選定Lr模型之后,我們又進(jìn)一步去看不同的特征在不同的模型之間的重要性。黑箱模型其實(shí)是適合對(duì)特征做一個(gè)粗篩,兩個(gè)模型如果都認(rèn)為重要的,我們一定放進(jìn)后期的評(píng)分卡建設(shè)中。但如果隨機(jī)森林認(rèn)為不重要,但是Lr認(rèn)為重要,我們可能會(huì)后續(xù)斟酌一下,看是否會(huì)放進(jìn)去。

圖片


最后我們就進(jìn)入到后面的評(píng)分卡模型建設(shè)。在評(píng)分卡不變的話,第一步首先是基于變量的信息量對(duì)變量的粗篩。去除了一些不會(huì)進(jìn)入最終評(píng)分卡模型的變量之后,我們會(huì)主要是根據(jù)它的iv值,就是它的信息值來對(duì)它進(jìn)行篩選。iv其實(shí)是每一個(gè)變量里面正負(fù)樣本的差值和對(duì)數(shù)比的相關(guān)系數(shù),主要是衡量變量的信息預(yù)測(cè)能力。而在評(píng)分卡的業(yè)務(wù)上應(yīng)用的時(shí)候,對(duì)于iv值大于1的一些變量,一般就會(huì)認(rèn)為它是有信息泄露的可能,一般會(huì)把這些變量做額外的規(guī)則,或者基于業(yè)務(wù)的一些調(diào)整或者分時(shí)之后再考慮添加。然后iv值在0.02以下的話一般是一個(gè)對(duì)于預(yù)測(cè)沒有太多價(jià)值的變量,所以一般就是在考慮在大于0.02到1的這一部分的變量作為進(jìn)粗篩的變量。第二步的話是調(diào)整變量分箱,因?yàn)槲覀冏詈蟮挠檬窃u(píng)分卡,主要用的是能獨(dú)立回歸,所以最后希望實(shí)現(xiàn)基于每一個(gè)分箱之間的odds值是等級(jí)即進(jìn)和單調(diào)變化。最理想的話,右下角這邊是里面的近12個(gè)月的逾期欠費(fèi)次數(shù)的理想狀況,它的紅色代表壞賬率,這個(gè)線是單調(diào)的,而且基于業(yè)務(wù)解釋的話,也能夠解釋到在12月的觀察期內(nèi)以及欠費(fèi)次數(shù)越多的話,代表它后面的逾期欠費(fèi)可能性越高,或者說rate的程度可能會(huì)越高的業(yè)務(wù)解釋是通的,而且這樣的單調(diào)和線性的分箱結(jié)果在進(jìn)入到WOE編碼之后,才會(huì)有一個(gè)更好的結(jié)果。而對(duì)于像左下角這種分類變量的話,比如說在這里只會(huì)有一個(gè)負(fù)值到正值的一個(gè)整數(shù)變量的話,一般的話會(huì)考慮到左上角的iv值和它的分箱結(jié)果,然后去手動(dòng)嘗試一些調(diào)整的分箱。比如,單獨(dú)把-1的這部分給提取出來,iv值會(huì)增長(zhǎng),而且還是保持一個(gè)比較理想的單調(diào)變化。所以最后在評(píng)分卡模型里面也會(huì)保持三個(gè)分箱的結(jié)果,而以此類推對(duì)其他的所有可能的變量作分箱之后,就可以進(jìn)入到我們后面的第二次的變量篩選,是基于模型算法的一個(gè)篩選。

圖片


在評(píng)論卡里面主要是通過逐步回歸來篩選正向逆向選擇里面的變量子集,然后以AIC和BIC的準(zhǔn)則去篩選到最后的一些能夠進(jìn)入到里面的一些變量,也會(huì)考慮采用LASSO或者嶺回歸的選擇。最后目標(biāo)是能夠保持在8到15個(gè)變量在評(píng)分卡里面。然后右邊的話就是分別以m2plus和二分后的rate的兩個(gè)目標(biāo)變量做的評(píng)分卡的建模的十折交叉驗(yàn)證,然后在評(píng)分卡的模型建構(gòu)過程中,主要是用的邏輯回歸。十折交叉驗(yàn)證,對(duì)于整體的性能和模型穩(wěn)定性都有一個(gè)比較好的解釋,比如在左邊能看到基本上十折跑出來的結(jié)果穩(wěn)定性還是相對(duì)比較高的。右邊的以二分后的逾期欠費(fèi)占比的評(píng)分卡會(huì)稍遜于前面的M2plus。整體的話也在變量篩選的過程中參考到隨機(jī)森林和Lr聯(lián)動(dòng)的時(shí)候的一些重要的特征,最后確定的模型在M2plus的評(píng)分卡里面有11個(gè),然后里面有7個(gè)是前面的共有的特征,然后rate的評(píng)分卡有10個(gè)會(huì)進(jìn)入到最后的模型,還有一些像psi這樣的指標(biāo)是衡量評(píng)論卡里面變量的穩(wěn)定性,通過實(shí)際的一些驗(yàn)證之后,里面的變量基本都是小于0.01的水平是比較理想的。對(duì)于最優(yōu)模型的篩選,主要是用到ks bucket,在壞賬率這一列,如果它是一個(gè)組和組之間的區(qū)別,相對(duì)大而且顯示出嚴(yán)格單增,一般就是考慮到這個(gè)模型是一個(gè)比較理想的,可以作為最優(yōu)的模型。
最后的話是對(duì)評(píng)分卡的賦分,一般的話是基于業(yè)務(wù)的決策層和管理層,他們對(duì)于業(yè)務(wù)理解和解釋的需求,對(duì)基礎(chǔ)的比率和評(píng)分之后做出了一個(gè)人為輸入的主觀的一些部分。最后TOAD這個(gè)包會(huì)通過人為的部分,然后跑出來每一個(gè)變量對(duì)每一個(gè)分箱指定的分?jǐn)?shù)。正值的話是分?jǐn)?shù)越高,客戶逾期的可能性越低。如果是負(fù)值的分箱,代表落到這個(gè)分箱里面的客戶,他的逾期可能性會(huì)越高。評(píng)分卡的特點(diǎn)對(duì)于業(yè)務(wù)人員而言,容易解釋不同客戶的不同得分,容易理解這些得分背后的原因,而且理解他如何提高得分以去判定客戶的逾期可能性。然后下一步一般在實(shí)際的業(yè)務(wù)里面還會(huì)耗時(shí)間耗資源的是評(píng)分卡實(shí)施前后的報(bào)告,或者說穩(wěn)定性報(bào)告以及以結(jié)合業(yè)務(wù)專家或者結(jié)合到長(zhǎng)期的實(shí)施和實(shí)踐里面的評(píng)價(jià),對(duì)于一些iv值過高的特殊變量,會(huì)對(duì)它進(jìn)行單獨(dú)的客戶分群處理等等。由于我們這個(gè)項(xiàng)目的條件的限制,這部分可能就沒有在我們這個(gè)項(xiàng)目里體現(xiàn)。
然后接下來是我們把整體的評(píng)分卡設(shè)計(jì)到DWF平臺(tái)上去。我們的初衷,希望能夠通過我們查看客戶的id可以迅速定位到他各個(gè)指標(biāo)的情況,比如說我們可能查詢其他的條件,比如成立時(shí)長(zhǎng)比較長(zhǎng)的公司,包括它注冊(cè)資本規(guī)模相對(duì)來說是什么樣規(guī)格的公司,它的情況,以及我們?cè)诤忘S云老師溝通的過程中,我們說到可能國(guó)資背景的企業(yè)會(huì)多一些,我們也加入了這個(gè)行業(yè)的搜索等等,這是我們想實(shí)現(xiàn)的第一個(gè)功能。然后第二個(gè)就是我們?cè)诓樵兊竭@個(gè)公司或者說查詢到幾類公司之后,我們能迅速給出一個(gè)評(píng)分卡的指標(biāo),包括總分以及各個(gè)指標(biāo)上的對(duì)應(yīng)的分?jǐn)?shù),通過交互的方式來讓客戶知道在各個(gè)評(píng)分卡的中的情況。
在這個(gè)過程中,聯(lián)通的這個(gè)項(xiàng)目讓我們意識(shí)到不僅僅是對(duì)于聯(lián)通公司而言,只是評(píng)估他的客戶逾期的風(fēng)險(xiǎn)怎樣,或者他的收益是怎么樣。更重要的是可能背后我們認(rèn)為可以去監(jiān)測(cè)中小企業(yè),包括說一些大企業(yè)的運(yùn)行狀況,對(duì)于工商的監(jiān)測(cè)來講是一個(gè)更好的補(bǔ)充。然后第二個(gè)就是說在我們溝通的過程中存在一個(gè)技術(shù)邏輯和業(yè)務(wù)邏輯之間的爭(zhēng)論。通過我們平時(shí)研究的角度,我們往往會(huì)從理論上去建立一些評(píng)分卡指標(biāo),但是在這個(gè)過程中,我的隊(duì)友包括現(xiàn)有數(shù)據(jù)的研究中,可能先有一個(gè)理論的框架去搜索數(shù)據(jù)。我們先從數(shù)據(jù)出發(fā),然后再去建立評(píng)分卡,然后再走向理論和現(xiàn)實(shí)意義。

圖片


在這個(gè)基礎(chǔ)上,我們最后想實(shí)現(xiàn)的一個(gè)功能是給予聯(lián)通公司也給予政府一個(gè)能夠決策的建議,分為兩個(gè)層面,第一個(gè)層面,企業(yè)本身有沒有逾期的可能性;第二個(gè)是關(guān)于逾期的程度,就是說它逾期的金額大概有多少。這是第一個(gè)指標(biāo)。第二個(gè)指標(biāo),我們想說企業(yè)本身的營(yíng)收能力,給聯(lián)通公司帶來的營(yíng)收能力大概是高還是低。第二個(gè)就是結(jié)合它的預(yù)期風(fēng)險(xiǎn),建立這樣一個(gè)思維的指標(biāo),我們了解并不是僅僅去完成一個(gè)作業(yè),而是可能在這個(gè)項(xiàng)目溝通包括完成任務(wù)的過程中,我們要更加細(xì)心,更加負(fù)責(zé)任。


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉