首頁/ 汽車/ 正文

無監督訓練與有監督評估,面試中這兩大類風控模型會被問到的問題

平常說到模型開發中中各位童鞋經常會聽到有監督與無監督這兩個詞,這究竟是啥意思?我們覺得可以這樣簡單理解:有監督就是說資料中已經確定了好人與壞人(有y標籤),無監督就是說資料中沒有確定好人與壞人(無y標籤)。好了,本文到處結束,如果不是想要深入瞭解這一類問題的童鞋,以後內容可以跳過了。

從文章主題來看,似乎有些矛盾,既然是無監督模型,那何來有監督指標,而有了目標變數,為什麼還要採用無目標的演算法來訓練模型,聽起來似乎有些不合理,但在實際場景中這種情況是存在的,這也是本文要介紹的重點內容。這裡提到了無監督訓練,說明模型演算法是一種無監督學習器,而我們常接觸的線性迴歸、邏輯迴歸、決策樹、K近鄰等迴歸或分類演算法,都屬於有監督機器學習模型的範疇,對於無監督模型往往指的是聚類或降維演算法。

1、業務場景介紹

在信貸領域中,客戶群體的型別區分場景,雖然透過分類和聚類演算法都可以實現,但如果採用聚類演算法來開發模型,最常用的演算法是我們比較熟悉的Kmeans(K均值)聚類。作為無監督聚類模型的代表,Kmeans演算法可以有效將樣本群體進行歸類,從而實現客群的特徵畫像分析,為存量客戶的價值評估與營銷管理提供非常有效的參考價值。

採用Kmeans演算法對樣本資料進行聚類自然是無監督訓練的過程,這也是本文主題前半部分,而對於後半部分的有監督評估,指的是採用建模樣本資料已有的目標變數標籤與模型預測標籤進行綜合分析,得到相關有監督的效能指標,從而實現有監督評估的過程。這裡可能稍有疑惑的是,Kmeans模型的效果評價直接可以採用相關指標來分析,例如SSE(誤差平方和)、SC(輪廓係數)等,而且這些指標並不需要目標變數的支援,也就是無監督的模型指標。但是,在某些場景下,如果原始建模樣本資料存在目標變數,除了採用類似SSE、SC等無監督指標來評價之外,也可以採用有監督指標來分析,常用指標有NMI(標準化互資訊)、AMI(調整互資訊)、RI(蘭德係數)、ARI(調整蘭德係數)、FMI(Fowlkes-Mallows-scores係數)、V-measure(調和平均係數)等。這裡需要注意的是,是否採用有監督方式來評估模型的效能效果,Kmeans聚類始終是無監督擬合的過程,而且模型變數不能包含樣本資料已有的目標變數。

2、樣本分析處理

圍繞以上場景描述,接下來我們結合具體的樣本資料,來介紹下Kmeans聚類的無監督訓練與有監督評估的完整過程,並分析常見的有監督評價指標。採用的樣本資料包含5000條樣本與7個特徵,具體樣例如圖1所示,其中id為樣本主鍵,air_travel、credit_use、stable_index、online_level、model_score為特徵變數,flag為目標變數,特徵字典詳情如圖2所示。

無監督訓練與有監督評估,面試中這兩大類風控模型會被問到的問題

編輯

新增圖片註釋,不超過 140 字(可選)

圖1 樣本資料

無監督訓練與有監督評估,面試中這兩大類風控模型會被問到的問題

編輯

新增圖片註釋,不超過 140 字(可選)

圖2 特徵字典

根據以上樣本資料,我們採用Kmeans聚類演算法來建立模型,由於特徵擬合變量的取值型別均為數值型,因此不需要進行字元轉數值的特徵編碼處理。但是,Kmeans聚類演算法的原理是透過樣本資料點的距離大小來決定樣本所屬類別的,最常用的距離方式是歐式距離。對於樣本距離的計算,特徵取值的量綱統一非常重要的,如果特徵量綱的差異太大,會直接導致模型的聚類效果表現很差。因此,針對Kmeans聚類的模型訓練,為了保證模型的合理性,務必要對建模資料的特徵進行標準化處理。常用的標準化處理方法有min-max、z-score等,這裡我們採用min-max來實現,在python環境可以直接透過呼叫sklearn。preprocessing庫中的MinMaxScaler()來完成,經過對特徵變數標準化處理的樣本資料樣例如圖3所示。

無監督訓練與有監督評估,面試中這兩大類風控模型會被問到的問題

編輯

新增圖片註釋,不超過 140 字(可選)

圖3 特徵標準化資料

當樣本特徵資料完成標準化處理後,接下來便可以採用Kmeans演算法進行聚類模型的無監督訓練。對於Kmeans模型訓練的入參,最重要的一個引數就是K值的確定,這決定了聚類模型最終將客戶群體劃分為幾個類別。在實際場景中,K值的定義主要有以下幾個思路:

(1)根據業務需求直接指定,也就是公司希望將存量客戶分為幾類便於管理;

(2)透過資料分析“肘部法”確定,橫座標為聚類K值,縱座標為SSE或SC等;

(3)以上2種方法的綜合分析。

由於本文要介紹有監督評估的實現過程,因此預測標籤的型別數量(K值)必須與真實標籤數量一致,而針對樣本資料標籤“flag”的具體分佈情況如圖4所示,可知模型訓練的引數K值應設定為3,這樣才能保證真實標籤與預測標籤的型別數量相同,從而滿足有監督模型指標的輸出。

無監督訓練與有監督評估,面試中這兩大類風控模型會被問到的問題

編輯

新增圖片註釋,不超過 140 字(可選)

圖4 樣本資料標籤分佈

結合以上分析思路,我們雖然確定了模型的聚類K值為3,但為了更客觀的說明K=3是否滿足實際資料分佈,可以採用透過資料分析的“肘部法”來進行驗證,這裡採用SSE(誤差平方和)來評價不同K值的效能,實現過程如圖5所示,輸出結果的視覺化展示如圖6所示。

無監督訓練與有監督評估,面試中這兩大類風控模型會被問到的問題

編輯

新增圖片註釋,不超過 140 字(可選)

圖5 聚類肘部法分析

無監督訓練與有監督評估,面試中這兩大類風控模型會被問到的問題

編輯

新增圖片註釋,不超過 140 字(可選)

圖6 肘部法視覺化結果

由圖6的視覺化趨勢結果可知,隨著聚類數量K值的增大,模型效能指標SSE(誤差平方和)呈現下降趨勢,根據肘部法確定K值的原理是從分佈趨勢圖尋找手肘的拐點,對應的K值便是比較合適的聚類數量。透過上圖的分佈效果可以直接看出,K=3的位置變化趨勢明顯,符合肘部法分析的邏輯,說明聚類數量K=3比較合適,這個分析結果正與前邊預設的K值相對應,這也進一步驗證了模型聚類目標為3個類別的合理性。

3、模型訓練與無監督評估

當聚類K值確定之後,下面採用Kmeans演算法來完成模型訓練與模型預測,同時採用無監督評估原理,輸出模型效能的相關評價指標,例如誤差平方和SSE、輪廓係數SC等,聚類模型訓練過程如圖7所示,輸出的聚類種子中心以及模型評價指標結果如圖8所示。

無監督訓練與有監督評估,面試中這兩大類風控模型會被問到的問題

編輯

新增圖片註釋,不超過 140 字(可選)

圖7 聚類模型訓練

無監督訓練與有監督評估,面試中這兩大類風控模型會被問到的問題

編輯

新增圖片註釋,不超過 140 字(可選)

圖8 模型效能指標

本文聚類模型的實現目的是為了將存量客戶進行分群,為了便於分析聚類後各個客群的特徵分佈,現將聚類各簇樣本的頻數佔比、變數均值分別輸出彙總,便於客戶分群的特徵畫像分析,具體實現過程如圖9所示,輸出結果如圖10所示。

無監督訓練與有監督評估,面試中這兩大類風控模型會被問到的問題

編輯

新增圖片註釋,不超過 140 字(可選)

圖9 客群分佈實現

無監督訓練與有監督評估,面試中這兩大類風控模型會被問到的問題

編輯

新增圖片註釋,不超過 140 字(可選)

圖10 客群分佈結果

根據上圖聚類各簇的樣本資料分佈,可以直觀的描述出在當前特徵範圍內各個客群的特點。這裡我們選取第1個客戶群體(簇類label=0),來簡單描述下客戶畫像,此類而客群佔比為39。02%,最近1個月航旅出行次數平均值為0,說明很少採用航旅方式出行;最近6個月信用卡交易次數平均值為19,日常消費頻率相對較高;穩定能力系數為4。68,相比其他客群較為穩定;電商網購能力等級平均值為0,很少採用線上形式購物,但結合前邊的信用卡交易頻率較高,說明很可能偏好線下購物消費;申請信用評分平均值為585,相比其他客群信用度較高,信用風險較低,綜上可以推理出此類客群的價值度較高,在存量客群中屬於優質客戶。

4、模型有監督評估

前文我們雖然進行了模型評估,但並未採用樣本資料的目標資料,而是直接採用無監督方式分析模型效能指標SSE(誤差平方和)、SC(輪廓係數)等,這種評價模型效果的方法也是我們在實際場景中經常採用的。本文除了以上關於模型無監督評估的方式之外,重點來介紹下有監督評估的實現過程,也就是綜合已有真實標籤與預測結果標籤的二維資料,來輸出相關模型指標,具體包括NMI(標準化互資訊)、AMI(調整互資訊)、RI(蘭德係數)、ARI(調整蘭德係數)、FMI(Fowlkes-Mallows-scores係數)、(V-measure調和平均)等。

(a)標準化互資訊NMI

互資訊(Mutual Information)用來衡量兩個樣本資料分佈的吻合程度,是一種資訊度量;互資訊的取值越大,說明資料資訊的相關程度也越強,在本例中指聚類標籤與真實標籤的資訊相關度。標準化互資訊 (Normalized Mutual Information),簡稱NMI,是對互資訊進行歸一化處理。NMI的取值範圍為[0,1],取值越大說明聚類結果標籤與真實標籤的分佈越吻合,NMI的具體實現過程與輸出結果如圖11所示。

無監督訓練與有監督評估,面試中這兩大類風控模型會被問到的問題

編輯

新增圖片註釋,不超過 140 字(可選)

圖11 標準化互資訊NMI

(b)調整互資訊AMI

調整互資訊(Adjusted mutual information),簡稱AMI,是另一個版本的互資訊,可以衡量聚類結果與真實情況的相似程度。AMI的取值範圍為[-1,1],取值越大代表二者標籤分佈情況越吻合,AMI的具體實現過程與輸出結果如圖12所示。

無監督訓練與有監督評估,面試中這兩大類風控模型會被問到的問題

編輯

新增圖片註釋,不超過 140 字(可選)

圖12 調整互資訊AMI

(c)蘭德係數RI

蘭德指數(Rand index), 簡稱RI,是將聚類視為一系列決策過程,即對資料所有n(n-1)/2個樣本對進行決策,當且僅當兩個樣本相似時,才將其歸入同一簇類。RI的取值範圍為[0,1],取值越大說明聚類標籤與真實標籤越吻合,RI的具體實現過程與輸出結果如圖13所示。

無監督訓練與有監督評估,面試中這兩大類風控模型會被問到的問題

編輯

新增圖片註釋,不超過 140 字(可選)

圖13 蘭德指數RI

(d)調整蘭德係數ARI

調整蘭德係數(Adjusted rand index),簡稱ARI,可以實現在聚類結果隨機產生的情況下,評估指標應接近於0的客觀規律,而對於蘭德係數RI是無法滿足的,因此ARI具有更好的區分度。ARI的取值範圍為[0,1],取值越大說明聚類標籤與真實標籤越吻合ARI的具體實現過程與輸出結果如圖14所示。

無監督訓練與有監督評估,面試中這兩大類風控模型會被問到的問題

編輯

新增圖片註釋,不超過 140 字(可選)

圖14 調整蘭德指數ARI

(e)Fowlkes-Mallows-scores係數FMI

Fowlkes-Mallows Scores係數,簡稱FMI,是成對的precision(精度)和recall(召回)的幾何平均數。FMI的取值範圍為[0,1],取值越大說明聚類標籤與真實標籤越吻合,FMI的具體實現過程與輸出結果如圖15所示。

無監督訓練與有監督評估,面試中這兩大類風控模型會被問到的問題

編輯

新增圖片註釋,不超過 140 字(可選)

圖15 Fowlkes-Mallows-scores係數FMI

(f)調和平均數V-measure

V-measure是同質性(homogeneity)和完整性(completeness)的調和平均數,其中同質性是指每個類群只包含單個類別的樣本,完整性是指給定類別的所有樣本都分配給同一個類群。V-measure的取值範圍為[0,1],取值越大說明聚類標籤與真實標籤越吻合,V-measure的具體實現過程與輸出結果如圖16所示。

無監督訓練與有監督評估,面試中這兩大類風控模型會被問到的問題

編輯

新增圖片註釋,不超過 140 字(可選)

圖16 調和平均數V-measure

以上指標NMI、AMI、RI、ARI、FMI、V-measure等,均是Kmeans聚類模型常用的有監督評估指標,可以較好的評估模型聚類結果的真實反映情況。在實際業務場景中,當建模樣本資料存在真實分類標籤時,可以嘗試透過無監督評估與有監督評估兩個維度,來綜合性評價模型的效能。

綜合以上內容,我們圍繞客群分類場景,透過Kmeans聚類演算法實現了客戶群體的類別劃分與特徵畫像,同時重點採用無監督與有監督兩種方式,實現了聚類模型的效果。

為了便於大家對客群分類模型無監督訓練與有監督評估場景的進一步熟悉,本文額外附帶了與以上內容同步的樣本資料與python程式碼,供大家參考學習,詳情請移至知識星球檢視相關內容。

無監督訓練與有監督評估,面試中這兩大類風控模型會被問到的問題

編輯切換為居中

新增圖片註釋,不超過 140 字(可選)

更多詳細內容,有興趣的童鞋可關注:

無監督訓練與有監督評估,面試中這兩大類風控模型會被問到的問題

編輯切換為居中

新增圖片註釋,不超過 140 字(可選)

。。。

~原創文章

相關文章

頂部