Blog o ryzyku, prawie i energetyce: Charakterystyka modeli scoringowych

Na podstawie pracy magisterskiej Pana Roberta Kapeli.

Modele skoringowe są obecnie standardowym narzędziem wsparcia procesu oceny wiarygodności kredytowej zarówno klientów indywidualnych jak i małych i średnich przedsiębiorstw. Coraz popularniejsze stają się także w sferze ryzyka operacyjnego, wspierając proces wykrywania nadużyć oraz analitycznego CRM, gdzie umożliwiają lepszą identyfikację grup klientów z najwyższym potencjałem zakupowym[1].

Metody można podzielić na dwie grupy[2]:

Grupa pierwsza to klasyczne – statystyczne, do których można zaliczyć: regresję logistyczną, regresję probit, analizę dyskryminacyjną czy też model proporcjonalnego hazardu Coxa.
Druga grupa to metody typu data mining, spośród których najważniejsze to sieci neuronowe, drzewa wzmacniane (boosted trees), losowy las (random forests) czy metoda wektorów nośnych (support vector machines). Skupię się na charakterystycznych cechach dwóch metod: regresji logistycznej oraz drzewach wzmacnianych oraz na konsekwencjach wykorzystania ich w branży finansowej.

Regresja logistyczna jest niewątpliwie najbardziej popularną metodą budowy modeli skoringowych. Podobnie jak pozostałe metody zaliczane do grupy metod statystycznych, pozwala na przedstawienie modelowanych zależności w postaci wzoru matematycznego. Dodatkowo uzyskany wzór przekształcany jest najczęściej do formatu karty skoringowej umożliwiając zrozumienie i interpretację uzyskanego modelu nawet osobom niezajmującym się analizą danych[3].

Drzewa wzmacniane to metoda data miting, która polega na budowie sekwencji modeli, przy czym każdy kolejny przykłada większą wagę do tych obserwacji, które zostały błędnie zaklasyfikowane przez modele poprzednie. W kolejnych modelach błędnie zaklasyfikowanym obserwacjom przypisuje się większe wagi, przez co każdy kolejny model uczy się lepiej rozróżniać obserwacje wcześniej źle zaklasyfikowane. Finalny model często składa się więc z kilkuset składowych modeli, które głosując, dają końcowy wynik[4].

Kluczowym etapem budowy statystycznych modeli skoringowych jest przygotowanie danych. Należy zidentyfikować zmienne, które są ze sobą nadmiernie skorelowane, i usunąć je ze zbioru danych. Kolejnym krokiem jest wyeliminowanie zmiennych, które nie wpływają w istotnym stopniu na modelowane zjawisko – tego typu zmienne mogłyby działać destabilizująco na model, nie wnosząc do niego żadnych wartościowych informacji. Metodyka budowy kart skoringowych wymaga, aby dla każdej analizowanej zmiennej był przygotowywany profil ryzyka. Przygotowanie tego typu profili polega na dyskretyzacji zmiennych, czyli podziale wartości analizowanych zmiennych na przedziały jednorodne pod względem ryzyka. Tego typu operacja umożliwia lepsze zrozumienie charakteru związku cechy z analizowanym zjawiskiem, pozwala także na wychwycenie błędów i pomyłek w danych. Dyskretyzacja w naturalny sposób rozwiązuje problem wartości odstających oraz niedoborów danych, które możemy traktować jako odrębne klasy ryzyka, pozwalając analitykowi uwzględnić fakt, iż brak danych może być istotną informacją wpływającą na ryzyko. Umożliwia także modelowanie niemonotonicznych zmian wpływu poszczególnych cech na ryzyko, co jest dużą zaletą tego podejścia[5].

Kolejnym bardzo ważnym elementem przygotowania danych jest zidentyfikowanie próby uczącej. Przyjętą praktyką budowy modeli statystycznych jest równoważenie zbioru uczącego, tak aby proporcja modelowanych przypadków należących do klasy pozytywnej i negatywnej była zbliżona. Jeżeli tworzy się modele dla segmentów o różnym poziomie ryzyka, podczas próby scalenia modeli musimy pamiętać o korekcie odpowiedzi modelu, tak by otrzymana miara ryzyka odzwierciedlała ryzyko związane z konkretnym segmentem[6].

Drzewa wzmacniane nie wymagają od analityków aż tak dużego zaangażowania w proces oczyszczania danych. W sposób naturalny obsługują dane zarówno jakościowe, jak i ilościowe oraz są uodpornione na występowanie wartości odstających i rzadkich klas. Są również odporne na występowanie danych bez znaczenia oraz cech nadmiernie ze sobą skorelowanych. Tak więc budując model za pomocą tej metody, można pominąć szereg czasochłonnych i pracochłonnych etapów analizy danych, z drugiej jednak strony podejmuje się ryzyko, że szumy i nieprawidłowości zawarte w danych (niezidentyfikowane na etapie ich czyszczenia) spowodują, że model wygeneruje obciążone wyniki. Metoda ta jest również dosyć odporna na występowanie w zbiorze danych niezrównoważonych proporcji przypadków dobrych i złych (czego nie można jednak powiedzieć o innych metodach data mining, takich jak na przykład sieci neuronowe). Oczywiście nic nie zastąpi naszej pomysłowości i inwencji w procesie opracowania zmiennych pochodnych, jednak efekty będące interakcjami pomiędzy poszczególnymi cechami metoda „drzew wzmacnianych” identyfikuje w sposób automatyczny[7].

Modele data mining (a zwłaszcza opisane powyżej drzewa wzmacniane) są godne polecenia, jeżeli pragnie się względnie szybko zbudować model dobrej jakości i nie zależy nam na jego czytelności oraz możliwości interpretacji uzyskanych reguł. Modele statystyczne są niezastąpione, jeśli model ma być prosty w interpretacji oraz zrozumiały dla szerokiej grupy osób nieposiadających szczegółowej wiedzy z dziedziny statystyki i data mining. Także w przypadku, gdy próbuje się zrozumieć przyczyny, dla których dany klient otrzymał niską lub wysoką ocenę lub objaśnić odpowiedzi modelu audytorom, regulatorowi rynku, kadrze zarządzającej i innym osobom w prosty, zrozumiały sposób. Proces przygotowania karty skoringowej oraz jej postać nie są czarną skrzynką i są dobrze opisane i wystandaryzowane. Karta skoringowa jest prosta w ocenie i monitorowaniu. Jej prostota sprawia, że można ją wykorzystywać bez zawansowanej wiedzy statystycznej czy informatycznej.

Jaki model jest najlepszy? Decyzja nigdy nie jest oczywista. Wydaje się, że w klasycznym obszarze wykorzystania modeli skoringowych, jakim jest ryzyko kredytowe, statystyczne modele będą trudne do zastąpienia ze względu na swoją czytelność i stabilność oraz wymogi stawiane przez regulatora. Modele data mining znajdują zastosowanie przede wszystkim w obszarze wykrywania nadużyć, gdzie są niezastąpione w wychwytywaniu często skomplikowanych i ulotnych wzorców przestępstw. Poza sferą ryzyka są także bardzo przydatne w obszarze analitycznego CRM, gdzie pozwalają wspierać proces sprzedaży produktów oraz utrzymania klienta[8].

[1] G. Migut, Skoring w banku – modele statystyczne czy data mining?, w: „Miesięcznik Finansowy Bank” 2010, nr 09.
[2] Ibidem
[3] Ibidem
[4] Ibidem
[5] Ibidem
[6] Ibidem
[7] Ibidem
[8] Ibidem

Blog o ryzyku, prawie i energetyce

Strony

wtorek, 9 czerwca 2015

Charakterystyka modeli scoringowych

Brak komentarzy:

Prześlij komentarz