WOE model kreditnog bodovanja klijenata

Klasifikacijski problem jedan je od temeljnih problema strojnog učenja. Klasični interpretabilni modeli (npr. logistička regresija) najčešće su ograničeni samo na linearno odvojive probleme.

Najbolje performanse na nelinearno odvojivim problemima (npr. klasifikacija kruga) za sad još uvijek imaju neinterpretabilni (“black-box”) modeli (poput neuronskih mreža). Kao što njihovo ime govori, problem takvih modela je što je teško ili gotovo nemoguće objasniti kako model klasificira podatke i što će biti izlaz modela za dosad neviđene podatke.

Što je linearno odvojiv problem?

Linearno odvojiv problem podrazumijeva da se dva različita skupa podataka mogu razdvojiti jednostavnom linearnom granicom (npr. pravcem ili ravninom). Sljedeće dvije slike prikazuju primjer linearno odvojivog problema i linearno ne odvojivog problema.

S kojim se problemima najčešće susreću financijske institucije prilikom razvoja modela klasifikacije kreditne sposobnosti?

Klasifikacijski model kreditne sposobnosti klijenta ključan je za financijsku uspješnost financijske institucije (FI). FI se suočavaju s nekoliko glavnih problema prilikom izrade takvih modela:

  1. Model zbog strogih regulativa treba biti interpretabilan – Drugim riječima, neinterpretabilni (“black-box”) modeli nisu dovoljno dobra rješenja za naše potrebe;
  2. U svojoj prirodi klasifikacijski problem je često nelinearan – Standardni linearni modeli imaju loše rezultate;
  3. FI je u potencijalno značajno većem financijskom gubitku u slučaju krive klasifikacije lošeg klijenta nego krive klasifikacije dobrog klijenta;
  4. Omjer klijenata u podacima koji su vratili kredit je najčešće značajno veći od onih koji nisu – Modeli (pogotovo linearni) često imaju lošije rezultate kod nebalansiranih omjera klasa;
  5. Što napraviti s nedostajućim podacima?
  6. Modeli potencijalno mogu nepredvidljivo reagirati na ekstremne, krivo upisane i “dosad neviđene” podatke, kako riješiti takav problem? – Naime, nepredvidljivost modela je posebno opasno za FI, a takvi scenariji moraju biti predvidljivi;

Sa svim navedenim problemima može se uhvatiti u koštac jednostavni interpretabilni sustav bodovanja dobiven na temelju WOE transformacija (WOE model). Ovaj pojednostavljeni osvrt na jednostavnom nelinearno odvojivom problemu demonstrira jačinu i jednostavnost korištenja sustava bodovanja kreditnog rejtinga dobivenog na temelju WOE modela.

S kojim podacima o klijentima raspolažu FI?

Podaci o starosti, zaposlenosti, visine plaće klijenata su neke od varijabli koje FI imaju na raspolaganju prilikom određivanja kreditne sposobnosti.

Pokušajmo pojednostavniti cijelu priču. Za demonstraciju modela, odabran je jednostavni nelinearni problem klasifikacije kruga s umjetno stvorenim varijablama X1 i X2 (zamjena za stvarne varijable).

Svaka točka na slici predstavlja jednog klijenta. Boja točke (varijabla y) određuje je li klijent uspio vratiti kredit ili nije (0 – uspio je vratiti, 1 – nije uspio vratiti).

Cilj je na temelju varijabli X1 i X2 predvidjeti hoće li klijent vratiti kredit.

Pravila WOE bodovanja

Za svaku varijablu model ima pravila bodovanja na temelju grupa kojima podaci pripadaju. Sljedeća slika prikazuje ta pravila za primjer kruga (pravila su identična zato što je problem simetričan, a u stvarnim primjerima su intervali i bodovi po stupcima različiti).

Bodovanje klijenata na temelju pravila i rad s ekstremnim/nedostajućim i netočnim podacima

Primjer: Kako izračunati broj bodova klijenta K1 s podacima X1 = 4.00 i X2 = 2.00?

Na slici pravila bodovanja je vidljivo da su obje varijable (X1 i X2) podijeljene na 9 grupa. Svaka grupa “nosi” određen broj bodova. Vrijednost varijable X1 pripada grupi [3.67, 4.13). Toj grupi pripadaju sve vrijednosti od 3.67 do 4.13.

Ukupan broj bodova klijenta se računa kao suma svih bodova koje je dobio po varijablama. U slučaju klijenta K1 to bi bilo 14.69 bodova (za varijablu X1=4.00) + 500.00 bodova (za varijablu X2=2.00 koja pripada grupi (-inf, 3.0)) = 514.69 bodova.

Za klijenta K2 s podacima X1 = 5.50 i X2 = 3.50, vrijednost X1 pripada grupi [4.13, 5.93) koja nosi 0.00 bodova, dok vrijednost X2 pripada grupi 3.33, 3.67) koja nosi 35.32 bodova. Klijent K2 ukupno ima 0.00 + 35.32 = 35.32 bodova.

Klijent K1 (514.69 bodova) ima više bodova od klijenta K2 (35.32 bodova), što znači da po modelu bodovanja ima veću vjerojatnost uspješnog vraćanja kredita. Na primjer, ukoliko bi prag dobivanja kredita bio 500 bodova, klijent K2 ne bi se odobrio kredit.

Na ovom mjestu je posebno važno napomenuti da WOE model zbog grupiranja podataka ublažava učinak ekscesivnog bodovanja u slučaju krivo upisanih, ekstremnih, i “dosad neviđenih” podataka. Izlazi WOE modela ne mogu imati nepredvidljivo visoke vrijednosti (nije moguće da je ukupan broj bodova veći od 1000).

Primjer nedostajućih podataka može biti na primjer klijent za kojeg se zna vrijednost varijable X1, ali ne i varijable X2 (ili obrnuto). U praksi se ovakav problem obično rješava ili izbacivanjem takvih klijenata prilikom treniranja modela ili zamjenom određenom vrijednosti te varijable.

Prednost bodovanja po grupama je što nedostajući podaci mogu biti svrstani u jednu grupu, pa na taj način oni nisu izuzeti iz modeliranja.

Kako FI odlučuje tko će dobiti kredit?

FI sama postavlja bodovni prag odobrenja kredita. Cilj je odabrati prag koji minimizira financijski gubitak. Prilikom klasifikacije odobravanja kredita postoje dvije vrste greške, a time dvije vrste financijskog gubitka:

  • Lažno pozitivni klijent (lažno dobar klijent za FI)
  • Lažno negativni klijent (lažno loš klijent za FI)

Lažno pozitivni klijenti su daleko veći (financijski) problem za FI nego lažno negativni klijenti. Pomicanjem praga mijenja se broj lažno pozitivnih i broj lažno negativnih klijenata, a na temelju tih brojeva FI može procijeniti koji prag minimizira njezinu funkciju cilja.

U nastavku prikazujemo kako se brojevi lažno pozitivnih i lažno negativnih klijenata mijenjaju s obzirom na prag.

Sljedeća slika prikazuje koliko bodova imaju svi klijenti pod analizom. Unutar crvenog kvadrata u centru slike nalazi se krug (svi klijenti koji nisu vratili kredit). Model je takvim klijentima dao manje od 200 bodova. Unutar kvadrata su vidljive dodatne podjele. Na primjer, klijenti koji su u samom centru kruga imaju najcrveniju boju (broj bodova je 200), dok se udaljavanjem od centra kruga postepeno povećava broj bodova.

Animacija prikazuje kako bi model klasificirao klijente s obzirom na razne pragove.

Koji prag je najprikladniji za FI na primjeru kruga?

Nakon bodovanja svih klijenata može se za sve pragove izračunati broj lažno pozitivnih i lažno negativnih klijenata. U cilju jednostavnog prikaza, usporedit će se rezultati pragova 50.00 i 88.88.

Za prag 50, model je uspješno prepoznao 2445 od 2821 klijenata koji nisu uspjeli vratiti kredit (376 klijenata koji nisu vratili kredit je klasificirao da će vratiti kredit). Model je također uspješno prepoznao 19924 od 19980 klijenata koji su uspjeli vratiti kredit (56 ih klasificirao da neće vratiti kredit, a vratili bi ga).

Za prag 88.88, model je uspješno klasificirao čak 2813 od 2821 klijenata koji nisu uspjeli vratiti kredit (samo je 8 lažno pozitivnih klijenata), dok se broj lažno negativnih klijenata povećao s 56 na 328. Prag 88.88 bi mogao biti najprikladniji odabir FI.

Da rezimiramo
  • WOE model bodovanja sastoji se od jednostavnih pravila koji svrstavaju podatke u grupe po varijablama
  • Svakoj grupi je po određenim pravilima dodijeljen broj bodova
  • Na temelju pripadnosti grupa, FI može jednostavno zbrojiti bodove klijenata po grupama kojima pripada i dobiti konačan iznos bodova
  • FI na temelju analize određuje koji je prag klasifikacije kreditne sposobnosti klijenta i na temelju toga odlučuje je li klijent kreditno sposoban

Rješava li ovakav pristup bodovanja veći dio problematike s kojima se FI susreću?

1. Model zbog strogih regulativa treba biti interpretabilan

WOE model ima jednostavna objašnjiva pravila bodovanja i klasifikacije. Prema prikazanom na primjeru kruga, za klijenta s podacima X1 = 2 i X2 = 4, klijent ukupno ima 500 + 14.69 = 514.69 bodova od 1000.

2. U svojoj prirodi klasifikacijski problem je često nelinearan

Neinterpretabilni modeli (na primjer neuronske mreže) imaju najbolje rezultate na takvim problemima, ali je teško ili gotovo nemoguće objasniti kako takav model klasificira podatke. 

WOE model je interpretabilan model koji ima dobre rezultate na nelinearno odvojivim problemima.

Sljedeće slike prikazuju rezultate klasifikacije logističke regresije, neuronske mreže i WOE modela na podacima primjera kruga. Iz slike se vidi da model logističke regresije ne može prepoznati klijente koji neće vratiti kredit.

3. FI je u potencijalno značajno većem financijskom gubitku u slučaju krive klasifikacije lošeg klijenta

Lažno pozitivni klijenti su daleko veći (financijski) problem za FI nego lažno negativni klijenti. Pomicanjem praga mijenja se broj lažno pozitivnih i broj lažno negativnih klijenata, a na temelju tih brojeva FI može procijeniti koji prag minimizira njezinu funkciju cilja.

4. Omjer klijenata u podacima koji su vratili kredit je najčešće značajno veći od onih koji nisu

Ovakva vrsta problema nema značajnijeg utjecaja na WOE model.

5. Što napraviti s nedostajućim podacima?

Prednost bodovanja po grupama je što nedostajući podaci mogu biti svrstani u jednu grupu, pa na taj način oni nisu izuzeti iz modeliranja.

6. Modeli potencijalno mogu nepredvidljivo reagirati na ekstremne, krivo upisane i “dosad neviđene” podatke, kako riješiti takav problem?

WOE model zbog grupiranja podataka ublažava učinak ekscesivnog bodovanja u slučaju krivo upisanih, ekstremnih, i “dosad neviđenih” podataka. Izlazi WOE modela ne mogu imati nepredvidljivo visoke vrijednosti (nije moguće da je ukupan broj bodova veći od 1000).

Postoji li još problematike na koju čak ni WOE nema odgovora? Za potrebe kredibiliteta ove priče, WOE je trenutno za nas dovoljno dobro rješenje.

Scroll to Top