Sari la conținut

Clasificator bayesian naiv

De la Wikipedia, enciclopedia liberă

În învățarea automată, clasificatorii bayesieni naivi reprezintă o familie de „clasificatori probabilistici” simpli, bazați pe aplicarea teoremei lui Bayes cu ipoteze puternice (naive) de independență între descriptori.

Aceste modele au fost intens studiate încă din anii 1960. A apărut (deși nu sub acest nume) în comunitatea recuperării de texte la începutul anilor 1960[1] și rămâne o metodă populară de categorisire de text, care este problema de a eticheta documente ca aparținând unei categorii sau alteia (precum spam sau legitime, sport sau politică etc.) folosind frecvențele cuvintelor drept caracteristici. Adăugând metode adecvate de pre-procesare, un astfel de clasificator poate concura în acest domeniu cu metode mai avansate, printre care mașini cu suport vectorial[2]. Este utilizat, de asemenea, în diagnosticarea medicală automată[3].

Clasificatorii naivi bayesieni sunt extrem de scalabili, necesitând un număr de parametri liniar cu numărul de variabile (caracteristici/predictori) într-o problemă de învățare. Antrenarea cu probabilitatea maximă se poate efectua prin evaluarea unei expresii de formă închisă[4]:718, care necesită timp liniar, față de aproximarea iterativă mai scumpă folosită pentru multe alte tipuri de clasificatori.

În literatura de statistică și informatică, modelele bayesiene naive sunt cunoscute sub o varietate de nume, inclusiv Bayes simplu și Bayes cu independență[5]. Toate aceste nume fac referință la utilizarea teoremei lui Bayes în regula de decizie a clasificatorului, dar un mode bayesian naiv nu este (neapărat) o metodă bayesiană[4][5].

Bayes naiv este o tehnică simplă pentru construirea clasificatorilor: modele care atribuie etichete de clasă pentru instanțe noi, reprezentate ca vectori de valori pentru diverse caracteristici, unde etichetele de clasă fac parte trase dintr-o mulțime finită. Nu există un singur algoritm pentru antrenarea astfel de clasificatori, ci o familie de algoritmi bazați pe un principiu comun: toți clasificatorii bayesieni naivi presupun că valoarea unei anumite caracteristică este independentă de valoarea oricărei altă caracteristici, dat fiind variabila de clasă. De exemplu, un fruct poate fi considerat a fi un măr dacă este roșu, rotund, și de aproximativ 10 cm în diametru. Un clasificator naiv bayesian consideră că fiecare dintre aceste caracteristici contribuie în mod independent la probabilitatea ca acest fruct să fie un măr, indiferent de eventualele corelații între culoare, rotunjime și diametru.

Pentru unele tipuri de modele de probabilitate, clasificatorii bayesieni naivi pot fi antrenați foarte eficient în contextul învățării supervizate. În multe aplicații practice, pentru estimarea parametrilor pentru modelele bayesiene naiv se folosește metoda de probabilitate maximă. Cu alte cuvinte, se poate lucra cu modelul naiv bayesian fără a accepta probabilitatea bayesiană sau a folosi orice metode bayesiene.

În ciuda designului naiv și ipotezelor aparent supra-simplificate, clasificatorii bayesieni naivi funcționează destul de bine în multe situații reale complexe. În 2004, o analiză a problemei de clasificare bayesiene a arătat că există motive teoretice pentru eficacitatea aparent neverosimilă a clasificatorilor bayesieni naivi[6]. Totuși, o comparație cuprinzătoare cu alți algoritmi de clasificare din 2006 a arătat că această metodă este depășită de alte abordări, precum păduri de arbori decizionali[7].

Un avantaj al acestui clasificator bayesian naiv este că necesită doar un număr mic de date de antrenament pentru a estima parametrii necesari pentru clasificare[necesită citare].

Model probabilistic

[modificare | modificare sursă]

Abstract, Bayes naiv este un model de probabilitate condiționată: având o instanță pentru clasificare, reprezentată printr-un vector de n caracteristici (variabile independente), se atribuie acestei instanțe probabilitățile

pentru fiecare K rezultate posibile sau clase [8].

Formularea de mai sus este problematică în sensul că dacă numărul de caracteristici n este mare sau dacă o caracteristică poate avea un număr mare de valori, atunci un astfel de model bazat pe tabele de probabilitate devine nefezabil. Prin urmare, reformularea modelului pentru a-l face fezabil folosește teorema lui Bayes, unde probabilitatea condiționată poate fi descompusă ca

Cu alte cuvinte, folosind terminologia din probabilitatea bayesiană, ecuația de mai sus poate fi scrisă ca

În practică, este relevant doar numărătorul acestei fracții, deoarece numitorul nu depinde de și valorile sunt cunoscute, fiind astfel constant. Numărătorul este echivalent cu probabilitatea comună

care poate fi rescrisă după cum urmează, utilizând regula lanțului pentru aplicarea repetată a definiției probabilității condiționate:

Acum poate fi aplicată independența condiționată naivă: să presupunem că toate caracteristicile din sunt reciproc independente, condiționate de categoria . Sub această ipoteză,

.

Astfel, în modelul comun poate fi exprimat ca

unde denotă proporționalitatea.

Acest lucru înseamnă că, sub ipoteza de independență de mai sus, distribuția condiționată a variabilei este:

unde media este un factor de scalare care depinde doar de , adică este o constantă dacă valorile caracteristicii variabile sunt cunoscute.

Construirea unui clasificator de la modelul de probabilitate

[modificare | modificare sursă]

Discuția de până acum a derivat modelul de caracteristici independente, adică modelul de probabilitate bayesian naiv. Clasificatorul bayesian naiv combină acest model cu o regulă de decizie. O regulă des utilizată este alegerea ipotezei care este mai probabilă. Aceasta este cunoscută drept maximum a posteriori sau regula de decizie MAP. Clasificatorul bayesian corespunzător este o funcție care atribuie o clasă pentru un k după cum urmează:

Clasificarea persoanelor

[modificare | modificare sursă]

Problemă: clasificați dacă o anumită persoană este bărbat sau femeie, pe baza unor caracteristici măsurate. Caracteristicile includ înălțimea, greutatea și mărimea piciorului.

Un exemplu de set de date de antrenament este oferit mai jos.

Persoana înălțime (m) greutate (kg) mărimea piciorului (cm)
bărbat 1,83 81,65 30,48
bărbat 1,80 86,18 27,94
bărbat 1,70 77,11 30,48
bărbat 1,80 74,84 25,4
femeie 1,52 45,36 15,24
femeie 1,67 68,04 20,32
femeie 1,65 58,97 17,78
femeie 1,75 68,04 22,86

Clasificatorul creat din setul de antrenament folosind o distribuție ipotetic Gaussiană ar fi:

Persoana medie (înălțime) varianța (înălțime) medie (greutate) varianța (greutate) medie (mărimea piciorului) varianța (mărimea piciorului)
bărbat 1,7825 3,2250*10−3 79,94 0,2529*102 28,57 5,9139
femeie 1,6475 9,0917*10−3 60,10 1,1487*102 19,05 0,1075*102

Să presupunem că avem clase cu probabilitate egală, astfel încât P(bărbat)= P(femeie) = 0,5. Această probabilitate a priori ar putea fi bazată pe cunoașterea de frecvențe pe o populație mai mare sau a frecvenței în setul de antrenament.

Mai jos este un set de date care trebuie clasificate ca bărbat sau femeie.

Persoana înălțime (m) greutate (kg) mărimea piciorului (cm)
test 1,83 58,97 20,32

Dorim să determinăm care probabilitate posterioară este mai mare, bărbat sau femeie. Pentru clasificarea ca bărbat, probabilitatea este dată de

Pentru clasificarea ca femeie, probabilitatea este dată de

Media așteptată (numită, de asemenea, constantă de normalizare) poate fi calculată:

Cu toate acestea, având în vedere datele, media este constantă și, astfel, normalizează în mod egal ambele probabilități posterioare. Prin urmare, nu afectează clasificarea și poate fi ignorată. Acum putem determina distribuția de probabilitate pentru sexul datelor de test.

,

unde și sunt parametrii distribuției normale care au fost determinate anterior din setul de antrenament. Este important de reținut că o valoare mai mare decât 1 este în regulă aici – este o densitate de probabilitate în loc de o probabilitate, pentru că înălțimea este variabilă continuă.

Deoarece numărătorul posteriorului este mai mare în cazul femeii, putem prezice că datele de test aparțin unei femei.

  1. ^ Maron, M. E. (). „Automatic Indexing: An Experimental Inquiry” (PDF). Journal of the ACM. 8 (3): 404–417. doi:10.1145/321075.321084. 
  2. ^ Rennie, J.; Shih, L.; Teevan, J.; Karger, D. (). Tackling the poor assumptions of Naive Bayes classifiers (PDF). ICML. 
  3. ^ Rish, Irina (). An empirical study of the naive Bayes classifier (PDF). IJCAI Workshop on Empirical Methods in AI. Arhivat din original (PDF) la . Accesat în . 
  4. ^ a b Russell, Stuart; Norvig, Peter () [1995]. Artificial Intelligence: A Modern Approach⁠(d) (ed. 2nd). Prentice Hall. ISBN 978-0137903955.d)&rft.edition=2nd&rft.pub=Prentice Hall&rft.date=2003&rft.isbn=978-0137903955&rft.aulast=Russell&rft.aufirst=Stuart&rft.au=Norvig, Peter&rfr_id=info:sid/ro.wikipedia.org:Clasificator bayesian naiv" class="Z3988"> 
  5. ^ a b Hand, D. J.; Yu, K. (). „Idiot's Bayes — not so stupid after all?”. International Statistical Review. 69 (3): 385–399. doi:10.2307/1403452. ISSN 0306-7734. JSTOR 1403452. 
  6. ^ Zhang, Harry. The Optimality of Naive Bayes (PDF). FLAIRS2004 conference. 
  7. ^ Caruana, R.; Niculescu-Mizil, A. (). An empirical comparison of supervised learning algorithms. Proc. 23rd International Conference on Machine Learning. 
  8. ^ Narasimha Murty, M.; Susheela Devi, V. (). Pattern Recognition: An Algorithmic Approach. ISBN 978-0857294944. 

Bibliografie suplimentară

[modificare | modificare sursă]