Inferencia bayesiana

A inferencia bayesiana é un tipo de inferencia estatística na que as evidencias ou observacións se empregan para actualizar ou inferir a probabilidade de que unha hipótese poida ser certa. O nome «bayesiana» provén do uso frecuente que se fai do teorema de Bayes durante o proceso de inferencia. O teorema de Bayes derivouse do traballo realizado polo matemático Thomas Bayes. Hoxe en día, algúns dos campos de aplicación son a teoría da decisión, visión artificial (simulación da percepción en xeral) e recoñecemento de padróns por ordenador.

Contexto inicial

editar

A incerteza e a imprecisión son connaturais no proceso de razoamento. A lóxica establece unhas regras de inferencia a partir das que se constrúe o sistema de razoamento dedutivo, no que unha proposición determinada se considera como certa ou falsa, sen que se admitan graos entre estes dous extremos. Os métodos de razoamento aproximado, entre os que se atopan os métodos bayesianos, achegan modelos teóricos que simulan a capacidade de razoamento en condicións de incerteza, cando non se coñece con absoluta certeza a verdade ou falsidade dun enunciado ou hipótese, e imprecisión, enunciados nos que se admite un rango de variación.

Entre os métodos de razoamento aproximado atópanse os métodos bayesianos, baseados no coñecido teorema de Bayes. Todos eles teñen en común a asignación dunha probabilidade como medida da credibilidade das hipóteses. Neste contexto, a inferencia enténdese como un proceso de actualización das medidas de credibilidade ao coñecérense novas evidencias. Mediante a aplicación do teorema de Bayes búscase obter as probabilidades das hipóteses condicionadas ás evidencias que se coñecen. A diferenza entre os distintos métodos bayesianos, modelos causais e redes bayesianas, apóiase nas hipóteses de independencia condicional entre hipóteses e evidencias. Estas relacións exprésanse comunmente mediante un grafo acíclico dirixido.

Evidencia e crenzas cambiantes

editar

A inferencia bayesiana emprega aspectos do método científico, que implica recoller evidencias que se consideran consistentes ou inconsistentes cunha hipótese dada. A medida que a evidencia se acumula, o grao de crenza nunha hipótese vaise modificando. Con evidencia suficiente, a miúdo poderá facerse moi alto ou moi baixo. Así, os que sosteñen a inferencia bayesiana din que pode ser empregada para discriminar entre hipóteses en conflito: as hipóteses cun grao de certeza moi alto deben ser aceptadas como verdadeiras e as que teñen un grao de certeza moi baixo deben ser rexeitadas como falsas. Con todo, os detractores din que este método de inferencia pode estar afectado por un nesgo debido ás crenzas iniciais que se deben soster antes de comezar a recoller calquera evidencia.

Interese da Estatística Bayesiana

editar
  1. Construción axiomática
  2. Unha soa regra de decisión
  3. A única que ofrece solución para certos problemas

Axiomas de coherencia

editar
  1. Comparación
  2. Transitividade
  3. Dominancia-Substitución
  4. Referencia

Exemplos de inferencia

editar

Un exemplo de inferencia bayesiana é o seguinte:

  • Durante miles de millóns de anos, o sol saíu despois de poñerse. O sol púxose esta noite. Hai unha probabilidade moi alta de (ou "eu creo firmemente" ou "é verdade") que o sol vai volver a saír mañá. Existe unha probabilidade moi baixa de (ou "eu non creo de ningún modo" ou "é falso") que o sol non saia mañá.

A inferencia bayesiana usa un estimador numérico do grao de crenza nunha hipótese aínda antes de observar a evidencia e calcula un estimador numérico do grao de crenza na hipótese despois de observar a evidencia. A inferencia bayesiana xeralmente baséase en graos de crenza, ou probabilidades subxectivas, no proceso de indución e non necesariamente declara prover un método obxectivo de indución.

Definicións formais

editar

A pesar de todo, algúns estatísticos bayesianos cren que as probabilidades poden ter un valor obxectivo e polo tanto a inferencia bayesiana pode prover un método obxectivo de indución. Dada unha nova evidencia, o teorema de Bayes axusta as probabilidades da mesma da seguinte maneira:

 

onde

  •   representa unha hipótese, chamada hipótese nula, que foi inferida antes de que a nova evidencia,  , resultase dispoñible.
  •   chámase probabilidade a priori de  .
  •   chámase probabilidade condicional de que se cumpra a evidencia   se a hipótese   é verdadeira. Chámase tamén función de verosimilitude cando se expresa como unha función de   dado  .
  •   chámase probabilidade marxinal de  : a probabilidade de observar a nova evidencia   baixo todas as hipóteses mutuamente excluíntes. Pode calcularse como a suma do produto de todas as hipóteses mutuamente excluíntes polas correspondentes probabilidades condicionais: .
  •   chámase probabilidade a posteriori de   dado  .

O factor   representa o impacto que a evidencia ten na crenza na hipótese. Se é posible que se observe a evidencia cando a hipótese considerada é verdadeira, entón este factor vai ser grande. Multiplicando a probabilidade a priori da hipótese por este factor vai resultar nunha gran probabilidade a posteriori dada a evidencia. Na inferencia bayesiana, polo tanto, o teorema de Bayes mide canto é capaz a nova evidencia de alterar a crenza na hipótese.

Establecemento da inferencia

editar

Os estatísticos bayesianos sosteñen que mesmo cando distintas persoas poidan propor probabilidades a priori moi diferentes, a nova evidencia que xorde de novas observacións vai lograr que as probabilidades subxectivas se aproximen cada vez máis. Outros, con todo, sosteñen que cando distintas persoas propoñen probabilidades a priori moi diferentes, as probabilidades subxectivas a posteriori poden non converxer nunca, por máis evidencias novas que se recollan. Estes críticos consideran que visións do mundo que son completamente diferentes ao principio poden seguir sendo completamente diferentes a través do tempo por máis evidencias que se acumulen.

Multiplicando a probabilidade anterior   polo factor   nunca se poderá obter unha probabilidade superior a 1. Xa que   é polo menos maior que  , o que permite a igualdade  , substituíndo   con   no factor   isto deixará unha probabilidade posterior de 1. Polo tanto, a probabilidade posterior non chegará a ser maior que un só se   fose menor que  , o que nunca é certo.

A probabilidade de   dado  ,  , pode representarse como unha función do seu segundo argumento, o que pode facerse propocionando un valor. Tal función denomínase función de verosimilitude; é función de H_0 dado E. Unha proporción de dúas funcións de verosimilitude que se denomina proporción de verosimilitude,  . Por exemplo:

 

A probabilidade marxinal P(E), pode ser representada ademais como a suma dos produtos de todas as probabilidades das hipóteses exclusivas mutuamente e que corresponden a probabildades condicionais: .

Como resultado, pódese reescribir o teorema de Bayes como:

 

Con dúas evidencias independentes   e  , a inferencia bayesiana pódese aplicar iterativamente. Pódese empregar a primeira evidencia para calcular a primeira probabilidade posterior e empregar esta no cálculo da seguinte probabilidade e continuar desta forma coas demais.

A independencia de evidencias implica que:

 
 
 

Aplicando o teorema de Bayes de forma iterativa, implica

 

Empregando os cocientes de verosimilitude, pódese atopar que

, 

Esta iteración da inferencia bayesiana pode expandirse coa inclusión de máis evidencias. A inferencia bayesiana emprégase no cálculo de probabilidades na toma de decisións. Empréganse nas probabilidades calculadas na teoría de cálculo de riscos, na denominada función de perda que reflicte as consecuencias de cometer un erro.

Véxase tamén

editar

Bibliografía

editar
  • Berger, J.Ou. (1999) Statistical Decision Theory and Bayesian Analysis. Second Edition. Springer Verlag, Nova York. ISBN 0-387-96098-8 e tamén ISBN 3-540-96098-8.
  • Bolstad, William M. (2004) Introduction to Bayesian Statistics, John Wiley ISBN 0-471-27020-2
  • Bretthorst, G. Larry, 1988, Bayesian Spectrum Analysis and Parameter Estimation in Lecture Notes in Statistics, 48, Springer-Verlag, Nova York, Nova York
  • Dawid, A.P. e Mortera, J. (1996) Coherent analysis of forensic identification evidence. Journal of the Royal Statistical Society, Series B, 58,425-443.
  • Foreman, L.A; Smith, A.F.M. e Evett, I.W. (1997). Bayesian analysis of deoxyribonucleic acid profiling data in forensic identification applications (with discussion). Journal of the Royal Statistical Society, Series A, 160, 429-469.
  • Gardner-Medwin, A. What probability should the jury address?. Significance. Volume 2, Número 1, marzo de 2005.
  • Gelman, A., Carlin, B., Stern, H., e Rubin, D.B. (2003). Bayesian Data Analysis. Segunda edición. Chapman & Hall/CRD, Boca Raton, Florida. ISBN 1-58488-388-X.
  • Gelman, A. e Meng, X.L. (2004). Applied Bayesian Modeling and Causal Inference from Incomplete-Data Perspectives: an essential journey with Donald Rubin's statistical family. John Wiley & Sons, Chichester, UK. ISBN 0-470-09043-X
  • Giffin, A. e Caticha, A. (2007) Updating Probabilities with Data and Moments
  • Jaynes, E.T. (1998) Probability Theory: The Logic of Science.[1]
  • Le, Peter M. Bayesian Statistics: An Introduction. Second Edition. (1997). ISBN 0-340-67785-6.
  • Ou'Fagan, A. e Forster, J. (2003) Kendall's Advanced Theory of Statistics, Volume 2B: Bayesian Inference. Arnold, Nova York. ISBN 0-340-52922-9.
  • Pearl, J. (1988) Probabilistic Reasoning in Intelligent Systems, San Mateo, CA: Morgan Kaufmann.
  • Robert, C.P. (2001) The Bayesian Choice. Springer Verlag, Nova York.
  • Robertson, B. e Vignaux, G.A. (1995) Interpreting Evidence: Evaluating Forensic Science in the Courtroom. John Wiley e Sons. Chichester.
  • Winkler, Robert L, Introduction to Bayesian Inference and Decision, 2nd Edition (2003) Probabilistic. ISBN 0-9647938-4-9

Outros artigos

editar