Filtro bayesiano

Da Thinkfn
Revisão das 15h55min de 15 de dezembro de 2007 por BladeRunnerOne (discussão | contribs)

(dif) ← Revisão anterior | Revisão atual (dif) | Revisão seguinte → (dif)

O filtro bayesiano é o processo de usar métodos estatísticos para classificar documentos por categorias. O filtro de Bayes foi definido depois do documento de Paul Graham, A Plan of Spam, e transformou-se num mecanismo popular para distinguir um e-mail ilegítmo conhecido como spam de um e-mail legítimo.

Muitos programas de e-mail modernos como Mozilla Thunderbird utilizam a filtragem de spams por meio do método Bayesian. O filtro bayesiano utiliza o Teorema de Bayes, no contexto do Spam, diz que a probabilidade que um email seja um Spam, percebido em determinadas palavras dentro dele, é igual à probabilidade de encontrar aquelas determinadas palavras no e-mail de Spam, cronometrando a probabilidade que todo e-mail é Spam, dividido pela probabilidade de encontrar aquelas palavras em qualquer e-mail:

P(spam|palavra)= \frac{P(palavra|spam)P(spam)}{P(palavra)}

As palavras particulares têm probabilidades particulares de ocorrer no e-mail do Spam e no email legítimo. Por exemplo, a maioria dos usuários de email encontrarão freqüentemente a palavra Viagra no email de Spam, mas verão raramente no e-mail legítimo. O filtro não sabe das probabilidades adiantado, o usuário terá que orientá-lo, treinando o filtro a excluir automaticamente as probabilidades em sua base de dados.

Ver também

en:Bayesian spam filtering fi:Bayesilainen suodatus fr:Filtrage bayésien du spam it:Filtro bayesiano ja:ベイジアンフィルタ sv:Bayesiskt skräppostfilter