Los clasificadores Naive Bayes trabajan correlacionandos a el uso de tokens (por lo general palabras o algunas veces otras cosas), con mensajes de correos electrónicos que no son correo basura y otros que sí lo son.
[2] Ese trabajo se desplegó poco después en filtros comerciales de correo basura.
[cita requerida] Sin embargo, en 2002 Paul Graham disminuyó en gran medida la tasa de falsos positivos, por lo que podría ser utilizado por sí mismo como un solo filtro de correo basura.
Los usuarios también pueden instalar diferentes programas de filtrado para email.
El filtro no sabe estas probabilidades de antemano, y debe primero ser entrenado para que pueda aprender.
Eso permite que el software pueda adaptarse dinámicamente a la naturaleza siempre cambiante de los correos basura.
La fórmula utilizada por el software para determinar que se deriva del Teorema de Bayes es: dónde: Estadísticas recientes[8] muestran que la probabilidad actual de cualquier mensaje sea correo basura es del 80%, como mínimo: Sin embargo, la mayoría del software de detección de correo basura bayesiano hace la suposición de que no hay ninguna razón a priori para cualquier mensaje entrante sea un correo no deseado en lugar de legítimo, y considera en ambos casos tener probabilidades iguales de 50%: [cita requerida] Los filtros que utilizan esta hipótesis se dice que son "no sesgados", lo que significa que no tienen prejuicios con respecto a los correos electrónicos entrantes.
Esta condición no se cumple en general (por ejemplo, en las lenguas naturales como el Inglés, la probabilidad de encontrar un adjetivo se ve afectada por la probabilidad de tener un sustantivo), pero es una idealización útil, sobre todo porque las correlaciones estadísticas entre palabras individuales no suelen ser conocidas.
Sobre esta base, se puede derivar la siguiente fórmula del teorema de Bayes:[10] dónde: Esta es la fórmula que hace referencia Paul Graham en su artículo de 2002.
Si p es menor que el umbral, el mensaje se consideraba probable legítimo, de lo contrario se considera como probable correo basura.
Generalmente p no se calcula directamente usando la fórmula anterior debido al punto flotante underflow.
El software puede decidir descartar tales palabras para las cuales no hay información disponible.
En términos más generales, las palabras que se encuentran a solo un par de veces durante la fase de aprendizaje causan un problema, porque sería un error confiar ciegamente la información que proporcionan.
de nuevo se puede tomar igual a 0.5, para evitar ser demasiado sospechoso con el correo electrónico entrante.
Esta fórmula puede extenderse para el caso en que n es igual a cero (y donde no se define la basurabilidad), y evalúa en este caso para
Este método da más sensibilidad al contexto y elimina el ruido bayesiano mejor, a expensas de una base de datos más grande.
Estas hipótesis diferentes resultan fórmulas distintas radicalmente para combinar las probabilidades individuales.
Por ejemplo, suponiendo que las probabilidades individuales siguen una distribución chi-cuadrado con 2N grados de libertad, se podría utilizar la fórmula: donde C−1 es la inversa de la función chi-cuadrado.
Un filtro de correo basura bayesiano finalmente asigna una probabilidad superior basada en patrones específicos del usuario.
Los correos legítimos que un usuario recibe tenderán a ser diferente.
Por ejemplo, si el correo electrónico contiene la palabra "Nigeria", que se utiliza con frecuencia en Estafa nigeriana, un filtro de reglas predefinidas podría rechazarla de plano.
El destinatario del mensaje todavía puede leer las palabras cambiadas, pero cada una de estas palabras se reunieron más raramente por el filtro bayesiano, lo que dificulta su proceso de aprendizaje.
Como regla general, esta técnica correo basura no funciona muy bien, porque las palabras derivadas terminan reconocidos por el filtro al igual que las normales.
[16] Otra técnica utilizada para tratar de derrotar a los filtros de correo basura bayesiano es reemplazar texto con imágenes, ya sea directamente incluidos o vinculados.
Además, el tamaño de una imagen en bytes es más grande que el tamaño del texto equivalente, por lo que el remitente de correo basura necesita más ancho de banda para enviar mensajes directamente que contengan imágenes.
Algunos filtros son más proclives a decidir que un mensaje es correo basura si tiene contenidos en su mayoría gráficos.
[17] Si bien el filtrado Bayesiano es ampliamente utilizado para identificar correos electrónicos correo basura, la técnica puede clasificar (o "cluster") casi cualquier tipo de datos.