For quite sometime naive bayesian classifier based SPAMBayes filtered my emails very accurately with very few false positives. Desde hace algún clasificador bayesian ingenuo SPAMBayes filtrado basado en mis correos electrónicos con gran precisión con muy pocos falsos positivos.

Recently however I have noticed few trends in spamming which are alarming in nature. Recientemente, sin embargo he observado algunas tendencias en el envío de correo basura que son alarmantes en la naturaleza.

  • Database poisoning: Using otherwise innocuous words (ham words) in a SPAM, thereby effectively poisoning the database in the long run Base de Datos de la intoxicación: Usar palabras inocua (jamón de palabras) en un SPAM, con lo que efectivamente envenenamiento en la base de datos a largo plazo
  • Junk Tags: Hiding spam words by inserting invalid HTML tags in between words. Etiquetas de la chatarra: Ocultar el spam mediante la inserción de palabras no válidos en las etiquetas HTML entre las palabras. Any HTML parser ignores tags it doesn’t understand, thereby resulting in properly viewable document Cualquier HTML parser ignora las etiquetas que no entiende, por lo que puede visualizarse correctamente en el documento
  • Invalid Words: Spam word like mortgage etc. are masked by inserting special characters or junk characters in between. Las palabras no válido: Spam palabra como hipotecas, etc están enmascarados por la inserción de caracteres especiales o caracteres basura en el medio.

Solutions I could think of: Soluciones pude pensar en:

  • Most of the database poisoning email tend to be classified in Not Sure category. La mayor parte de la base de datos de envenenamiento de correo electrónico tienden a ser clasificados en la categoría No estoy seguro. I suggest that you delete them instead of classifying them as spam. Le sugiero que eliminarlos en lugar de la clasificación como spam. However it still requires that we spend some time for it which is what I don’t like. Sin embargo, todavía requiere que pasar algún tiempo para que que es lo que no me gusta.
  • Junk Tags: Add a filter in front of bayesian classifier to eliminate junk tags Etiquetas de la chatarra: Añadir un filtro delante de bayesian clasificador de basura para eliminar las etiquetas
  • Invalid Words: No-exact matching algorithms from Lucene etc. should help. Las palabras no válido: No-la concordancia exacta algoritmos de Lucene etc debe ayudar.

I have recently noticed a significant increase in mortgage spams. Recientemente he notado un aumento significativo de la hipoteca spams. It should be easy to tackle them by legal means. Debería ser fácil para hacer frente a ellos por medios legales.

Overall the game is becoming tougher for spam prevention. En general el juego es cada vez más estrictas para la prevención del spam. A combination of existing techniques are required for any spam filters to remain effective. Una combinación de técnicas existentes son necesarios para cualquier filtros de spam para seguir siendo eficaz.

Looking forward to hear your thoughts. El mirar adelante para oír sus pensamientos.