For quite sometime naive bayesian classifier based SPAMBayes filtered my emails very accurately with very few false positives. Depuis un certain temps naïf classificateur bayésien basé SPAMBayes filtré à mes e-mails très précis avec très peu de faux positifs.

Recently however I have noticed few trends in spamming which are alarming in nature. Récemment, cependant, j'ai remarqué quelques tendances dans les abus et le spam qui sont alarmants dans la nature.

  • Database poisoning: Using otherwise innocuous words (ham words) in a SPAM, thereby effectively poisoning the database in the long run Base de données intoxication: L'utilisation d'autres mots inoffensifs (jambon mots) dans un SPAM, ce qui a pour effet d'empoisonnement la base de données à long terme
  • Junk Tags: Hiding spam words by inserting invalid HTML tags in between words. Junk Tags: Hiding spam mots en insérant des balises HTML invalide dans entre les mots. Any HTML parser ignores tags it doesn’t understand, thereby resulting in properly viewable document Tout analyseur ignore HTML tags il ne comprend pas, de ce fait, bien visible document
  • Invalid Words: Spam word like mortgage etc. are masked by inserting special characters or junk characters in between. Les mots non valide: Spam mot comme hypothèque etc sont masqués en insérant des caractères spéciaux ou des caractères indésirables entre les deux.

Solutions I could think of: Solutions je pourrais penser à:

  • Most of the database poisoning email tend to be classified in Not Sure category. La plupart des intoxications base de données e-mail ont tendance à être classées dans la catégorie Ne sais pas. I suggest that you delete them instead of classifying them as spam. Je vous suggère de les supprimer au lieu de les classer comme du spam. However it still requires that we spend some time for it which is what I don’t like. Toutefois, il exige toujours que nous passons un certain temps pour lui, qui est ce que je n'aime pas.
  • Junk Tags: Add a filter in front of bayesian classifier to eliminate junk tags Junk Tags: Ajouter un filtre bayésien devant classificateur à éliminer les balises indésirables
  • Invalid Words: No-exact matching algorithms from Lucene etc. should help. Les mots non valide: Non-correspondance exacte algorithmes de Lucene etc devrait vous aider.

I have recently noticed a significant increase in mortgage spams. J'ai récemment remarqué une augmentation significative des spams hypothécaire. It should be easy to tackle them by legal means. Il devrait être facile de les résoudre par des moyens légaux.

Overall the game is becoming tougher for spam prevention. Dans l'ensemble, le jeu est de plus en plus sévères pour prévenir le spam. A combination of existing techniques are required for any spam filters to remain effective. Une combinaison de techniques existantes sont nécessaires pour tout les filtres anti-spam de rester efficace.

Looking forward to hear your thoughts. Dans l'attente de connaître votre opinion.