For quite sometime naive bayesian classifier based SPAMBayes filtered my emails very accurately with very few false positives. Per qualche volta molto ingenuo classificatore bayesian basato SPAMBayes filtrata la mia e-mail in modo molto preciso, con pochi falsi positivi.

Recently however I have noticed few trends in spamming which are alarming in nature. Recentemente, tuttavia ho notato alcune tendenze in spamming, che sono allarmanti in natura.

  • Database poisoning: Using otherwise innocuous words (ham words) in a SPAM, thereby effectively poisoning the database in the long run Banca dati di avvelenamento: Usare altrimenti innocuo parole (prosciutto parole) in un SPAM, così efficacemente avvelenamento banca dati a lungo termine
  • Junk Tags: Hiding spam words by inserting invalid HTML tags in between words. Junk Tag: nascondere spam parole inserendo i tag HTML non validi in tra le parole. Any HTML parser ignores tags it doesn’t understand, thereby resulting in properly viewable document Qualsiasi parser HTML ignora i tag che non capisce, così risultante in atto correttamente visualizzabili
  • Invalid Words: Spam word like mortgage etc. are masked by inserting special characters or junk characters in between. Parole non validi: Spam parola come ipoteca ecc sono mascherati con l'inserimento di caratteri speciali o junk tra caratteri.

Solutions I could think of: I soluzioni potrebbe pensare di:

  • Most of the database poisoning email tend to be classified in Not Sure category. La maggior parte dei database di avvelenamento e-mail tendono ad essere classificate nella categoria non è sicuro. I suggest that you delete them instead of classifying them as spam. Si suggerisce di eliminarle invece di classificare come Spam. However it still requires that we spend some time for it which is what I don’t like. Tuttavia essa richiede ancora che spendiamo un po 'di tempo per cui esso è ciò che non mi piace.
  • Junk Tags: Add a filter in front of bayesian classifier to eliminate junk tags Junk Tag: Aggiungi un filtro davanti classificatore bayesian indesiderata per eliminare i tag
  • Invalid Words: No-exact matching algorithms from Lucene etc. should help. Non validi Parole: No-la corrispondenza esatta algoritmi da Lucene ecc dovrebbe aiutare.

I have recently noticed a significant increase in mortgage spams. Di recente ho notato un aumento significativo dei mutui ipotecari Spam. It should be easy to tackle them by legal means. Dovrebbe essere facile per farvi fronte con mezzi legali.

Overall the game is becoming tougher for spam prevention. Nel complesso il gioco è sempre più severe per la prevenzione dello spam. A combination of existing techniques are required for any spam filters to remain effective. Una combinazione di tecniche attuali sono necessari per qualsiasi filtri spam di rimanere efficace.

Looking forward to hear your thoughts. In attesa di sentire i vostri pensieri.