For quite sometime naive bayesian classifier based SPAMBayes filtered my emails very accurately with very few false positives. Por algum tempo bastante ingénuo bayesian classificador baseado SPAMBayes filtrada meus e-mails com muita precisão com muito poucos falsos positivos.

Recently however I have noticed few trends in spamming which are alarming in nature. Recentemente porém tenho notado algumas tendências em matéria de spam que são alarmantes na natureza.

  • Database poisoning: Using otherwise innocuous words (ham words) in a SPAM, thereby effectively poisoning the database in the long run Database envenenamento: Usando outro inócuo palavras (palavras presunto) em um SPAM, assim efectivamente envenenamento do banco de dados, a longo prazo
  • Junk Tags: Hiding spam words by inserting invalid HTML tags in between words. Lixo Tags: Ocultando spam, inserindo palavras inválidos entre tags HTML em palavras. Any HTML parser ignores tags it doesn’t understand, thereby resulting in properly viewable document Todas as tags HTML parser ignora que não compreende, assim, resultando em documento devidamente visualizável
  • Invalid Words: Spam word like mortgage etc. are masked by inserting special characters or junk characters in between. Inválido Palavras: Spam palavra como hipoteca etc são mascarados por inserir caracteres especiais ou entre caracteres de lixo.

Solutions I could think of: Eu poderia pensar em soluções:

  • Most of the database poisoning email tend to be classified in Not Sure category. A maior parte da base de dados intoxicação por e-mail tendem a ser classificados na categoria não tem certeza. I suggest that you delete them instead of classifying them as spam. Sugiro que você excluí-las em vez de classificando-as como spam. However it still requires that we spend some time for it which is what I don’t like. No entanto, ainda exige que gastar algum tempo para ele que é o que eu não gosto.
  • Junk Tags: Add a filter in front of bayesian classifier to eliminate junk tags Lixo Tags: Adicione um filtro na frente do classificador bayesian para eliminar o lixo tags
  • Invalid Words: No-exact matching algorithms from Lucene etc. should help. Palavras inválido: Não-a correspondência exata de algoritmos Lucene etc devem ajudar.

I have recently noticed a significant increase in mortgage spams. Tenho notado recentemente um aumento significativo do número de spams hipoteca. It should be easy to tackle them by legal means. Deveria ser fácil para as resolver por meios legais.

Overall the game is becoming tougher for spam prevention. No geral o jogo está se tornando mais duras para a prevenção spam. A combination of existing techniques are required for any spam filters to remain effective. Uma combinação de técnicas existentes são necessários para qualquer filtros de spam para manter a eficácia.

Looking forward to hear your thoughts. Olhando para a frente para ouvir seus pensamentos.