For quite sometime naive bayesian classifier based SPAMBayes filtered my emails very accurately with very few false positives. За довольно-нибудь наивная bayesian классификаторов на основе SPAMBayes мои письма фильтруются очень точно очень мало ложных срабатываний.

Recently however I have noticed few trends in spamming which are alarming in nature. Недавно же я заметил несколько тенденций в области спама, которые вызывают тревогу в природе.

  • Database poisoning: Using otherwise innocuous words (ham words) in a SPAM, thereby effectively poisoning the database in the long run База данных отравления: Использование безвредной иного слова (ветчина слова) в спам, тем самым эффективно отравления базы в долгосрочной перспективе
  • Junk Tags: Hiding spam words by inserting invalid HTML tags in between words. Нежелательная Tags: Скрытие спам-слов, включив недействительными HTML-теги в между словами. Any HTML parser ignores tags it doesn’t understand, thereby resulting in properly viewable document Любые HTML-парсер игнорирует теги он не понимает, в результате чего надлежащим просмотра документа
  • Invalid Words: Spam word like mortgage etc. are masked by inserting special characters or junk characters in between. Неправильный слова: Спам словом, как ипотека и т.д., в масках, добавив специальные символы или символы нежелательные между ними.

Solutions I could think of: Решения я мог думать о:

  • Most of the database poisoning email tend to be classified in Not Sure category. Большинство отравлений базы данных по электронной почте, как правило, следует отнести к категории не уверен. I suggest that you delete them instead of classifying them as spam. Я предлагаю вам удалить их, вместо классифицировать их как спам. However it still requires that we spend some time for it which is what I don’t like. Однако он по-прежнему требует, чтобы мы потратить некоторое время для которых она является то, что я не люблю.
  • Junk Tags: Add a filter in front of bayesian classifier to eliminate junk tags Нежелательная Метки: Добавить фильтр в глазах bayesian классификаторов устранить нежелательные теги
  • Invalid Words: No-exact matching algorithms from Lucene etc. should help. Неправильный слова: No-точное соответствие алгоритмов с Lucene т.д., должны помочь.

I have recently noticed a significant increase in mortgage spams. Недавно я заметил значительное увеличение ипотечных спамов. It should be easy to tackle them by legal means. Он должен быть легким для их решения законными средствами.

Overall the game is becoming tougher for spam prevention. В целом игра становится все сложнее, для предотвращения спама. A combination of existing techniques are required for any spam filters to remain effective. Сочетание существующих методов, необходимых для любой спам-фильтры, чтобы оставаться эффективным.

Looking forward to hear your thoughts. Ожидая услышать ваши мысли.