For quite sometime naive bayesian classifier based SPAMBayes filtered my emails very accurately with very few false positives.純真なベイズ分類を非常にいつか私の電子メールフィルタリングをベースspambayes非常に正確に非常にいくつかの偽陽性です。

Recently however I have noticed few trends in spamming which are alarming in nature.しかし私はいくつかの最近の動向スパミングに気づいたのは注意すべきである。

  • Database poisoning: Using otherwise innocuous words (ham words) in a SPAM, thereby effectively poisoning the database in the long runデータベース中毒:当たり障りのない言葉を使用して他の(ハムの言葉)をマーク、それを効果的には、長い目で見れば、データベース中毒
  • Junk Tags: Hiding spam words by inserting invalid HTML tags in between words.迷惑タグ:隠れているマークの言葉を挿入する単語の間にHTMLタグが無効です。 Any HTML parser ignores tags it doesn’t understand, thereby resulting in properly viewable document任意のHTMLパーサのタグを無視することはありません理解し、その結果、適切なドキュメントの閲覧
  • Invalid Words: Spam word like mortgage etc. are masked by inserting special characters or junk characters in between.無効な言葉:マーク単語のような住宅ローンなどの特殊文字を挿入するマスクの間に文字または迷惑です。

Solutions I could think of:私が考えるソリューション:

  • Most of the database poisoning email tend to be classified in Not Sure category.ほとんどの電子メールは、データベースの中毒に分類される傾向があるか分からないカテゴリをクリックします。 I suggest that you delete them instead of classifying them as spam.それらを削除することをお勧めとしてマークの代わりに分類しています。 However it still requires that we spend some time for it which is what I don’t like.しかしまだいくつかの時間を費やす必要が私たちがどのようなことは好きじゃない。
  • Junk Tags: Add a filter in front of bayesian classifier to eliminate junk tags迷惑タグ:フィルタを追加する前に迷惑を排除するためのタグベイジアン分類
  • Invalid Words: No-exact matching algorithms from Lucene etc. should help.無効な言葉:いいえ- Luceneのより正確なマッチングのアルゴリズムなどを参考にします。

I have recently noticed a significant increase in mortgage spams.私は最近、住宅ローンのスパムに有意な増加を気づいたのです。 It should be easy to tackle them by legal means.ばならないことが容易に対処する法的手段です。

Overall the game is becoming tougher for spam prevention.全体のゲームは厳しいのマークの予防になる。 A combination of existing techniques are required for any spam filters to remain effective.既存の技術を組み合わせて任意の迷惑メールフィルタの設定が必要ですを維持する効果的です。

Looking forward to hear your thoughts.あなたの考えを聞くを楽しみにしています。