For quite sometime naive bayesian classifier based SPAMBayes filtered my emails very accurately with very few false positives. لفترة طويلة من السذاجه احيانا بايزيه مصنف على أساس spambayes التنقيه بلادي رسائل البريد الالكتروني بدقة بالغة مع عدد قليل جدا من ايجابيات كاذبة.

Recently however I have noticed few trends in spamming which are alarming in nature. ولكن في الآونة الاخيرة وقد لاحظت في بعض الاتجاهات التي تبعث على الانزعاج سبام في طبيعتها.

  • Database poisoning: Using otherwise innocuous words (ham words) in a SPAM, thereby effectively poisoning the database in the long run التسمم قاعدة البيانات : استخدام عبارة غير ضار (لحم الخنزير عبارة (في غير مرغوبة ، ومن ثم تسمم قاعدة البيانات على نحو فعال في المدى الطويل
  • Junk Tags: Hiding spam words by inserting invalid HTML tags in between words. الزباله العلامات : يختبئ من البريد المزعج باضافه عبارة غير صحيحة لغة تأشير النص الفائق في العلامات بين الكلمات. Any HTML parser ignores tags it doesn’t understand, thereby resulting in properly viewable document أي لغة تأشير النص الفائق يتجاهل علامات المعرب اللغوي وهو لا يفهم ، على الوجه الصحيح مما يؤدى الى عرض وثيقة من وثائق
  • Invalid Words: Spam word like mortgage etc. are masked by inserting special characters or junk characters in between. عبارة غير صحيحة : كلمة غير مرغوبة ، مثل الرهن العقاري وما هي ملثمين الخاصة باضافه حرف أو بين الشخصيات في الزباله.

Solutions I could think of: اعتقد انني يمكن ايجاد حلول لل:

  • Most of the database poisoning email tend to be classified in Not Sure category. أكثر من قاعدة بيانات البريد الالكتروني التسمم تميل الى ان تكون مصنفة في الفئة غير متأكد. I suggest that you delete them instead of classifying them as spam. واقترح ان تقوم بحذف لهم بدلا من تصنيفها بأنها بريد مزعج. However it still requires that we spend some time for it which is what I don’t like. بيد انها لا تزال تحتاج الى ان ننفق بعض الوقت لانها وهو ما لا أحب.
  • Junk Tags: Add a filter in front of bayesian classifier to eliminate junk tags الزباله العلامات : تضاف مرشح امام بايزيه مصنف للقضاء على علامات الزباله
  • Invalid Words: No-exact matching algorithms from Lucene etc. should help. عبارة غير صحيحة : عدم المطابقه التامه من الخوارزميات lucene وما ينبغي ان يساعد.

I have recently noticed a significant increase in mortgage spams. لقد لاحظت في الآونة الاخيرة زيادة كبيرة في التمويل العقاري spams. It should be easy to tackle them by legal means. ينبغي أن يكون من السهل التصدي لها بالوسائل القانونية.

Overall the game is becoming tougher for spam prevention. عموما اللعبة اصبحت أكثر صرامه لمنع البريد المزعج. A combination of existing techniques are required for any spam filters to remain effective. مزيج من التقنيات القائمة لازمة لاي المتطفل المرشحات لتظل فعالة.

Looking forward to hear your thoughts. نتطلع الى الاستماع الى بالك.