How naive bayesian classifier can be made ineffective Come il classificatore bayesian ingenuo può essere fatto inefficace
I just received an email which is clearly spam. Ho appena ricevuto un messaggio email che è chiaramente spam. However SpamBayes thinks that there is a .13% probability that it is a spam. SpamBayes ritiene tuttavia che vi è un .13% di probabilità che si tratta di un spam.
I have a big corpus - 623 good and 3113 spam messages. Ho una grande corpus - 623 buono e 3113 messaggi di spam.
In a previous post I discussed that In un precedente post che ho discusso SpamBayes is not working for me anymore SpamBayes non funziona più per me . This is a good example to that effect. Questo è un buon esempio in tal senso.
Frankly there isn’t much SpamBayes or any naive-bayesian-filter can do about it. Francamente non c'è molto SpamBayes o qualsiasi ingenuo-bayesian-filtro può fare in proposito. Take a look at the message below. Date un'occhiata al messaggio riportato di seguito.
Subject: Re: Spyware Desktop icons are automatically added to the desktop ? Subject: Re: Spyware icone del desktop vengono aggiunte automaticamente al desktop? Suffering from Unexplained home page change ? Affetti da Unexplained home page di cambiamento? It's very likely that they are being served up by spyware software Try 2005 Highest-Rated Spyware Remover: Free Download Here: http://[Spam Affiliate Link...edited] Prevent the installation of hijackers spyware Prevent the installation of hijackers spyware Prevent the installation of adware spyware and other potentially unwanted pests. E 'molto probabile che esse sono servite da software spyware Prova 2005 Altezza massima nominale-Spyware Remover: Download gratuito qui: http:// [Spam Link Affiliato a cura ...] impedire l'installazione di spyware dirottatori impedire l'installazione di spyware prevenire dirottatori l'installazione di adware / spyware e da altri parassiti indesiderati. Try our online scan now: http://[Spam Affiliate Link...edited] Qu^1*t [Spam Affiliate Link...edited] Prova il nostro scansione on-line ora: http:// [Spam Link Affiliato a cura ...] Qu ^ 1 * t [Spam Link Affiliato a cura ...]
The message headers are equally uninteresting for SpamBayes. Le intestazioni dei messaggi sono altrettanto poco interessante per SpamBayes. Here is what SpamBayes thinks about it. Ecco cosa pensa SpamBayes.
Spam Score: 13% (0.130563) word spamprob #ham #spam '*H*' 0.740598 - - '*S*' 0.001723 - - 'header:In-Reply-To:1' 0.0879684 164 78 'potentially' 0.147771 8 6 'page' 0.175691 91 96 'likely' 0.195508 18 21 'installation' 0.197697 8 9 'served' 0.201793 7 8 'subject:: ' 0.227479 282 414 'software' 0.241129 112 177 'change' 0.247864 77 126 'suffering' 0.252365 4 6 'download' 0.254508 45 76 'to:addr:angsuman' 0.262497 411 730 'header:Received:4' 0.265284 88 158 'added' 0.288257 29 58 'try' 0.312818 57 129 'other' 0.313797 171 390 'prevent' 0.315326 12 27 'scan' 0.345157 4 10 'being' 0.34637 58 153 'very' 0.360483 95 267 'skip:a 10' 0.361028 183 516 'now:' 0.370986 10 29 'that' 0.375101 345 1034 'they' 0.375572 101 303 'are' 0.385233 349 1092 'reply-to:none' 0.393789 504 1635 'here:' 0.608336 15 117 'adware' 0.653949 0 1 'unwanted' 0.665617 2 21 '2005' 0.79075 1 22 'spyware' 0.820111 0 4 'url:discon' 0.820111 0 4 'url:700' 0.844931 0 5 Spam Punteggio: 13% (0.130563) spamprob parola prosciutto # # spam '* H *' 0,740598 - - '* S *' 0,001723 - - 'intestazione: In-Reply-To: 1' 0,0879684 164 78 'potenzialmente' 0,147771 8 6 'pagina' 0,175691 91 96 'probabile' 0,195508 18 21 'installazione' 0,197697 8 9 'servita' 0,201793 7 8 'argomento::' 0,227479 282 414 'software' 0,241129 112 177 'cambiamento' 0,247864 77 126 'sofferenza' 0,252365 4 6 'Download' 0,254508 45 76 ': addr: angsuman' 0,262497 411 730 'header: Received: 4' 0,265284 88 158 'aggiunto' 0,288257 29 58 'provare' 0,312818 57 129 'altri' 0,313797 171 390 'prevenire' 0,315326 12 27 'scansione' 0,345157 4 10 'essere' 0,34637 58 153 'molto' 0,360483 95 267 'saltare: un 10' 0,361028 183 516 'ora:' 0,370986 10 29 'che' 0,375101 345 1034 'si' 0,375572 101 303 'sono' 0,385233 349 1092 'reply-to: none' 0,393789 504 1635 'qui:' 0,608336 15 117 'adware' 0,653949 0 1 'indesiderati' 0,665617 2 21'2005 '0,79075 1 22' spyware '0,820111 0 4' url: discon '0,820111 0 4 'url: 700' 0,844931 0 5 Handling this spam is very hard for a NBC. Manipolazione di questo spam è molto difficile per un NBC. It doesn’t include any of the standard keywords. Essa non comprende qualsiasi tipo di parole chiave. It doesn’t directly try to sell you anything. Non direttamente tenta di vendere nulla. The choice of language shows signs of an intelligent spammer. La scelta della lingua mostra segni di uno spammer intelligente. It includes lots of non-spammy yet contextually relevant words which lowers the score. Esso comprende i lotti di non-spammy ancora contestuale pertinenti parole che abbassa il cliente. The only spammy word (quit) has been masked. L'unica parola spammy (chiudere) è stato mascherato. It even includes ham words in the url. Esso comprende anche il prosciutto parole nell'URL.
To a human eye this is clearly a spam. Ad un occhio umano si tratta chiaramente di uno spam. However it is not to a computer. Tuttavia non è a un computer.
Note: You can possibly assign very high score to the words spyware or adware, but then they can always pollute the word space with misspellings. Nota: è possibile assegnare, eventualmente, molto elevato cliente le parole spyware o adware, ma poi si può sempre inquinare la parola spazio con errori ortografici. Also your friends may want to inform you about AdAware, a valid spyware removal tool. Anche i tuoi amici può essere utile per informarvi circa AdAware, un valido strumento di rimozione dello spyware.
We need layered spam removal approach at source to handle this type of spammers. Abbiamo bisogno di livelli di spam rimozione approccio alla fonte per gestire questo tipo di spammer.
Filed under Elencato sotto Spam Watch Guarda spam , Technology Tecnologia , Web | |
| |
RSS 2.0 RSS 2,0 | |
Email this Article Invia questo articolo
You may also like to read Si può anche leggere come |




March 20th, 2005 at 11:51 am 20 Marzo 2005 alle 11:51 am
Bayessche Filter sind nur bedingt wirksam Bayessche filtro sind nur bedingt wirksam
Simple Thoughts stellt ein SPAM-Beispiel vor, an dem sich Bayessche Filter die Zähne ausbeissen. Pensieri semplice stellt ein Beispiel-SPAM prima, un Bayessche dem sich die Zähne filtro ausbeissen. Ich habe von solcher Filterei noch nie viel gehalten, vor allem , weil man dazu erst mal die ganze E-Mail empfangen muss. Ich habe von solcher Filterei noch nie viel gehalten, soprattutto, perché l'uomo erst dazu con tutta la E-Mail empfangen deve. Viel besser ist… Viel besser IST…
May 4th, 2005 at 1:17 am 4 maggio 2005 a 1:17 am
[...] hru a link, chances are the URL of your originating site contains some of these keywords. [...] Hru un link, è probabile l'URL del tuo sito originario contiene alcune di queste parole chiave. Spammers are getting smarter. Spammer sono sempre più intelligenti. It’sa neve [...] Neve è un [...]