I just received an email which is clearly spam. Ho appena ricevuto un messaggio email che è chiaramente spam. However SpamBayes thinks that there is a .13% probability that it is a spam. SpamBayes ritiene tuttavia che vi è un .13% di probabilità che si tratta di un spam.

I have a big corpus - 623 good and 3113 spam messages. Ho una grande corpus - 623 buono e 3113 messaggi di spam.

In a previous post I discussed that In un precedente post che ho discusso SpamBayes is not working for me anymore SpamBayes non funziona più per me . This is a good example to that effect. Questo è un buon esempio in tal senso.

Frankly there isn’t much SpamBayes or any naive-bayesian-filter can do about it. Francamente non c'è molto SpamBayes o qualsiasi ingenuo-bayesian-filtro può fare in proposito. Take a look at the message below. Date un'occhiata al messaggio riportato di seguito.

 Subject: Re: Spyware  Desktop icons are automatically added to the desktop ? Subject: Re: Spyware icone del desktop vengono aggiunte automaticamente al desktop? Suffering from Unexplained home page change ? Affetti da Unexplained home page di cambiamento? It's very likely that they are being served up by spyware software  Try 2005 Highest-Rated Spyware Remover:  Free Download Here: http://[Spam Affiliate Link...edited]  Prevent the installation of hijackers spyware Prevent the installation of hijackers spyware Prevent the installation of adware spyware and other potentially unwanted pests. E 'molto probabile che esse sono servite da software spyware Prova 2005 Altezza massima nominale-Spyware Remover: Download gratuito qui: http:// [Spam Link Affiliato a cura ...] impedire l'installazione di spyware dirottatori impedire l'installazione di spyware prevenire dirottatori l'installazione di adware / spyware e da altri parassiti indesiderati. Try our online scan now: http://[Spam Affiliate Link...edited]  Qu^1*t [Spam Affiliate Link...edited] Prova il nostro scansione on-line ora: http:// [Spam Link Affiliato a cura ...] Qu ^ 1 * t [Spam Link Affiliato a cura ...] 

The message headers are equally uninteresting for SpamBayes. Le intestazioni dei messaggi sono altrettanto poco interessante per SpamBayes. Here is what SpamBayes thinks about it. Ecco cosa pensa SpamBayes.

 Spam Score: 13% (0.130563)  word                                spamprob         #ham  #spam '*H*'                               0.740598            -      - '*S*'                               0.001723            -      - 'header:In-Reply-To:1'              0.0879684         164     78 'potentially'                       0.147771            8      6 'page'                              0.175691           91     96 'likely'                            0.195508           18     21 'installation'                      0.197697            8      9 'served'                            0.201793            7      8 'subject:: '                        0.227479          282    414 'software'                          0.241129          112    177 'change'                            0.247864           77    126 'suffering'                         0.252365            4      6 'download'                          0.254508           45     76 'to:addr:angsuman'                  0.262497          411    730 'header:Received:4'                 0.265284           88    158 'added'                             0.288257           29     58 'try'                               0.312818           57    129 'other'                             0.313797          171    390 'prevent'                           0.315326           12     27 'scan'                              0.345157            4     10 'being'                             0.34637            58    153 'very'                              0.360483           95    267 'skip:a 10'                         0.361028          183    516 'now:'                              0.370986           10     29 'that'                              0.375101          345   1034 'they'                              0.375572          101    303 'are'                               0.385233          349   1092 'reply-to:none'                     0.393789          504   1635 'here:'                             0.608336           15    117 'adware'                            0.653949            0      1 'unwanted'                          0.665617            2     21 '2005'                              0.79075             1     22 'spyware'                           0.820111            0      4 'url:discon'                        0.820111            0      4 'url:700'                           0.844931            0      5 Spam Punteggio: 13% (0.130563) spamprob parola prosciutto # # spam '* H *' 0,740598 - - '* S *' 0,001723 - - 'intestazione: In-Reply-To: 1' 0,0879684 164 78 'potenzialmente' 0,147771 8 6 'pagina' 0,175691 91 96 'probabile' 0,195508 18 21 'installazione' 0,197697 8 9 'servita' 0,201793 7 8 'argomento::' 0,227479 282 414 'software' 0,241129 112 177 'cambiamento' 0,247864 77 126 'sofferenza' 0,252365 4 6 'Download' 0,254508 45 76 ': addr: angsuman' 0,262497 411 730 'header: Received: 4' 0,265284 88 158 'aggiunto' 0,288257 29 58 'provare' 0,312818 57 129 'altri' 0,313797 171 390 'prevenire' 0,315326 12 27 'scansione' 0,345157 4 10 'essere' 0,34637 58 153 'molto' 0,360483 95 267 'saltare: un 10' 0,361028 183 516 'ora:' 0,370986 10 29 'che' 0,375101 345 1034 'si' 0,375572 101 303 'sono' 0,385233 349 1092 'reply-to: none' 0,393789 504 1635 'qui:' 0,608336 15 117 'adware' 0,653949 0 1 'indesiderati' 0,665617 2 21'2005 '0,79075 1 22' spyware '0,820111 0 4' url: discon '0,820111 0 4 'url: 700' 0,844931 0 5 

Handling this spam is very hard for a NBC. Manipolazione di questo spam è molto difficile per un NBC. It doesn’t include any of the standard keywords. Essa non comprende qualsiasi tipo di parole chiave. It doesn’t directly try to sell you anything. Non direttamente tenta di vendere nulla. The choice of language shows signs of an intelligent spammer. La scelta della lingua mostra segni di uno spammer intelligente. It includes lots of non-spammy yet contextually relevant words which lowers the score. Esso comprende i lotti di non-spammy ancora contestuale pertinenti parole che abbassa il cliente. The only spammy word (quit) has been masked. L'unica parola spammy (chiudere) è stato mascherato. It even includes ham words in the url. Esso comprende anche il prosciutto parole nell'URL.

To a human eye this is clearly a spam. Ad un occhio umano si tratta chiaramente di uno spam. However it is not to a computer. Tuttavia non è a un computer.

Note: You can possibly assign very high score to the words spyware or adware, but then they can always pollute the word space with misspellings. Nota: è possibile assegnare, eventualmente, molto elevato cliente le parole spyware o adware, ma poi si può sempre inquinare la parola spazio con errori ortografici. Also your friends may want to inform you about AdAware, a valid spyware removal tool. Anche i tuoi amici può essere utile per informarvi circa AdAware, un valido strumento di rimozione dello spyware.

We need layered spam removal approach at source to handle this type of spammers. Abbiamo bisogno di livelli di spam rimozione approccio alla fonte per gestire questo tipo di spammer.