Ik ontving enkel een e-mail die duidelijk spam is. Nochtans denkt SpamBayes dat er een .13% waarschijnlijkheid is dat het een spam is.

Ik heb een groot corpus - 623 goede en 3113 spamberichten.

In een vorige post die ik dat SpamBayes niet meer werkt voor me heb besproken. Dit is een goed voorbeeld aan dat effect.

Eerlijk gezegd zijn er niet veel SpamBayes of om het even welke naïef-bayesian-filter kan over het doen. Neem een blik bij het hieronder bericht.

Onderwerp: Re: Spyware

De pictogrammen van de Desktop worden automatisch toegevoegd aan de Desktop?
Het lijden aan Onverklaarde homepageverandering?

Het is zeer waarschijnlijk dat zij omhoog door spywaresoftware worden gediend

Probeer 2005 hoog-Geschat Vlekkenmiddel Spyware:

Vrije Download hier: http:// [de uitgegeven Verbinding van het Filiaal Spam…]

Verhinder de installatie van kapers spyware
Verhinder de installatie van kapers spyware
Verhinder de installatie van adware spyware
en ander potentieel ongewenst ongedierte.

Probeer nu ons online aftasten: http:// [de uitgegeven Verbinding van het Filiaal Spam…]

Q-u^1*t [de uitgegeven Verbinding van het Filiaal Spam…]

De berichtkopballen zijn even uninteresting voor SpamBayes. Hier is wat SpamBayes over het denkt.

De Score van Spam: 13% (0.130563)

woord                                spamprob         #ham  #spam
„*H*“                               0.740598            -      -
„*S*“                               0.001723            -      -
„kopbal: In-antwoord-aan: 1“              0.0879684         164     78
„potentieel“                       0.147771            8      6
„pagina“                              0.175691           91     96
„waarschijnlijk“                            0.195508           18     21
„installatie“                      0.197697            8      9
„gediend“                            0.201793            7      8
„onderwerp:: “                        0.227479          282    414
„software“                          0.241129          112    177
„verandering“                            0.247864           77    126
„lijdend“                         0.252365            4      6
„download“                          0.254508           45     76
„aan: addr: angsuman“                  0.262497          411    730
„kopbal: Ontvangen: 4“                 0.265284           88    158
„toegevoegd“                             0.288257           29     58
„probeer“                               0.312818           57    129
„andere“                             0.313797          171    390
„verhinder“                           0.315326           12     27
„aftasten“                              0.345157            4     10
„zijnd“                             0.34637            58    153
„zeer“                              0.360483           95    267
„skip: 10“                         0.361028          183    516
„nu: “                              0.370986           10     29
„dat“                              0.375101          345   1034
„zij“                              0.375572          101    303
„zijn“                               0.385233          349   1092
„antwoord-aan: niets“                     0.393789          504   1635
„hier: “                             0.608336           15    117
„adware“                            0.653949            0      1
„ongewenst“                          0.665617            2     21
„2005“                              0.79075             1     22
„spyware“                           0.820111            0      4
„url: discon“                        0.820111            0      4
„url: 700“                           0.844931            0      5

De behandeling van dit spam is zeer hard voor NBC-. Het omvat om het even welke standaardsleutelwoorden niet. Het probeert niet direct om u te verkopen om het even wat. De keus van taal toont tekens van een intelligente spammer. Het omvat nog veel nietspammy contextueel relevante woorden wat de score vermindert. Het enige spammy (opgehouden met) woord is gemaskeerd. Het omvat zelfs hamwoorden in url.

Aan een menselijk oog is dit duidelijk een spam. Nochtans is het niet aan een computer.

Nota: U kunt zeer hoge score aan de woorden misschien toewijzen spyware of adware, maar anderzijds kunnen zij de woordruimte met spellingfouten altijd verontreinigen. Ook kunnen uw vrienden u over AdAware, een geldig hulpmiddel van de spywareverwijdering willen informeren.

Wij hebben gelaagde spam verwijderingsbenadering bij bron nodig om dit type van spammers te behandelen.