Hoe de naïeve bayesian classificator kan ondoeltreffend worden gemaakt
Ik ontving enkel een e-mail die duidelijk spam is. Nochtans denkt SpamBayes dat er een .13% waarschijnlijkheid is dat het een spam is.
Ik heb een groot corpus - 623 goede en 3113 spamberichten.
In een vorige post die ik dat SpamBayes niet meer werkt voor me heb besproken. Dit is een goed voorbeeld aan dat effect.
Eerlijk gezegd zijn er niet veel SpamBayes of om het even welke naïef-bayesian-filter kan over het doen. Neem een blik bij het hieronder bericht.
Onderwerp: Re: Spyware De pictogrammen van de Desktop worden automatisch toegevoegd aan de Desktop? Het lijden aan Onverklaarde homepageverandering? Het is zeer waarschijnlijk dat zij omhoog door spywaresoftware worden gediend Probeer 2005 hoog-Geschat Vlekkenmiddel Spyware: Vrije Download hier: http:// [de uitgegeven Verbinding van het Filiaal Spam…] Verhinder de installatie van kapers spyware Verhinder de installatie van kapers spyware Verhinder de installatie van adware spyware en ander potentieel ongewenst ongedierte. Probeer nu ons online aftasten: http:// [de uitgegeven Verbinding van het Filiaal Spam…] Q-u^1*t [de uitgegeven Verbinding van het Filiaal Spam…]
De berichtkopballen zijn even uninteresting voor SpamBayes. Hier is wat SpamBayes over het denkt.
De Score van Spam: 13% (0.130563) woord spamprob #ham #spam „*H*“ 0.740598 - - „*S*“ 0.001723 - - „kopbal: In-antwoord-aan: 1“ 0.0879684 164 78 „potentieel“ 0.147771 8 6 „pagina“ 0.175691 91 96 „waarschijnlijk“ 0.195508 18 21 „installatie“ 0.197697 8 9 „gediend“ 0.201793 7 8 „onderwerp:: “ 0.227479 282 414 „software“ 0.241129 112 177 „verandering“ 0.247864 77 126 „lijdend“ 0.252365 4 6 „download“ 0.254508 45 76 „aan: addr: angsuman“ 0.262497 411 730 „kopbal: Ontvangen: 4“ 0.265284 88 158 „toegevoegd“ 0.288257 29 58 „probeer“ 0.312818 57 129 „andere“ 0.313797 171 390 „verhinder“ 0.315326 12 27 „aftasten“ 0.345157 4 10 „zijnd“ 0.34637 58 153 „zeer“ 0.360483 95 267 „skip: 10“ 0.361028 183 516 „nu: “ 0.370986 10 29 „dat“ 0.375101 345 1034 „zij“ 0.375572 101 303 „zijn“ 0.385233 349 1092 „antwoord-aan: niets“ 0.393789 504 1635 „hier: “ 0.608336 15 117 „adware“ 0.653949 0 1 „ongewenst“ 0.665617 2 21 „2005“ 0.79075 1 22 „spyware“ 0.820111 0 4 „url: discon“ 0.820111 0 4 „url: 700“ 0.844931 0 5
De behandeling van dit spam is zeer hard voor NBC-. Het omvat om het even welke standaardsleutelwoorden niet. Het probeert niet direct om u te verkopen om het even wat. De keus van taal toont tekens van een intelligente spammer. Het omvat nog veel nietspammy contextueel relevante woorden wat de score vermindert. Het enige spammy (opgehouden met) woord is gemaskeerd. Het omvat zelfs hamwoorden in url.
Aan een menselijk oog is dit duidelijk een spam. Nochtans is het niet aan een computer.
Nota: U kunt zeer hoge score aan de woorden misschien toewijzen spyware of adware, maar anderzijds kunnen zij de woordruimte met spellingfouten altijd verontreinigen. Ook kunnen uw vrienden u over AdAware, een geldig hulpmiddel van de spywareverwijdering willen informeren.
Wij hebben gelaagde spam verwijderingsbenadering bij bron nodig om dit type van spammers te behandelen.
Filed onder Spam Horloge, Technologie, Web |
|
RSS 2.0 |
Trackback dit Artikel |
E-mail dit Artikel
U kunt ook van houden te lezen |




































20 maart, 2005 bij 11:51 am
De Filter van Bayessche sind nur bedingt wirksam
De eenvoudige Gedachten stellt ein sPAM-Beispiel vor, een matrijs Zähne van de DEM sich Filter Bayessche ausbeissen. Ich habe von solcher Filterei noch nie viel gehalten, vor allem, weil mal van mensendazu erst matrijzen ganze E-mail empfangen muss. IST van Viel besser…
4 mei, 2005 bij 1:17 am
hru [...] een verbinding, kansen URL van uw voortkomende plaats bevat sommige van deze sleutelwoorden is. Spammers wordt slimmer. Het is een neve [...]