Comment le classificateur bay�sien na�f peut �tre rendu inefficace
J'ai juste re�u un email qui est clairement Spam. Cependant SpamBayes pense qu'il y a une .13% probabilit� que c'est un Spam.
J'ai un grand corpus - 623 3113 de Spam messages bons et.
Dans un poteau pr�c�dent j'ai discut� que SpamBayes ne fonctionnera plus pour moi. C'est un bon exemple � cet effet.
Franchement il n'y a pas beaucoup de SpamBayes ou n'importe quel na�f-bay�sien-filtre peut faire � son sujet. Jetez un coup d'oeil au message ci-dessous.
Objet : Re : Spyware Des ic�nes de bureau sont automatiquement ajout�es � l'ordinateur de bureau ? Souffrance du changement non expliqu� de page d'accueil ? Il est tr�s probable qu'elles soient servies vers le haut par le logiciel de spyware Solvant Highest-Rated de Spyware de l'essai 2005 : T�l�chargement gratuit ici : http:// [lien de filiale de Spam �dit�] Emp�chez l'installation du spyware de pirates de l'air Emp�chez l'installation du spyware de pirates de l'air Emp�chez l'installation du spyware d'adware et d'autres parasites potentiellement non d�sir�s. Essayez notre balayage en ligne maintenant : http:// [lien de filiale de Spam �dit�] Q-u^1*t [lien de filiale de Spam �dit�]
Les en-t�tes de message sont �galement inint�ressants pour SpamBayes. Voici ce que SpamBayes pense cela.
Points de Spam : 13% (0.130563) mot spamprob #spam de #ham ��*H*�� 0.740598 - - ��*S*�� 0.001723 - - ��en-t�te : Dans-R�pondre-� : 1�� 0.0879684 164 78 ��potentiellement�� 0.147771 8 6 ��page�� 0.175691 91 96 ��probablement�� 0.195508 18 21 ��installation�� 0.197697 8 9 ��servi�� 0.201793 7 8 ��sujet : : �� 0.227479 282 414 ��logiciel�� 0.241129 112 177 ��changez�� 0.247864 77 126 ��douleur�� 0.252365 4 6 ��t�l�chargement�� 0.254508 45 76 ��� : addr : angsuman�� 0.262497 411 730 ��en-t�te : Re�u : 4�� 0.265284 88 158 ��suppl�mentaire�� 0.288257 29 58 ��essai�� 0.312818 57 129 ��autre�� 0.313797 171 390 ��emp�chez�� 0.315326 12 27 ��balayez�� 0.345157 4 10 ���tant�� 0.34637 58 153 ��tr�s�� 0.360483 95 267 ��saut : des 10�� 0.361028 183 516 ��maintenant : �� 0.370986 10 29 ��cela�� 0.375101 345 1034 ��ils�� 0.375572 101 303 ��soyez�� 0.385233 349 1092 ��r�pondre-� : aucun�� 0.393789 504 1635 ��ici : �� 0.608336 15 117 ��adware�� 0.653949 0 1 ��non d�sir頻 0.665617 2 21 ��2005�� 0.79075 1 22 ��spyware�� 0.820111 0 4 ��URL : discon�� 0.820111 0 4 ��URL : 700�� 0.844931 0 5
La manipulation de ce Spam est tr�s dure pour un NBC. Elle n'inclut pas des mots-cl�s standard l'uns des. Elle n'essaye pas directement de vous vendre quelque chose. Le choix de la langue montre des signes d'un inondateur intelligent. Il inclut un bon nombre de mots non-spammy pourtant contextuel appropri�s qui abaisse les points. Le seul mot spammy (stopp�) a �t� masqu�. Il inclut m�me des mots de jambon dans l'URL.
� un oeil humain c'est clairement un Spam. Cependant il n'est pas � un ordinateur.
Note : Vous pouvez probablement assigner les points tr�s hauts au spyware ou � l'adware de mots, mais d'autre part ils peuvent toujours polluer l'espace de mot avec des fautes d'orthographe. �galement vos amis peuvent vouloir vous informer au sujet d'AdAware, un outil valide d'enl�vement de spyware.
Nous avons besoin de l'approche pos�e de d�placement de Spam � la source pour manipuler ce type d'inondateurs.
Class� sous la montre de Spam, technologie, Web |�
� |
� RSS 2.0 | �
� Envoyez cet article
Vous pouvez �galement aimer lire |

