How naive bayesian classifier can be made ineffective如何樸素貝葉斯分類可以作出無效
I just received an email which is clearly spam.我剛收到一封電子郵件,這顯然是垃圾郵件。 However SpamBayes thinks that there is a .13% probability that it is a spam.不過spambayes認為是有0.13 %的概率,這是一個垃圾郵件。
I have a big corpus - 623 good and 3113 spam messages.我有一個大的語料庫-6 23良好和3 113的垃圾郵件。
In a previous post I discussed that在先前的我討論後認為, SpamBayes is not working for me anymore spambayes是沒有工作,我再 . 。 This is a good example to that effect.這是一個很好的例子,即行生效。
Frankly there isn’t much SpamBayes or any naive-bayesian-filter can do about it.坦白說有沒有太大的spambayes或任何幼稚-貝葉斯過濾器可以做的有關情況。 Take a look at the message below.考慮一下以下訊息。
Subject: Re: Spyware Desktop icons are automatically added to the desktop ?主題: Re :間諜軟件的桌面圖標會自動添加到桌面? Suffering from Unexplained home page change ?患有原因不明的首頁改變? It's very likely that they are being served up by spyware software Try 2005 Highest-Rated Spyware Remover: Free Download Here: http://[Spam Affiliate Link...edited] Prevent the installation of hijackers spyware Prevent the installation of hijackers spyware Prevent the installation of adware spyware and other potentially unwanted pests.它的很可能他們正在送達由間諜軟件嘗試2005年的最高額定間諜軟件清除:在這裡免費下載網址: http:// [垃圾郵件聯盟連結...編輯]防止安裝劫機者間諜軟件,防止安裝間諜軟件,防止劫機安裝廣告軟件間諜軟件和其他可能有害的害蟲。 Try our online scan now: http://[Spam Affiliate Link...edited] Qu^1*t [Spam Affiliate Link...edited]嘗試我們的在線掃描現在網址: http:// [垃圾郵件聯盟連結...編輯]曲^ 1 *噸[垃圾郵件聯盟連結...編輯]
The message headers are equally uninteresting for SpamBayes.郵件標題都是同樣枯燥為spambayes 。 Here is what SpamBayes thinks about it.這裡是什麼spambayes認為它。
Spam Score: 13% (0.130563) word spamprob #ham #spam '*H*' 0.740598 - - '*S*' 0.001723 - - 'header:In-Reply-To:1' 0.0879684 164 78 'potentially' 0.147771 8 6 'page' 0.175691 91 96 'likely' 0.195508 18 21 'installation' 0.197697 8 9 'served' 0.201793 7 8 'subject:: ' 0.227479 282 414 'software' 0.241129 112 177 'change' 0.247864 77 126 'suffering' 0.252365 4 6 'download' 0.254508 45 76 'to:addr:angsuman' 0.262497 411 730 'header:Received:4' 0.265284 88 158 'added' 0.288257 29 58 'try' 0.312818 57 129 'other' 0.313797 171 390 'prevent' 0.315326 12 27 'scan' 0.345157 4 10 'being' 0.34637 58 153 'very' 0.360483 95 267 'skip:a 10' 0.361028 183 516 'now:' 0.370986 10 29 'that' 0.375101 345 1034 'they' 0.375572 101 303 'are' 0.385233 349 1092 'reply-to:none' 0.393789 504 1635 'here:' 0.608336 15 117 'adware' 0.653949 0 1 'unwanted' 0.665617 2 21 '2005' 0.79075 1 22 'spyware' 0.820111 0 4 'url:discon' 0.820111 0 4 'url:700' 0.844931 0 5垃圾郵件評分: 13 % ( 0.130563 )字spamprob #火腿#垃圾郵件' *高* ' 0.740598 -- '* s * ' 0 . 001723-- '標題:在-回复: 1 '0 . 0 8 79684一六四七八'可能' 0 .1 4 77716月8日'頁' 0.175691 91 96 '可能' 0.195508 18 21 '安裝' 0.197697 9月8日'服務' 0.201793 8月7日'的主題: : ' 0.227479二八二四一四'軟件' 0.241129一一二一七七'更改' 0.247864七七一二六'痛苦' 0.252365 4月6日'下載' 0.254508四五七六'到:地址:由Angsuman ' 0.262497四一一七三〇 '標題:收到: 4 ' 0.265284八八一五八'說, ' 0.288257二九五八'試試' 0.312818五七一二九'其他' 0.313797一七一三九○ ' ,防止' 0.315326 12月27日'掃描' 0.345157 10月4日'正' 0.34637五八一五三'非常' 0.360483九五二六七'跳到: 10 ' 0.361028一八三五一六'現在: ' 0.370986 10月29日' ' 0.375101三四五一零三四'他們' 0.375572一○一三○三'是' 0.385233三四九一零九二'回复到:沒有' 0.393789五零四一六三五'在這裡: ' 0.608336一五一一七'廣告' 0.653949 0 1 '不想要' 0.665617 2月21日2005 ' 0.79075 1月22日'間諜軟件' 0.820111 0 4 '網址: discon ' 0.820111 0 4 '網址: 700 ' 0.844931 0 5 Handling this spam is very hard for a NBC.處理垃圾郵件,這是很困難的一個全國廣播公司。 It doesn’t include any of the standard keywords.它不包括任何標準的關鍵字。 It doesn’t directly try to sell you anything.它並不直接嘗試出售給您什麼。 The choice of language shows signs of an intelligent spammer.選擇的語言有跡象顯示一種智能型垃圾郵件發送者。 It includes lots of non-spammy yet contextually relevant words which lowers the score.它包括大量的非垃圾,但內容相關的字眼,降低評分。 The only spammy word (quit) has been masked.唯一的垃圾字(退出)已蒙面。 It even includes ham words in the url.它甚至包括火腿換言之,在該網址。
To a human eye this is clearly a spam.一個人眼這顯然是垃圾郵件。 However it is not to a computer.不過,這不是一部電腦。
Note: You can possibly assign very high score to the words spyware or adware, but then they can always pollute the word space with misspellings.注意:您可以在可能的轉讓非常高的評分的話間諜軟件或廣告軟件,但後來他們可以隨時污染一詞空間與拼寫錯誤等。 Also your friends may want to inform you about AdAware, a valid spyware removal tool.此外,您的朋友可能會想要告訴你,約adaware ,一個有效的間諜軟件刪除工具。
We need layered spam removal approach at source to handle this type of spammers.我們需要分層垃圾郵件清除辦法從源頭上處理這種類型的垃圾郵件發送者。
Filed under提起下 Spam Watch垃圾郵件觀賞 , , Technology技術 , , Web網頁 | |
| |
RSS 2.0 2.0 | |
Email this Article電子郵件此文章
You may also like to read您也可以想讀 |





March 20th, 2005 at 11:51 am 2005年3月20日在上午11時51分
Bayessche Filter sind nur bedingt wirksam bayessche濾波器的信德努爾bedingt wirksam
Simple Thoughts stellt ein SPAM-Beispiel vor, an dem sich Bayessche Filter die Zähne ausbeissen.簡單的思考stellt艾因垃圾郵件beispiel的VOR ,數字高程模型的Sich bayessche過濾器模具zähne ausbeissen 。 Ich habe von solcher Filterei noch nie viel gehalten, vor allem , weil man dazu erst mal die ganze E-Mail empfangen muss.腦出血habe馮solcher filterei noch聶viel gehalten ,的VOR allem ,韋伊男子大足erst仲裁法模具甘孜電子郵件empfangen muss 。 Viel besser ist… viel besser漲跌…
May 4th, 2005 at 1:17 am 2005年5月4日在上午01時17分
[...] hru a link, chances are the URL of your originating site contains some of these keywords. [ … … ]人權股一個鏈接,有機會的URL ,您的原產網站包含一些這些關鍵字。 Spammers are getting smarter.垃圾郵件發送者正在變得更聰明了。 It’sa neve [...]這是neve [ … … ]