Jak na filtrování SPAMu

Ahoj. Nainstaloval jsem na Příšerku spamassasina a nějakou dobu ho používal na otestování. Musím uznat že jeho úspěšnost je okolo 90 - 95% což je skvělé. Vzhledem k tomu že v mém mailboxu začal pomalu spam převládat nad skutečnou poštou, vrhnul jsem se do testování a nakonec i nasazení tohohle řešení.


Spamassassin funguje tak, že podrobí každý mail pečlivému zkoumání, a pokud najde více příznaků které jsou tipické pro SPAM (porno, HTML mail, vše velkými písmeny atd), označí mail jako spam takže se dá třídit. Nemůže být 100procentně úspěšný, ale po mém měsíčním testu mu prošel jen jeden spam, a omylem jako spam neoznačil žádný regulérní mail. Líbí ? CHcete to taky ? Nic snažšího, čtěte dál.

Jak na to ?

Soubor .procmailrc zkontroluje všechny maily menší než 256kb a případně je označí jako spam (prvni pravidlo) a označené uloží do folderu "spam" (druhé pravidlo).
:0fw
* < 256000
| spamc

:0:
* ^X-Spam-Status: Yes
$HOME/mail/spam

Pokud poštu nečtete přímo pinem na příšerce ale třeba v outlooku, ponechte jen první pravidlo a třídění spamů podle hlavičky ponechte klidně až na outlooku.

Proti stále novým a novým spamům se však standardní sady pravidel ukazují jako stále méně efektivní. Náš spamassasin však naštěstí umí tzv bayes analízu. Potřebuje k tomu však znát dostatečný počet HAMů (reálných mailů) a SPAMů, aby začal fungovat. Defaultně začne fungovat až když zná minimálně 200 spamů a 200 hamů.

Jak ho to naučit ? Předně, on se učí sám. Maily, které jsou podle jeho standardních pravidel 100pro spam se naučí jako SPAM, a ty co jsou 100pro čisté se naučí jako HAM.

Jak zistit kolik jakých mailů už zná ? Zkuste:
(prisera).ml:~$ sa-learn --dump magic
0.000          0          2          0  non-token data: bayes db version
0.000          0        769          0  non-token data: nspam
0.000          0       3973          0  non-token data: nham
.
.
.

Jak vidíte, můj spamassasin zná 769 spamů, a 3973 hamů. Čím více, tím je detekce lepší. ALe pokud jedno z tech čísel je menší než 200, filtr neni aktivní.

Takže pro zprovoznění téhle featurky doporučuji.

Přeji příjemné učení spamassassina a co nejméně prudy se SPAMem.

Zpět