/ Forside / Teknologi / Operativsystemer / Linux / Nyhedsindlæg
Login
Glemt dit kodeord?
Brugernavn

Kodeord


Reklame
Top 10 brugere
Linux
#NavnPoint
o.v.n. 11177
peque 7911
dk 4814
e.c 2359
Uranus 1334
emesen 1334
stone47 1307
linuxrules 1214
Octon 1100
10  BjarneD 875
Bayesian filtrering i Spamassassin
Fra : Søren Reinke


Dato : 25-01-05 14:43

Hejsa

Jeg har et lille problem med brug af Bayesian filter i Spamassassin.

Det jeg har gjort er at alle de mails som Thunderbird markede som
værende 'junk' move jeg til en imap konto på min server kaldet 'spam'.
Jeg har flyttet alt min ok post til en konto der hedder 'ham' og har så
oplært Spamassassin med:

sa-learn --spam --showdots *
sa-learn --ham --showdots *

selvfølgelig stående i de korrekte folders for mail på serveren.

Jeg er Root når jeg gør det, da jeg ønsker alle brugere skal havde glæde
af filtreringen.

Men jeg synes ikke spamassassin er blevet en brik bedre til at filtrere,
og jeg kan se når jeg kigger på den's bedømmelse af mails, at den MEGET
sjældent skriver noget om at det er det 'bayesian' filter der har givet
point.

Min /etc/spamassassin/local.cf er i bunden af denne posting, den er
lavet via en online config sag jeg fandt + lidt extra:

Er der nogen der kan se en fejl i den, eller noget andet jeg gør helt
forkert ?

Med venlig hilsen
Søren Reinke






bayes_path /var/spool/spamassassin/bayes
bayes_file_mode 0666

# SpamAssassin config file for version 2.5x
# NOTE: INCOMPATIBLE WITH SPAMASSASSIN 2.6 AND 3.0 AT THIS TIME.
# generated by http://www.yrex.com/spam/spamconfig.php (version 1.01)

# How many hits before a message is considered spam.
required_hits 5.0

# Whether to change the subject of suspected spam
rewrite_subject 1

# Text to prepend to subject if rewrite_subject is used
subject_tag [SPAM]

# Encapsulate spam in an attachment
report_safe 0

# Use terse version of the spam report
use_terse_report 0

# Enable the Bayes system
use_bayes 1

# Enable Bayes auto-learning
auto_learn 0

# Enable or disable network checks
skip_rbl_checks 0
use_razor2 1
use_dcc 1
use_pyzor 1

# Mail using languages used in these country codes will not be marked
# as being possibly spam in a foreign language.
ok_languages all

# Mail using locales used in these country codes will not be marked
# as being possibly spam in a foreign language.
ok_locales all


 
 
Mikkel Bundgaard (25-01-2005)
Kommentar
Fra : Mikkel Bundgaard


Dato : 25-01-05 17:54

Hej,


Jeg tror dit problem er, at du ikke har nok spam/ham mails. Spamassassin
har et threshold inden den begynder at bruge baysian som filter.

Prøv at tilføje følgende:
bayes_min_ham_num 10
bayes_min_spam_num 10

Ovenstående betyder at den begynde allerede efter 10 oplærte mails.

Jeg kører så mit spamassassin gennem procmail istedet. Ved ikke om det
har nogen betydning for spamassassin. Men ovenstående virkede for
mig.(standard er den vidst sat til 1000 mails).


Hilsen Mikkel

Søren Reinke wrote:
> Hejsa
>
> Jeg har et lille problem med brug af Bayesian filter i Spamassassin.
>
> Det jeg har gjort er at alle de mails som Thunderbird markede som
> værende 'junk' move jeg til en imap konto på min server kaldet 'spam'.
> Jeg har flyttet alt min ok post til en konto der hedder 'ham' og har så
> oplært Spamassassin med:
>
> sa-learn --spam --showdots *
> sa-learn --ham --showdots *
>
> selvfølgelig stående i de korrekte folders for mail på serveren.
>
> Jeg er Root når jeg gør det, da jeg ønsker alle brugere skal havde glæde
> af filtreringen.
>
> Men jeg synes ikke spamassassin er blevet en brik bedre til at filtrere,
> og jeg kan se når jeg kigger på den's bedømmelse af mails, at den MEGET
> sjældent skriver noget om at det er det 'bayesian' filter der har givet
> point.
>
> Min /etc/spamassassin/local.cf er i bunden af denne posting, den er
> lavet via en online config sag jeg fandt + lidt extra:
>
> Er der nogen der kan se en fejl i den, eller noget andet jeg gør helt
> forkert ?
>
> Med venlig hilsen
> Søren Reinke
>
>
>
>
>
>
> bayes_path /var/spool/spamassassin/bayes
> bayes_file_mode 0666
>
> # SpamAssassin config file for version 2.5x
> # NOTE: INCOMPATIBLE WITH SPAMASSASSIN 2.6 AND 3.0 AT THIS TIME.
> # generated by http://www.yrex.com/spam/spamconfig.php (version 1.01)
>
> # How many hits before a message is considered spam.
> required_hits 5.0
>
> # Whether to change the subject of suspected spam
> rewrite_subject 1
>
> # Text to prepend to subject if rewrite_subject is used
> subject_tag [SPAM]
>
> # Encapsulate spam in an attachment
> report_safe 0
>
> # Use terse version of the spam report
> use_terse_report 0
>
> # Enable the Bayes system
> use_bayes 1
>
> # Enable Bayes auto-learning
> auto_learn 0
>
> # Enable or disable network checks
> skip_rbl_checks 0
> use_razor2 1
> use_dcc 1
> use_pyzor 1
>
> # Mail using languages used in these country codes will not be marked
> # as being possibly spam in a foreign language.
> ok_languages all
>
> # Mail using locales used in these country codes will not be marked
> # as being possibly spam in a foreign language.
> ok_locales all
>

Søren Reinke (25-01-2005)
Kommentar
Fra : Søren Reinke


Dato : 25-01-05 18:01


> Hejsa
>
> Jeg har et lille problem med brug af Bayesian filter i Spamassassin.
>
> Det jeg har gjort er at alle de mails som Thunderbird markede som
> værende 'junk' move jeg til en imap konto på min server kaldet 'spam'.
> Jeg har flyttet alt min ok post til en konto der hedder 'ham' og har så
> oplært Spamassassin med:
>
> sa-learn --spam --showdots *
> sa-learn --ham --showdots *

Hmm nu flippede Thunderbird lige.

Nå tak for tippet med:
bayes_min_ham_num 10
bayes_min_spam_num 10

Jeg har indsat det og venter med spænding.

Hilsen
Søren Reinke

Jesper G. Poulsen (03-02-2005)
Kommentar
Fra : Jesper G. Poulsen


Dato : 03-02-05 11:27

Søren Reinke wrote:

> værende 'junk' move jeg til en imap konto på min server kaldet 'spam'.
> Jeg har flyttet alt min ok post til en konto der hedder 'ham' og har

Hvor mange mails har du af hver type?

Jeg har oplært min med ca. 150 mails af hver... Og den rammer
fortrinligt. Der er ingen falske positiver og højst et par procent
bliver ikke fanget.

> så oplært Spamassassin med:
> sa-learn --spam --showdots *
> sa-learn --ham --showdots *
> selvfølgelig stående i de korrekte folders for mail på serveren.

Det har jeg ikke fået til at virke. Jeg har skullet stå i parent-dir og
skrive:

sa-learn --ham --showdots ./.ham/

- idet min ham-mappe er en undermappe til Inbox i Squirrelwebmail.
Tilsvarende for spam.

> Jeg er Root når jeg gør det, da jeg ønsker alle brugere skal havde
> glæde af filtreringen.

God idé. Mine brugere har også fuld glæde af min indlæring.

> filtrere, og jeg kan se når jeg kigger på den's bedømmelse af mails,
> at den MEGET sjældent skriver noget om at det er det 'bayesian'
> filter der har givet point.

Selve 'bayesian spam probability' giver ikke meget...

En tilfældig header:

X-Spam-Status: Yes, score=21.5 required=5.0 tests=BAYES_99,HTML_80_90,
   HTML_IMAGE_ONLY_12,HTML_MESSAGE,PERCENT_RANDOM,RCVD_HELO_IP_MISMATCH,
   RCVD_NUMERIC_HELO,URIBL_OB_SURBL,URIBL_SBL,URIBL_SC_SURBL,
   URIBL_WS_SURBL autolearn=no version=3.0.2
X-Spam-Report:
   * 2.2 RCVD_HELO_IP_MISMATCH Received: HELO and IP do not match, but
should
   * 1.2 RCVD_NUMERIC_HELO Received: contains an IP address used for HELO
   * 2.9 HTML_IMAGE_ONLY_12 BODY: HTML: images with 800-1200 bytes of
words
   * 0.1 HTML_80_90 BODY: Message is 80% to 90% HTML
   * 0.0 HTML_MESSAGE BODY: HTML included in message
   * 1.9 BAYES_99 BODY: Bayesian spam probability is 99 to 100%
   * [score: 0.9996]
   * 1.0 URIBL_SBL Contains an URL listed in the SBL blocklist
   * [URIs: arecomparablein.com]
   * 1.5 URIBL_WS_SURBL Contains an URL listed in the WS SURBL blocklist
   * [URIs: arecomparablein.com]
   * 3.2 URIBL_OB_SURBL Contains an URL listed in the OB SURBL blocklist
   * [URIs: arecomparablein.com]
   * 4.3 URIBL_SC_SURBL Contains an URL listed in the SC SURBL blocklist
   * [URIs: arecomparablein.com]
   * 3.1 PERCENT_RANDOM PERCENT_RANDOM

> Min /etc/spamassassin/local.cf er i bunden af denne posting, den er
> Er der nogen der kan se en fejl i den, eller noget andet jeg gør helt
> forkert ?

Hvilken version af SpamAssassin bruger du?

Der blev nemlig ændret i kommandosættet fra version 3.0 :-/

> bayes_path /var/spool/spamassassin/bayes
> bayes_file_mode 0666

Dem har jeg ikke. Hvad gør de?

> required_hits 5.0

Check

> rewrite_subject 1
> subject_tag [SPAM]

Fra version 3.0:

rewrite_header subject      [SPAM]

> report_safe 0

Check

> use_terse_report 0

Check

> use_bayes 1

Check

> auto_learn 0

Den har jeg sat til '1'

Samtidig har jeg disse:

bayes_auto_learn_threshold_spam 7.00
bayes_auto_learn_threshold_nospam 2.50

> skip_rbl_checks 0
> use_razor2 1
> use_dcc 1
> use_pyzor 1

Check

> ok_languages all
> ok_locales all

Der har jeg:

ok_languages en da de no sv
ok_locales en da de no sv

Desuden har jeg:

use_auto_whitelist 1


--
Med venlig hilsen
Jesper G. Poulsen - Linux Registered User #316493
- Look, this is Debian. They don’t release things until you have to
fire rockets at the thing to stop it working

Søg
Reklame
Statistik
Spørgsmål : 177558
Tips : 31968
Nyheder : 719565
Indlæg : 6408929
Brugere : 218888

Månedens bedste
Årets bedste
Sidste års bedste