Хотелось бы специально подчеркнуть, что не существует решения, гарантированно работающего без ложных срабатываний, и не существует специальной кнопки или конфигурационного параметра "Сделать все зашибись", решающей все проблемы.
Надеюсь, понимание логики работы антиспам-систем поможет как тем, кто борется со спамом, так и рядовым пользователям, сталкивающимся с работой спам-фильтров.
Итак, вот реальные заголовки письма, недавно пришедшего в нашу систему (отправитель и получатель изменены):
Код: Выделить всё
Return-Path: <imaginary_user@mail.ru>
Delivered-To: imaginary_recipient@trinitygroup.ru
X-Spam-Checker-Version: SpamAssassin 3.3.2 (2011-06-06) on reed.trinitygroup.ru
X-Spam-Flag: YES
X-Spam-Level: *******
X-Spam-Status: Yes, score=7.2 required=5.0 tests=BAYES_50,FREEMAIL_FROM,
HELO_NO_DOMAIN,HTML_MESSAGE,RATWARE_MPOP_WEBMAIL,RCVD_IN_BRBL_LASTEXT,
RCVD_IN_PBL,RDNS_NONE,T_FREEMAIL_DOC_PDF,USER_IN_WHITELIST_TO
autolearn=disabled version=3.3.2
X-Spam-Report: * 3.3 RCVD_IN_PBL RBL: Received via a relay in Spamhaus PBL
* [95.24.102.218 listed in zen.spamhaus.org]
* 1.4 RCVD_IN_BRBL_LASTEXT RBL: RCVD_IN_BRBL_LASTEXT
* [95.24.102.218 listed in bb.barracudacentral.org]
* 2.0 RATWARE_MPOP_WEBMAIL Bulk email fingerprint (mPOP Web-Mail)
* 0.1 FREEMAIL_FROM Sender email is commonly abused enduser mail provider
* (imaginary_user[at]mail.ru)
* -3.5 USER_IN_WHITELIST_TO User is listed in 'whitelist_to'
* 0.1 HTML_MESSAGE BODY: HTML included in message
* 2.0 BAYES_50 BODY: Bayes spam probability is 40 to 60%
* [score: 0.5000]
* 0.8 RDNS_NONE Delivered to internal network by a host with no rDNS
* 0.4 HELO_NO_DOMAIN Relay reports its domain incorrectly
* 0.5 T_FREEMAIL_DOC_PDF MS document or PDF attachment, from freemail
Received: (qmail 578 invoked from network); 21 Mar 2012 10:02:18 +0400
Received: from f216.mail.ru ([192.168.0.30])
by reed.trinitygroup.ru ([192.168.149.160])
with ESMTP via TCP; 21 Mar 2012 10:02:07 +0400
DKIM-Signature: v=1; a=rsa-sha256; q=dns/txt; c=relaxed/relaxed; d=mail.ru; s=mail;
h=Message-Id:Content-Type:Reply-To:Date:Mime-Version:Subject:To:From;
bh=jCXtQAQqQfjvgvGEm4hgqXZdhonpZr5NwD2OCHN+rgs=;
b=1szZtzPzB78mwTFwFfz+dtYQHWxYopEhqPjQjUw6op9zxCnBa09AgGm2U3Z8llrmLqLJMWvT8Gt10kKBokbVPtoiJITLmA5r0PTVJhz
+4+NjoEhiCQ/XwgZ9PY0f/E/df;
Received: from mail by f216.mail.ru with local (envelope-from <imaginary_user@mail.ru>)
id 1SAEcY-0003Eo-NP
for imaginary_recipient@trinitygroup.ru; Wed, 21 Mar 2012 10:02:06 +0400
Received: from [95.24.102.218] by e.mail.ru with HTTP;
Wed, 21 Mar 2012 10:02:06 +0400
From: Иван Петров <imaginary_user@mail.ru>
To: Василий Сидоров <imaginary_recipient@trinitygroup.ru>
Subject: * SPAM 7.2/5.0
BAYES_50,FREEMAIL_FROM,HELO_NO_DOMAIN,HTML_MESSAGE,RATWARE_MPOP_WEBMAIL,RCVD_IN_BRBL_LASTEXT,RCVD_IN_PBL,
RDNS_NONE,T_FREEMAIL_DOC_PDF,USER_IN_WHITELIST_TO
* Fwd: документация для клиента
Mime-Version: 1.0
X-Mailer: mPOP Web-Mail 2.19
X-Originating-IP: [95.24.102.218]
Date: Wed, 21 Mar 2012 10:02:06 +0400
Reply-To: Иван Петров <imaginary_user@mail.ru>
X-Priority:
Content-Type: multipart/mixed;
boundary="----kuae2v9Y-1rfifDDTSYY8KSe0:1332309726"
Message-Id: <E1SAEcY-0003Eo-NP.imaginary_user-mail-ru@f216.mail.ru>
X-Spam: Not detected
X-Mras: Ok
X-Spam-Prev-Subject: Fwd: документация для клиента
Давайте разберем ответ спам-фильтра по пунктам:
1. RCVD_IN_PBL, наибольший вес (3.3). Вопрос: как mail.ru попал в этот список? Ответ: в списке не сервер, а клиент - 95.24.102.218. Клиент — абонент Корбины, они, очевидно, не очень-то заботятся о проблеме спама, соответвенно, несколько зараженных машин в их сети — и они в блэклистах.
2. RCVD_IN_BRBL_LASTEXT (1.4) — аналогично п.1
3. RATWARE_MPOP_WEBMAIL (2.0). Письмо имеет заголовок, аналогичный тому, что пишут веб-клиенты, что является типичным поведением спамеров. В настоящее время мне это представляется источником ложных срабатываний, и вес будет уменьшен.
4. FREEMAIL_FROM (0.1). Письмо отправлено с халявного ящика. К сожалению, халявные ящики до сих пор используются в деловой переписке, поэтому вес этого параметра выставлен минимальным — только для справки.
5. USER_IN_WHITELIST_TO (-3.5). Специальная настройка для тех, кто знает конечный адрес получателя, и пишет на него, а не на групповой адрес. Помогает нивелировать положительный вклад других параметров (например, таких, как в предыдущих пунктах).
6. HTML_MESSAGE BODY (0.1). Письмо содержит HTML-форматирование. К сожалению, в настоящее время это используется очень часто, поэтому, пункт оставлен только для справки.
7. BAYES_50 BODY (2.0). По результатам анализа контента и сравнению его с имеющейся базой спама и нормальной почты, вероятность того, что это спам, 50%. Для улучшения точности этого метода база постоянно пополняется.
8. RDNS_NONE (0.

9. HELO_NO_DOMAIN (0.4). Отсутствует домен в строчке «Received: from [95.24.102.218] by e.mail.ru», добавленной mail.ru. Он не смог определить DNS-имя клиента (как и наш сервер в предыдущем пункте), и добавил IP-адрес клиента.
10. T_FREEMAIL_DOC_PDF (0.5). Письмо с халявного ящика содержит вложение (doc, pdf), что типично для спамеров.