Русский Лос-Анжелес. Russian Los Angeles
Портал русскоязычных жителей Лос-Анжелесa. Russian Los Angeles community.
Руссике артисты на Американской сцене
Home
Home Русский Лос-Анжелес. Russian Los Angeles - russian-speaking community website In English
News
Events
Yellow Pages
Classifieds
Forum
Chat
Dating
TV/Video
Home » Archive
Журнал » Интернет «Back
Журнал
  Рейтинг
  Архив
Рубрики
Политика
Экономика
Спорт
Hi-Tech
Здоровье
Кино/Театр
Музыка
Животные
Путешествия
Светская жизнь
Происшествия
Война
Автомобили
Пикантные новости
Не пропустите
Мода
Астрология
Интернет
Community
  News Central
  Дайджест Форума
  Рейтинг ресурсов
  Знакомства
  Дискуссионный клуб
  Чат
  Фотоальбомы
  Yellow Pages
  Объявления
  Читальный Зал
  Гороскопы
  Top Rating
       America TOP

 
От спама спасет теория вероятности
2002-10-03 02:10:31
Непрошенные рекламные рассылки по электронной почте являются одной из наиболее серьезных проблем интернета. На их чтение и удаление тратится большое количество рабочего времени, а существующие на сегодняшний день фильтры не отличаются совершенством.
Однако работа по совершенствованию спам-фильтров продолжается. Американский программист и предприниматель Пол Грэм опубликовал в интернете статью, подробно описывающую эффективный метод борьбы с рекламными письмами. Этот метод основывается на теории вероятности и использует для фильтрации спама алгоритм Бейеса. В настоящее время большинство фильтров относят письмо к спаму на основании наличия у него определенного набора признаков. Это могут быть слова или их сочетания, целые предложения или тэги HTML. Такие методы могут оказаться весьма эффективными. Например, созданный Грэмом простой фильтр смог обнаружить 79,7% спама, и лишь в 1,2% случаев к спаму были отнесены обычные письма.

Однако усовершенствование этой системы оказалось более сложной задачей. Грэм посвятил ее решению более полугода, пока ему не пришло в голову использовать для фильтрации спама статистические алгоритмы. В разработанном Грэмом прототипе фильтра каждому встречающемуся в электронной переписке слову или тэгу присваивается значение вероятности его наличия в спаме. На основе этих вероятностей с помощью алгоритма Бейеса вычисляется вероятность того, что данное письмо является спамом.

Высокая вероятность присваивается как излюбленным спамерами словам, вроде sexy или promotion, так и таким неожиданным, на первый взгляд, сочетаниям как ff0000 - код ярко-красного цвета в HTML. Соответственно, низкая вероятность соответствует профессиональным терминам или просто редко использующимся в рекламе словам вроде standardization или mandatory.

В процессе испытания системы фильтрации спама Грэм пропустил через нее 8000 писем, половина из которых являлась спамом. В результате, через фильтры смогли просочиться лишь 0,5% рекламных сообщений, а количество ошибочных срабатываний фильтра на основе бейесовского подхода оказалось нулевым, передает Компьюлента.

По мнению Грэма, для того чтобы система была действительно эффективной, она должна поддерживать возможность индивидуальной настройки, поскольку терминология, использующаяся в электронной переписке разными людьми, отличается. Если же пользователь будет регулярно помечать рекламные письма как спам, то программа сможет накопить достаточно информации для эффективной фильтрации электронной почты.

Грэм разработал вариант своего фильтра на созданном им самим языке Arc (вариант LISP). В свою очередь, группа энтузиастов в настоящее время работает над проектом spambayes. Его целью является разработка спам-фильтра на основе бейесовского алгоритма и языка Python.

Корреспондент.net
Вернуться
Другие Новости в этой рубрике
  • Японское Министерство Финансов приторговывает монетами на eBay
  • На eBay продаются приглашения в группу тестирования
  • Модемы для сетей 3G: в Интернет - без проводов
  • Китайцы победили порнографию
  • Мужчины и женщины используют интернет по-разному
  • Новая опасность: интернет атакован
  • Количество рекламы в электронной почте будет увеличиваться
  • Изобретен новый способ борьбы с порнографией в интернете
  • Из Napster сделают крупнейший пункт обмена порнографией в интернете
  • Домен .ORG в ожидании вердикта
  • Microsoft не дает пользователям Netscape ''латать дырки'' в своем ПО
  • Онлайновый кинорынок, еще не родившись, начинает со скандала
  • В интернете произошло крупнейшее похищение номеров кредитных карт
  • AOL переместила концерты в интернет
  • 7% пользователей интернета ''подсели'' на киберсекс
  • www. помогите мне развестись c моим мужем . com
  • Хакеры Хаттаба атаковали 10 европейских банков
  • В Китае разрешили Google
  • За владельца sex.com предлагают $50 тысяч
  • Вторая часть ''Властелина колец'' уже в интернете
Еще »
Дайджест / Архив / Рейтинг 





 
Terms of Service | Privacy Policy | Advertise | Web Hosting | Contact | Site Map | Site Map (rus)
Rambler's Top100   Рейтинг@Mail.ru Russian America Top
© 2025 RussianAMERICA Holding
All Rights Reserved • Contact