Антиспам на основе анализа поведения пользователей

30 января 2012 г.
Исторически сложилось, что поисковые системы использовали упрощенные модели для извлечения сигналов для ранжирования и антиспама. По мере роста трафика и кликстрима стал возможным переход к более реалистичным моделям.

Например, на смену модели случайного блуждания PageRank пришли модели учета поведения реальных пользователей (Browserank и аналогичные алгоритмы). Конечно, этот переход не означает безоговорочного отказа от традиционного PageRank, но означает уменьшение его вклада в расчет релевантности документа в пользу новых возможностей. Важно, что реалистичные модели обеспечивают не только лучший сигнал в ранжировании, но и позволяют эффективно подавлять спам. Рассмотрим некоторые подходы, опубликованные в статье «Identifying Web Spam with User Behavior Analysis», Tsinghua University, Beijing, 2008. Авторы решили две задачи: 1. Выявлены поведенческие шаблоны, позволяющие эффективно обнаруживать спам, 2. Создана платформа для обнаружения новых способов спама. Технической базой для эксперимента послужил фрагмент лога поисковой системы sogou.com за 57 суток (лето 2007 года). Этот массив данных содержал 22.1 миллиона пользовательских сессий и 2,74 миллиарда кликов по 800 миллионам документов.
Шаблоны, хорошо характеризующие спам
Доля seo-трафика на документ Определим долю seo-трафика (search engine oriented visit, SEOV):

Гипотеза проста: на спамные документы пользователи обычно попадают только через поисковую выдачу. Напротив, на качественные документы обычно существует не seo-трафик. Предполагаем, SEOV для спамных документов будет более высоким. Посмотрим на распределение качественных и спамных документов по интервалам SEOV:

Видно, что 82% хороших документов получили менее 10% трафика из поисковых систем. С другой стороны, для почти 60% спамных документов доля seo-трафика 40% и более. При этом всего 1% качественных документов имеет SEOV более 70%. Документ как источник трафика При клике по ссылке и источник, и целевая страница перехода фиксируются в web access log’е. Любой документ может являться как получателем, так и источником трафика. Хотя спамные документы могут содержать большое количество исходящих ссылок, они обычно не порождают трафика на целевые страницы. Определим долю случаев, в которых документ является источником трафика (source page rate, SP):

Из распределения документов по приведенному критерию видно, что SP для качественных страниц обычно больше, чем для спамных:

Почти половина спамных документов, присутствующих в training set’е, редко выступают источником трафика (SP < 5%). Лишь 7.7% спамных документов демонстрируют SP более 40%, доля качественных документов в этом же диапазоне SP — более 53%. Доля коротких визитов Очевидно, контент спамных документов не стимулирует пользователей проводить много времени на сайте. Определим долю коротких визитов (short-time navigation rate, SN rate):

Переменная N может варьироваться, исследователи установили ее равной 3. Физический смысл SN прост — это доля сессий, в которых было просмотрено менее N документов сайта. Видно, что доля коротких визитов позволяет неплохо решить задачу выявления спама:

 
Алгоритм обнаружения спама, основанный на анализе особенностей поведения пользователей
Выявление спама — типичная задача классификации. Исследователи использовали наивный байесовский классификатор и рассмотрели одно- и многофакторную модели. Итоговая функция оценки вероятности документа быть спамным:

Детали реализации доступны в исходной статье. Интересно, что предложенные факторы оказались практически независимы:

По-видимому, это связано с различной природой источников данных. Алгоритм выявления спама: 1. Сбор лога, 2. Расчет SEOV и SP для каждого документа, 3. Расчет SEOV и SP для каждого сайта (усредняя документные данные п.2), 4. Расчет SN для каждого сайта, 5. Расчет вероятности документа оказаться спамным.
Результаты
Обучив классификатор, разработчики алгоритма протестировали его на случайной выборке из 1564 сайтов. Асессоры сочли 345 сайтов спамными, 1060 не спамными, 159 — затруднились оценить. Построенная ROC иллюстрирует, что SP и SEOV позволяют эффективнее обнаружить спам, чем SN:

Интересна проблема скорости реакции на появление спама. Традиционно на выявление спама требуется время. Это хорошо видно на следующей кривой:

Предложенный авторами метод позволяет ускорить обнаружение спама.
Практические рекомендации
Чтобы снизить вероятность разметки сайта как спамного, нужно: 1. Думать о счастье пользователя:

Размещать полезный контент и сервисы
Ссылаться на авторитетные источники
Обеспечивать удобную навигацию

2. Стремиться получать трафик из различных источников 3. Не привлекать плохо конвертирующийся трафик:

с низкокачественных и/или нетематических ресурсов
по объявлениям или ссылкам, не релевантным акцептору

Не используйте спам, привлекайте целевую аудиторию, цените время ваших пользователей. Удачи!


Комментарии

Еще никто не оставлял комментариев к данному материалу.

Добавить комментарий



Похожие статьи

  • Правила поведения в театре Правила поведения в театре
    Посещение театра всегда считалось особым культурным событием, требующим соответствующей подготовки. Для похода на спектакль мужчины тщательно подбирали костюмы, а женщины выбирали нарядные вечерние платья, тщательно укладывали волосы, надевали свои лучшие украшения. Все это создавало атмосферу праздника.
  • Одноклассники запустили оценку групп на основе анализа поведения подписчиков Одноклассники запустили оценку групп на основе анализа поведения подписчиков
    В группах в Одноклассниках появился специальный статус, который показывает администраторам и супермодераторам интерес пользователей к контенту. Он отображается на страницах групп в виде цветных значков: красного, желтого, зеленого. Значки в группах называются «Интерес пользователей» и меняются в зависимости от отклика подписчиков.
  • Современная модель поведения покупателя Современная модель поведения покупателя
    Технологий, которые позволяют читать мысли покупателей пока нет, но зато есть технологии, которые позволяют построить эффективную модель поведения покупателя. Если у вас есть такая модель, вы знаете, как продать потребителю все, что угодно. Имея такую модель вы можете так упаковать любой товар или услугу, что покупатель обязательно их купит.
  • Актуальные зарубежные тренды потребительского поведения в 2016-2017 годах Актуальные зарубежные тренды потребительского поведения в 2016-2017 годах
    Исследование зарубежного потребительского поведения в 2016 году и в начале 2017 года позволило Елене Пономаревой в материале для PR Club выявить для основных потребительских рынков ключевые рыночные тренды, наиболее актуальные маркетинговые инструменты и современные бизнес-модели, используемые компаниями.
  • Особенности поведения украинского интернет-пользователя Особенности поведения украинского интернет-пользователя
    Представляем результаты нового исследования, проведенного компанией TNS Infratest по заказу Google, посвященного особенностям поведения интернет-пользователей.Результаты исследования представлены в виде аналитического онлайн-инструмента Consumer Barometer.
  • App Annie выпустила инструмент для анализа демографических данных пользователей мобильных приложений App Annie выпустила инструмент для анализа демографических данных пользователей мобильных приложений

    Аналитическая компания App Annie выпустила новый инструмент для получения и анализа демографических и поведенческих данных пользователей мобильных приложений — App Annie Intelligence.

  • Особенности поведения потребителей в социальных сетях Особенности поведения потребителей в социальных сетях
    Агентство UM анонсировало в Нью-Йорке выпуск Wave 7 – самого обширного и долголетнего исследования в мире, посвящённого поведению более чем миллиарда активных интернет-пользователей
  • Исследование Nielsen: Новые тенденции покупательского поведения россиян Исследование Nielsen: Новые тенденции покупательского поведения россиян
    Подавляющее большинство россиян замечают рост цен, однако не все стремятся экономить. Супермаркеты и гипермаркеты vs дискаунтеры и традиционные магазины: побеждает наличие нужных товаров и оптимальное соотношение цены и качества.
  • Анализ поведения фирм-конкурентов Анализ поведения фирм-конкурентов

    Изучение возможного поведения ближайших конкурентов объективно необходимо. Организация должна отслеживать действия фирм-конкурентов, чтобы предсказать их последующие шаги и соответственно этому корректировать свои стратегические решения.

  • IBM покупает разработчика ПО для анализа поведения покупателей IBM покупает разработчика ПО для анализа поведения покупателей
    Приобретение специалиста в области анализа потребительского поведения DemandTec поможет IBM укрепить позиции на рынке бизнес-аналитики с использованием «облачных» вычислений.