Развитие технологий поиска и мониторинга не стоит на месте. Поиск упоминаний, релевантных запросу, остается сложной задачей, и часто возникают вопросы: какую выдачу считать оптимальной? Почему у разных сервисов мониторинга так отличаются результаты выдачи по одним и тем же поисковым запросам? Мы попытаемся ответить на технические вопросы языком, доступным нетехническим специалистам.
Определение оптимальной выдачи складывается из нескольких параметров:
Качество мониторинга социальных медиа определено возможностями существующих технологий поиска в сети Интернет. Разные компании используют разные технологии, поэтому часто возникают ощутимые различия между результатами, предоставляемыми той или иной системой мониторинга. Здесь стоит обсудить вопрос более детально. Весь поток данных для мониторинга можно условно разделить на три части по категориям источников поиска информации в сети Интернет:
Первая часть — это информация, получаемая через поисковые машины и их API (интерфейс программирования приложений). Например: Google, Яндекс, Yahoo и т. п.
Вторая часть — это информация, получаемая через API и RSS ленты площадок (ресурсов), которые предоставляют доступ к внутреннему поиску. Например: Twitter, Facebook, Vk и т. п.
Третья часть — это информация, получаемая поисковыми роботами самих мониторинговых систем.
Каждый из потоков может существовать как самостоятельный подход к мониторингу социальных медиа, но каждый имеет свои достоинства и недостатки. Рассмотрим особенности подходов подробнее.
Поисковые машины (Яндекс, Google и т. д.) дают наиболее полную картину по поисковым запросам. Т. е. полнота выдачи у них самая высокая. Надо заметить, что это правило соблюдается скорее на поисковых запросах, по которым есть много сообщений, чем на тех, по которым мало сообщений. Однако API таких систем работает не всегда согласованно с тем, что мы видим, если вводим поисковый запрос в браузере. Есть несколько факторов, влияющих на полноту и релевантность выдачи публичных поисковых машин:
Итог: поисковые машины неплохо справляются со своей задачей, но есть достаточно много узких мест, где выдача страдает как по полноте, так и по релевантности в угоду скорости предоставления результата.
Twitter, Facebook и подобные социальные сети предоставляют API для мониторинга своих данных. Однако и здесь бывают подводные камни.
Не каждый ресурс способен проиндексировать весь свой контент. Особенно это характерно для крупных ресурсов, где трафик достигает невероятных значений (например, Facebook). Есть примеры, когда собственные API и даже внутренние поисковики этих ресурсов не выдают сообщения по определенным ключевым словам. Причем слова эти от сообщения к сообщению могут значительно различаться. Отследить это удается только постингом собственных сообщений с попыткой последующего мониторинга как через сайты социальных сетей, так и через их API и Яндекс.Блоги. Процент таких ошибок, как правило, не очень велик — около 1–2%. Поэтому релевантность в большинстве случаев достигает 99%.
Однако нужно помнить, что это поиск только по одному отдельно взятому ресурсу. Т. е. для мониторинга каждого ресурса через API нужно писать свой программный код. Поэтому некоторые поисковые системы берут плату с клиентов за подключение новых ресурсов. Кроме того, не все социальные медиа предоставляют API.
Использование только такого метода сбора информации снижает общую полноту поиска до 5–10%, особенно если иметь в виду огромное множество небольших по размеру специализированных форумов, блогов, интернет-страниц. В то же время — это самый быстрый и надежный метод поиска.
Поисковые роботы, так называемые «краулеры», являются хорошим подспорьем для независимого мониторинга социальных медиа. Главное преимущество краулеров — возможность собирать с площадки любую находящуюся в открытом доступе информацию на ресурсе, в том числе и то, что ресурс может не отдавать через API.
Недостаток краулеров такой же, как и у API отдельных систем — небольшая полнота, ограниченная набором площадок. С учетом того, что структура данных на ресурсах может быть очень разная — для мониторинга каждой площадки настраивается свой поисковый робот.
Краулер может эффективно замещать собой мониторинг некоторых ресурсов (присутствующих в выдаче крупных поисковых машин), которые не настолько полноценно проиндексированы, как хотелось бы (по причине невозможности проиндексировать всё и вся, описанной выше). В дополнение ко всему перечисленному этот метод характеризуется пониженной скоростью мониторинга.
Чтобы оценить эффективность, можно воспользоваться сводной таблицей полноты, релевантности и скорости относительно каждого из подходов:
Поисковые машины и их API | API социальных сетей и RSS ленты | Роботы автоматических мониторинговых систем | |||||
---|---|---|---|---|---|---|---|
Полнота (сообщения могут не входить в результаты других методов) | Средне-высокая | Низкая | Средне-низкая | ||||
Релевантность (только для полученных сообщений) | Средняя | Высокая | Высокая | ||||
Скорость доставки сообщений | Средне-высокая — высокая | Высокая | Средняя |
Очевидно, что ни один из перечисленных подходов в отдельности не решает задач мониторинга социальных медиа на 100%. Полнота ни у одного из методов не достигает отличных результатов, а ненайденные сообщения могут оказаться в выдаче других каналов поиска. Также видно, что крайне высокая степень релевантности API социальных сетей и краулеров сильно ослабляет их позиции в полноте среза сообщений.
Чтобы максимально приблизиться к результатам, близким к 100% релевантности и полноты данных, необходим комплексный подход. Например, в системе мониторинга Wobot используется совокупность данных мониторинга краулеров и потоков информации из API и RSS лент площадок при поддержке результатов больших поисковых машин, необходимых для проверки полноты сбора сообщений. Список уникальных площадок и ресурсов, с которых собираются сообщения, постоянно расширяется, и сейчас их число достигает приблизительно 500 000. Такой подход дает возможность собирать наиболее полные и максимально релевантные данные и понижать уровень шума и спамовых сообщений в поисковой выдаче.