"День поискофикации" в Microsoft
Перевод репортажа известной американской блоггерши Ванессы Фокс, работавшей в Google до июня 2007 года.
Ванесса Фокс
Я нахожусь в конференц-центре Microsoft в «день поискофикации» (Searchification Day). Мы в нескольких минутах ходьбы от Гуглоплекса, где я была на «дне поискологии» Google несколько месяцев назад (Googleplex, Searchology Day). На «поискологии» речь шла об открытии компанией Google универсального поиска, и что интересно, нынешнее мероприятие можно рассматривать как ответ со стороны Microsoft. Как преподносит Натан Бруггия (Nathan Bruggia), продукт-менеджер Live Search, слово «Searchification» означает то же, что и слово «Searchology», только круче.
Брэд Голдберг (Brad Goldberg), генеральный директор Live Search, открыл сессию словами, что Microsoft делает еще один шаг в направлении открытости, и данная встреча является примером этого: Live Search показывает, «что под капотом». Более 50 журналистов, блоггеров, SЕО-специалистов и партнеров Microsoft собрались, чтобы услышать, как Live Search оценивает достигнутые результаты, и что именно было сделано.
Брэд Голдберг рассказал, что Live Search оценивает степень удовлетворенности пользователя веб-поиском по таким критериям, как количество кликов, затраченное время, сколько раз пользователь уточнял запрос, и тому подобное. Они обнаружили, что 40% запросов не дают результата (unanswered), и 50% требуют уточнения.
Команда Live Search считает, что поиск в будущем будет очень отличаться от поиска сегодня, и что поиск все более и более становится способом навигации по Интернету. Live Search теперь тратит намного больше усилий на сканирование и индексирование различных типов файлов, и заявляет о четырехкратном увеличение индекса (до более 20 миллиардов документов), а также – о повышении релевантности и улучшении работы в так называемых «ключевых отраслях» (key verticals, собственный термин Live Search).
Live Search считает, что в веб-поиске выкристаллизовалось три модели:
1. Целевой поиск (поиск ради конкретного, быстрого ответа). Это - частые, короткие сессии.
2. «Поискобъекта» (Discovery to find something). Эти, например, поиск ради покупки, когда пользователь просматривает различные сайты, возвращается к результатам поиска и пробует разные «модальности» поиска (navigate in and out of search and browse modes). Такой поиск, как правило, состоит из нескольких сессий, и пользователь сильно эмоционально вовлечен в процесс.
3. Поиск-исследование. Такие пользователи занимаются просмотром страниц без конкретной цели. Это, как правило, долгие повторяющиеся сессии поиска на тему развлечений, сплетен, спорта и хобби.
Команда Live Search понимает, что им необходимо активизироваться в сфере поиска. Они отмечают, что хотя сервис привлекает 69 миллионов пользователей в месяц (против 104 миллионов у Yahoo и 142 миллионов у Google), на его долю приходится лишь 11% запросов (против 23% у Yahoo и 56% у Google).
Сатья Надалла (Satya Nadalla), корпоративный вице-президент по поиску и рекламной платформе, начинает свое выступление с речи о существенном повышении релевантности, которое было достигнуто за короткий период времени. Он говорит, что Live Search планирует крупные апдейты индекса один или два раза в год, и более мелкие обновления - ежемесячно. А здесь и сейчас они готовы объявить о крупном обновлении индекса и релевантности, и «это - эпохальное событие».
Отметим, что заявления о серьезном улучшении «свежести» (freshness) не прозвучало. Есть ощущение, что это может быть следующая важная задача для Live Search.
Осеннее обновление, по словам Надалла, базируется в значительной степени на обратной связи от потребителей. Больше всего претензий было к релевантности. Специалисты Live Search обнаружили, что лишь 54% пользователей полностью или частично удовлетворены сервисом в этом смысле.
Более того, 91% жалоб пользователей связаны как раз с недовольством релевантностью поиска. Неудивительно, что при подготовке обновления команда сделала упор на это. Проведенный анализ основывался главным образом на отзывах потребителей и на информации, которую Live Search собирает в Интернете, но также на анализе поведения. Более подробный анализ причин нерелевантности показал, что на 25% она сводится к необходимости уточнения запроса, на 32% - к неудовлетворенности ранжированием результатов, на 28% - к охвату и качеству индекса, и оставшиеся 15% - различные другие проблемы.
В этом апдейте было шесть основных аспектов:
1. Охват (coverage) - отсюда четырехкратное увеличение индекса.
2. Улучшение интерпретации запроса (query intent enhancements), - того, что пользователь на самом деле ищет.
3. Уточнение запроса.
4. Ранжирование (Ranknet).
5. Извлечение структурированной информации.
6. Насыщенные (rich) ответы.
В следующей части выступления Сатья Надалла говорил про охват. Он сказал, что команда гордится своей основной инфраструктурой, и что была проделана огромная работа «за сценой», так что теперь можно сконцентрироваться на видимых вещах, таких как актуальность и резкое улучшение индекса. Они собираются продолжать работу по увеличению размера индекса, повышению качества, свежести, и фильтрации. Они собираются увеличивать «глубину просмотра» Интернета, но так, чтобы «глубокому сканированию» подвергался только высококачественный контент, который требует всеобъемлющего индексирования. Это всегда центральный вопрос для поисковых систем, поскольку ресурсы сканирования ограничены: сканировать часть сайтов полностью или часть страниц всех сайтов?
В результате этих улучшений, число запросов, на которые отдается менее 10 результатов, было уменьшено вдвое. Кроме того, была улучшена релевантность результатов по длинным и редким запросам, и больший акцент был сделан на пользовательский контент (UGC).
Затем Сатья Надалла продемонстрировал несколько запросов, по которым было значительно увеличено количество результатов (например, «EPRML» дает теперь более 14000 против 1700). Был изменен пользовательский интерфейс, чтобы помочь людям получать то, что им нужно, более оперативно. Также были проверены все детали касательно шрифтов и расположения элементов на странице (layout).
Live Search также усовершенствовал работу со стоп-словами, знаками пунктуации, сокращениями, пробелами между словами и множественным числом слов. Это позволило улучшить более 30% из «худших» результатов (менее 10 документов в результате запроса), или 10% от общего числа запросов. Много усилий было потрачено на варьирование запросов (query alteration) для оптимизации релевантности, например – по таким запросам, как «the office». Поисковые системы исторически игнорируют артикль, но в данном случае он помогает распознать, что пользователь ищет телешоу с таким названием.
Улучшение функционала уточнения запросов (например, автоматическая коррекция грамматических ошибок и обработка связанных запросов) коснулось 8% запросов. В некоторых случаях просто показываются результаты для исправленного запроса, потому что «система уверена» в намерениях пользователя. В других случаях – «похожие запросы» выводятся в правой части страницы результатов.
Надалла также продемонстрировал новый сервис-переводчик, его крутой новый пользовательский интерфейс, который позволяет видеть перевод бок о бок с оригиналом - при наведении курсора мышью (как у Google - прим. переводчика).
В совершенствовании алгоритмов ранжирования использовались нейронные сети ранжирования, отдаленные аналоги биологических нейронных сетей. В них заложена возможность обучения, чего нет в простых алгоритмах. Эти алгоритмы могут обнаружить, например, пары слов, и очень близки к обработке запросов на естественном языке (например, «what's the hottest it's ever been in AZ»). Команда Live Search гордится, что для запросов, подобных этому, Google находит страницы, в которых есть все эти слова, а Live Search теперь может показать лучшие результаты, поскольку может понять взаимосвязь между словами.
Затем речь пошла об извлечении структурированной информации и о том, каким образом Live Search может брать в Интернете неструктурированные данные и структурировать их в соответствии с запросом пользователя. Live Search может идентифицировать класс данных и обеспечить глубокую отраслевую проработку (deep vertical experiences), например, для поиска товаров или картинок. Был увеличен охват системы мгновенных ответов – до 10% запросов - и особые усилия прикладываются тут в топовых тематиках: здоровье, шопинг, знаменитости, локальные запросы. В выдаче увеличено число фактов из MSN Encarta (энциклопедии Microsoft), значительно улучшилось освещение новостей, заработала демонстрация онлайн-видео в окне выдачи.
Релевантность результатов по очень редким (long tail) запросам также была существенно улучшена, и специалисты Live Search чувствуют, что сейчас она на уровне с Google и немного лучше, чем у Yahoo. Как они могут это чувствовать? Ну, это хороший вопрос. Если у вас есть идея, как это оценить, - добро пожаловать. Были использованы экспертные оценки, «слепые оценки», «позиционные оценки» (результаты первых более важны, чем результаты вторых), «шкальные оценки» (идеальные результаты значат больше, чем отличные результаты), и замеры продолжаются.
Таким образом, команда Live Search утверждает, что значительно улучшился охват и релевантность результатов. Дальше на встрече речь пошла о том, что в Live Search называется «ключевыми отраслями».
«Ключевые отрасли» представляют особый интерес (для ищущих информацию) и особую ценность (для рекламодателей).
Карты и локальная информация работают хорошо, но могут лучше. 32% запросов пользователей касаются местных (локальных) тем. 67% пользователей ищут локальную информацию через основной поиск, а 42% задают поиск с использованием карт и сервисов прокладки маршрута.
Live Search стремится сделать использование карт как можно более простым и удобным. В выдаче комбинируется экспертная и пользовательская информация, поскольку иногда местные жители знают больше, чем эксперты. К сожалению, многие из нововведений, о которых было рассказано (как, например, поразительные виды в Virtual Earth) будут доступны в сети только через месяц. Virtual Earth даст пользователю множество классных 3D-возможностей, - тут Live Search делает ставку на «долгосрочный сдвиг парадигмы» в отрасли (longer term paradigm shift). Изменит ли кардинально добавление третьего измерения то, как люди взаимодействуют в Интернете? Может быть. Live Search уверен, но нам это еще предстоит выяснить.
Что касается мобильных сервисов - 2,8 миллиарда потенциальных пользователей сегодня, - Live Search развивает партнерские отношения с операторами, чтобы представлять пользователю информацию исходя из его географического местоположение в текущий момент. Специалисты также работают над речевой активацией поиска – на основе партнерских отношений с компанией TellMe.
Некоторые из идей улучшения локального поиска основываются на интерпретации намерений пользователя и его местоположения – с последующим уточнением запроса. Команда Live Search очень высокого мнения о своем новом сервисе выбора маршрутов движения. И это в самом деле впечатляет: за один клик можно мгновенно получить информацию о маршрутах из почти любой точки. В выдачу включена информация о пробках, и предлагаются варианты изменения маршрута с учетом этой информации. Это не может не понравится, особенно для пользователей мобильных устройств.
Еще одна «отрасль», на которой сосредоточен Live Search, - это развлечения. Люди продолжают сохнуть по Бритни Спирс, и до 10% поисковых запросов, связано с развлечениями. Степень удовлетворения результатами по таким запросам остается низкой, потому что люди просто хотят больше!
Live Search запускает совершенно новую систему рейтингования знаменитостей xRank, позволяющую отслеживать взлеты и падения каждого. Больше ли - сию секунду - популярность Пэрис Хилтон, чем у Бритни? Live Search даст вам ответ на этот вопрос. Сервис предоставляет всю возможную информацию про знаменитостей, и если это действительно свежие данные, то фанаты будут в восторге.
Видео. У Live Search теперь абсолютно новый собственный движок поиска по видео, который ищет по всему видео в Интернете. Функция «умного просмотра» позволяет увидеть ключевые фрагменты видео-ролика прямо на странице поиска. Это действительно будет популярно - если будет работать.
Наконец, шопинг. 86% покупателей используют поисковые системы как источник информации о товарах и продуктах. 70% запросов о товарах являются «категориальными», например, «цифровая камера». Live Search делает основной акцент на информацию о товарах и на отзывы пользователей: более 37 миллионов товаров - справочники, изображения, спецификации, обзоры с разбивкой по компонентам.
Здоровье – другая важная отрасль, на которую сделан упор. В Live Search обнаружили, что поисковые запросы, связанные со здоровьем, отличаются от других типов поиска. Например, приватность здесь намного более важна, так что лог поиска и куки здесь хранятся только 90 дней, и вообще не применяется поведенческий таргетинг. Здесь используются надежные источники, таки как Mayo Clinic, а медицинские журналы сканируют ночью (после публикации), чтобы давать свежую информацию.
В заключение было сказано, что из 180 миллионов пользователей Интернета (в США) 70 миллионов пользовались Live Search в прошлом месяце. Но эти люди задали не слишком много поисковых запросов. Так что, к сожалению, увеличивается отставание доли Live Search, измеренной в количестве сделанных запросов, от доли, измеренной в количестве пользователей. И из 500 миллионов пользователей MSN - только небольшой процент использует Live Search. Если удастся склонить 70 миллионов пользователей сделать на Live Search хотя бы на один поисковый запрос в месяц больше и привлечь пользователей MSN к использованию Live Search, то можно набрать хороший темп, - считает команда проекта.
Инструментарий для веб-мастеров.
В конце мероприятия мы узнали немного о новых инструментах для веб-мастеров, которые будут запущены в ноябре. Натан Бруггия представил сразу и новый инструментарий, и полностью новую группу сотрудников, которые его разрабатывают и поддерживают. Портал для веб-мастеров включает не только инструменты, но также блог (spaces), дискуссионный форум, и справочную службу.
Первоначальный вариант инструментария включает валидатор файлов robots.txt, информацию о том, какие страницы сайта являются наиболее важными для Live Search, какие линки ведут на сайт и с сайта (ранжируются по важности), и когда сайт в последний раз сканировался. Говорят, что Live Search будет сообщать веб-мастеру, если считает его страницы спамом, хотя на мероприятии об этом не упоминали. Сервис также позволит сообщать в Microsoft об изменениях sitemap. На вопрос, означает ли это, что уже сейчас сканируются и индексируются все страницы сайта, Натан Бруггия ответил, что сейчас индексируется больше, чем раньше, хотя еще не 100%, но все к тому идет.
Верификация метатегов и HTML осуществляется также, как у Google и Yahoo. Инструментарий выйдет в первую очередь на английском, китайском и японском языках. Выступавшие повторили, что пока это только первая версия, и у новой команды много планов на будущее. Слезы навернулись на глаза от понимания того, что отрасль продолжает двигаться в нужном направлении.
Перевод – Иван Сильвестров.
Источник: Вебпланета
Комментарии 0