«Мы фанаты машинного обучения» — главный специалист «Яндекса» по ранжированию о персонализации и счастье пользователей

отметили
12
человека
в архиве
«Мы фанаты машинного обучения» — главный специалист «Яндекса» по ранжированию о персонализации и счастье пользователей
Как выглядит пользователь для «Яндекса»? Это просто набор запросов, посещенных сайтов и тому подобного или же это что-то вроде «мужчина от 20 до 30, неженатый, любящий котиков»?

На самом деле и то, и другое. Что касается социальной демографии, то для нее была разработана технология «Крипта». Она основана на том же машинном обучении «Матрикснет», о котором мы говорили ранее. В качестве обучающей выборки использовались поисковые запросы миллиона людей из «Моего круга», где мы знаем пол и возраст человека и эти данные с большой вероятностью соответствуют действительности.

Но каким-то чудесным образом вся эта социальная демография не очень помогает ранжированию. История запросов оказывается здесь гораздо важнее. Она во много раз больше говорит о том, что человек сейчас хочет, чем его пол и возраст.

источник: icdn.lenta.ru

Вообще, в исторической перспективе, как менялось качество поиска, если посмотреть на большие времена, скажем, на 10 лет. Были ли в нем, например, всплески, связанные с введением новых технологий?

Качество поиска в человеческом понимании этого словосочетания и у нас, и в мире постоянно растет. Но это плавный рост, никаких особенных всплесков в нем нет. Связано это с тем, что качество прежде всего зависит от наличия в интернете той информации, которую ищет пользователь. Интернет растет, информации становится больше, вместе с ним растет и качество.

Я думаю, за последние пять лет даже без учета улучшения технологии поиска значительно выросла вероятность того, что ответ на вопрос пользователя найдется в интернете. Качество самого алгоритма работы поисковых машин тоже растет.

А нет ли тут эффекта вычерпывания: с каждым разом простых способов улучшения качества поиска становится все меньше и меньше.

Модели, конечно, стали гораздо более сложными, и то, что раньше нам казалось чем-то из ряда вон, сейчас делают стажеры на полставки. Тем не менее каким-то чудесным образом темп роста удается выдерживать. Мы постоянно вносим новые факторы и одновременно с этим совершенствуем систему машинного обучения. Сочетание того и другого дает постоянный рост — с 2011 года, например, качество поиска росло вообще почти линейно. В 2009 году было исключение, заметный скачок, связанный с внедрением «Матрикснета».

источник: icdn.lenta.ru

То есть факторы ранжирования, которые вы находите, имеют весьма ограниченный срок годности?

Конечно. Например, существуют поисковые оптимизаторы, люди, которые пытаются обмануть поисковую машину и поднять определенный URL в выдаче. У нас есть целый отдел для борьбы с таким явлением. Возьмите хваленый алгоритм pagerank, анализирующий граф ссылок на страницах. Когда оптимизаторы поняли, как он работает, сеть стала просто забита ссылками, и сейчас pagerank не имеет практически никакого смысла.
Добавил suare suare 19 Июня 2013
Комментарии участников:
suare
0
suare, 19 Июня 2013 , url
Поправки в вашу формулу ранжирования недавно пыталось внести и государство. Я имею в виду последние предложения Минкульта, от которых оно уже вроде бы отказалось. Такие пожелания поднимать в поисковой выдаче правильные с чьей-то точки зрения ресурсы вообще реализуемы?

Вообще не реализуемы. У нас же машинное обучение, оно, как зеркало, отражает именно то, что хотят найти пользователи. Мы фанаты машинного обучения, мы вообще никогда не вмешиваемся в поиск «вручную».

Если вы не вмешиваетесь в поиск и у вас есть такая замечательная автоматическая методика проверки качества поиска, то зачем вообще использовать ручные оценки асессоров?

На это есть по крайней мере две причины. Во-первых, люди врут. Они могут искать, скажем, реферат по истории, а переходить при этом на порносайты — это же интереснее. Во-вторых, врут авторы сайтов. Они могут создавать видимость того, что на сайте есть какой-то контент, а на самом деле его там нет. Ведь по сниппету, тому окошечку с фрагментом сайта, который выдает поисковая машина, понять, подходящий ли это сайт, не всегда возможно. Пользователь перешел на сайт, потратил там какое-то время. А нашел он там то, что нужно, или нет — мы не знаем и можем только об этом догадываться.

Еще одна важная проблема при оценке качества — редкие запросы, на которые нет статистики, так называемый длинный хвост. Их на самом деле очень много — из всех запросов около 30-40 процентов приходятся на те, что никто никогда еще не задавал. Поэтому без живых асессоров невозможно понять, насколько качественно работает поиск.

Асессоры оценивают странички выдачи поисковой машины или отдельные URL?

Ни то, ни другое — они оценивают пары запрос-URL, причем в запросе подшита информация о географии пользователя, и эта информация учитывается в оценке. Потому что, условно, релевантный для Екатеринбурга сайт по запросу «ресторан суши» будет нерелевантным для Новосибирска, и наоборот.

Чтобы измерить качество поиска, мы пропускаем случайную выборку запросов через асессоров, которые оценивают пары запрос-URL, выставляя им оценки: «витальный», «важный», «релевантный» или «нерелевантный». Каждой из оценок соответствует некая вероятность того, что человек найдет на этом сайте то, что ему нужно.

Что происходит после того, как асессоры оценили релевантность запроса-URL?

Имея ранжированную страницу с результатами поиска, где все URL оценены асессорами, мы оцениваем качество поиска с помощью специальной метрики pfound. Она вычисляет вероятность того, что человек нашел то, что искал на странице выдачи, суммируя такие вероятности для разных URL — каждой из четырех оценок асессора присвоена своя вероятность полезности. При этом в ходе суммирования мы учитываем, что вероятность полезности этой строки нужно умножать на вероятность того, что ее вообще прочитают. То, что нужно пользователю, может найтись в предыдущей строчке, кроме того, он может просто устать и прекратить чтение списка. В общем, получается такая формула суммирования вероятностей, которая и позволяет нам оценивать качество поиска — как своего, так и конкурентов.

Итак, с одной стороны, мы имеем метрику для оценки качества поиска, с другой стороны, имеем систему машинного обучения, которая пытается максимизировать эту метрику. Чем больше оцененных запросов мы будем направлять в «Матрикснет», тем лучше будет работать поиск.

источник: icdn.lenta.ru
Здесь: pRel — релевантность i-того документа (вероятность того, что пользователь найдет ответ в этом документе). pLook — вероятность просмотра i-того документа в выдаче.

Формула pfound оценивает вероятность найти нужную информацию на странице выдачи поисковой машины, суммируя вероятности по отдельным URL.
Эта метрика, насколько я понимаю, специфична именно для конкретного запроса. А человек ведь не мыслит запросами, он мыслит задачами. Существуют ли способы измерить, нашел ли человек то, что искал, независимо от запроса?

На нашем сленге эта метрика называется «счастье пользователя». Да, такие опыты мы делаем. Выглядит это так: человеку ставят задачу, скажем, найти героев Куликовской битвы. Он может задавать любые запросы, переформулировать их, читать какую-то новую информацию, снова переформулировать запросы. В какой-то момент он находит то, что нужно, и записывает ответ. Мы со своей стороны пытаемся минимизировать то время, которое человек на это потратил.

Все эксперименты, которые мы проводили, говорят о том, что метрика счастья очень хорошо коррелирует с метрикой pfound. То есть пользователь, конечно, ведет себя сложнее, чем подразумевает модель pfound, но данных настолько много, что вся эта сложность усредняется.


Войдите или станьте участником, чтобы комментировать