«Яндекс» объяснил свои успехи. Новым поисковым методом «Матрикснет»

06.04.2010 |

Александр Абрамов

По данным счётчика liveinternet.ru на 31 марта 2010 года, доля «Яндекса» на рынке поисковиков составляет 62,9 %. Как сообщают в самом «Яндексе», с октября 2006 года этот поисковик не занимал больше 60 %, пока в ноябре 2009 года не случился 5%-ный скачок. Причину роста популярности своих сервисов «Яндекс» объясняет запуском нового поискового метода, который получил название MatrixNet («Матрикснет»).

В конце прошлой недели, 1 апреля 2010 года, представители «Яндекса» рассказали о MatrixNet в московской гостинице «Рэдиссон САС Славянская» в рамках конференции «СтуДень». «Яндекс» организовал мероприятие для того, чтобы московские студенты смогли узнать больше о компании, её сервисах, а компания, со своей стороны, присмотрела новые кадры.

«СтуДень» привлек сотни студентов

О том, как работает MatrixNet, попробовал объяснить гендиректор «Яндекса» Аркадий Волож. Он рассказал, что первые поисковые системы родились в 1950-х годах: тогда это были радары, отличавшие свои цели от чужих. В 1960-90-х годах машины научились распознавать образы, а затем тексты. Теперь тексты, даже рукописные, легко переводятся в печатный вариант. Следующий шаг – распознавание голоса и вывод результата (например, в виде субтитров на экране при показе кино или ТВ).

«Поисковик видит предмет, отличает его от других на основании имеющихся образов. До конца мы сами не понимаем, что помогает считать, например, мужской голос мужским, отличать один мужской голос от другого. Но человек все же пытается научить этому компьютер», – говорит Аркадий Волож. Этот процесс называется машинное обучение. Вот как он выглядит на примере поисковика-«яблочник»а. Человек-учитель получает яблоки, пробует и раскладывает: вкусные – в одну сторону, невкусные – в другую. Из разных яблок составляется обучающая выборка. Машина пробовать яблоки не может, но может проанализировать их свойства. Например, размер, цвет, содержание сахара, твердость. На обучающей выборке машина учится выбирать вкусные плоды – с оптимальным сочетанием размера, цвета, твердости. При этом могут возникать ошибки. Например, поскольку машина ничего не знает про червей, то может отобрать червивые плоды. Таким образом, чем больше признаков яблок она учитывает, тем меньше ошибок.

Гендиректор «Яндекса» Аркадий Волож

Среди десятка современных школ машинного обучения «Яндекс» считает самыми эффективными SVM (support vector machine) и Boosting. Первую основали Владимир Вапник и Алексей Червоненкис, бывшие сотрудники института проблем управления РАН. К настоящему моменту Владимир Вапник эмигрировал в Лондон, а Алексей Червоненкис работает в «Яндексе». Преимущество их школы – быстрый анализ сотен факторов. Вторую школу создали Robert E. Sсhapire (университет Принстона) и Jerome H. Friedman (университет Стэнфорда). Их преимущество – анализ тысяч факторов, но он может занимать несколько машинолет.

Судя по отчёту «Яндекса», MatrixNet – следующая ступень в развитии этих школ. MatrixNet сочетает анализ тысяч факторов запроса с высокой скоростью их обработки. «Чем длиннее математическая модель, тем лучше она работает в новых условиях, тем способнее она к переобучению, как того требуют новые условия. Это всё равно что увеличить мощность телескопа: после этого видно гораздо больше и гораздо чётче», – говорит директор «Яндекса» по технологиям Илья Сегалович.

Директор «Яндекса» по технологиям Илья Сегалович

К особенности MatrixNet основатели метода относят устойчивость к переобучению. Это позволяет учитывать много факторов ранжирования. С помощью MatrixNet строятся длинные и сложные формулы ранжирования, которые учитывают множество различных факторов и их комбинаций. От этого поиск становится существенно более точным. Еще одна важная особенность MatrixNet в том, что формулу ранжирования можно настраивать отдельно для достаточно узких классов запросов. MatrixNet автоматически выбирает разную чувствительность для разных диапазонов значений факторов ранжирования. «Это в чем-то похоже на работу на аэродроме – когда среди постоянного шума взлетающих самолетов нужно слышать и голоса людей. Сотрудники аэропорта работают в специальных наушниках, слабо чувствительных к громкому шуму – так можно услышать и самолеты, и голоса людей», – сравнивают в «Яндексе».

Качество обработки запросов «Яндекс» оценивает по реакции пользователя поисковика на выдачу результатов. Чем выше на экране результат запроса, на который кликнул пользователь, среди остальных, тем эффективнее сработал поисковик. Чем меньше выданных страниц (в идеале – одну) посетил пользователь, тем более точной была выдача. Результаты также оцениваются по внешнему измерителю.

Интегральный показатель качества поиска

«Яндекс» не сообщает о финансовых затратах на разработку и внедрение MatrixNet. «Нам трудно оценить работу программистов, трудозатраты за 1,5 года. Да, нам пришлось поставить новые машины, но мы в любом случае собирались обновить их», – комментирует Аркадий Волож. Пока что технология не запатентована. «Патенты не для того, чтобы кого-то ограничить, а для того, чтобы обеспечить прогресс», – считает Илья Сегалович.

Чтобы объяснить суть нового метода, «отцы» «Яндекса» придумали
обложку научно-популярной брошюры о нём

В то же время на вебадминовских форумах новая технология «Яндекса» вызывает скепсис. Воспользовавшись первоапрельской традицией, яндексовцы ответили на это, что среди форумовских голосов им важно вычленить пару показательных. «То есть кому понравилось», – пошутил Илья Сегалович.