Компания Mail.ru внедрила на поисковом сервисе GoGo.Ru новую систему анализа поисковых запросов для автоматического отбора потенциальных синонимов (вариантов написания слова). Постоянно пополняемая база слов-синонимов используется для того, чтобы пользователь мог получить наиболее полную и релевантную выдачу, даже набрав в поисковой строке не самый популярный вариант написания слова.
Внедрение новой системы позволило поставить отбор слов-синонимов на поток и сразу же увеличить объем словаря синонимов GoGo.Ru до 5 000 позиций.
Часто пользователь по очереди набирает в поисковой строке различные слова с одинаковым смысловым значением (“крайслер” и “chrysler”, “аниме” и “анимэ” и т. д.), чтобы отыскать максимально полную информацию по интересующему его предмету. Эта особенность была использована для добавления новых синонимов в словарь GoGo.Ru. Сбор данных для словаря осуществляется при помощи специального программного обеспечения, которое позволяет анализировать запросы одного и того же пользователя, сделанные в ограниченном временном интервале. Затем сформированный список потенциальных синонимов подвергается ручной модерации, отсеиваются цепочки, состоящие из разных по смыслу запросов, и остаются лишь подходящие пары слов для пополнения словаря.
Используемая в системе технология сбора и использования синонимов в поиске не имеет полных аналогов в Интернете, как по принципу формирования словарной базы, так и по количеству охватываемых категорий слов с неоднозначным написанием.
Все синонимы в базе поисковика можно условно разделить на три группы. К первой относятся названия зарубежных торговых марок, имена компаний и другие слова, которые достаточно часто встречаются в русскоязычных текстах в оригинальном написании. Если в запросе фигурирует русская транскрипция бренда, система автоматически будет искать это слово еще и в его иностранном варианте.
Во вторую группу синонимов попали слова, которые были заимствованы из других языков и могут по-разному писаться на русском. Система, получив запрос с таким словом, осуществляет поиск по всем распространенным вариантам написания.
И, наконец, третья группа синонимов предназначена для автоматического исправления ошибок при вводе запросов. Эта часть словаря позволяет системе распознавать частые опечатки и осуществлять поиск и по ошибочному, и по правильному написанию.
Вместе с тем возможны ситуации, когда использование синонимов в поиске нежелательно. Тогда пользователь может с помощью оператора “!” задать поиск по точной форме слова без альтернативных написаний и учета морфологии. Для этого нужно просто ввести запрос вида “!слово”.
“Качество поиска в Интернете определяется не только правильным ранжированием найденных по запросу веб-страниц, – говорит генеральный директор компании Mail.Ru Дмитрий Гришин. – Задача современной поисковой системы заключается в том, чтобы попытаться угадать “что имел в виду пользователь” и подсказать ему правильный ответ”.