Новая система исправления ошибок от Nigma.ru
отметили
3
человека
в архиве
16.07.2007
Новая система исправления ошибок от Nigma.ru
Разработчики интеллектуальной поисковой системы Nigma.ru представляют на суд пользователя новую версию своей системы исправления ошибок в запросах. Теперь посетителям Nigma.ru нужно очень сильно постараться, чтобы сделать неграмотный запрос. И вот почему.
Система исправления ошибок Nigma.ru исправляет грубые ошибки, опечатки, предлагая пользователю на выбор не один, а несколько вариантов исправлений. Корректируются ошибки, связанные с неправильным выбором раскладки клавиатуры (включая комбинации с другими ошибками). Словарь интеллектуальной поисковой системы расширен названиями известных брендов, набирать которые в строке запроса пользователь может даже на русском языке, так как Нигма автоматически расширяет поиск альтернативным написанием бренда. Разработчики Nigma.ru провели исследование, по результатам которого составили таблицу сравнения систем исправления ошибок. К тому же, обнаружились интересные особенности поисковиков. К примеру, в одном из тестируемых поисковиков по запросу, введенному на русском языке с ошибкой в написании, предлагается исправить запрос, в другом – ошибка в написании не исправляется, но, если бренд написан правильно, поиск ведется по обоим вариантам его написания. Нигма же делает и то, и другое.
Виктор Лавренко, руководитель группы разработчиков Nigma.ru: «Не так давно мы дали возможность пользователям Nigma.ru писать жалобы на неверную работу нашей поисковой системы — для того, чтобы эффективнее оптимизировать алгоритмы поиска и кластеризации. Внимательно анализируя письма пользователей, мы обнаружили, что очень часто они не находят нужной информации не из-за неправильно написанных алгоритмов, а из-за того, что просто неграмотно составляют запрос, или допускают орфографические ошибки и опечатки. Поэтому мы сконцентрировались на том, чтобы создать такую систему исправления ошибок, которая сможет исправлять и опечатки, и грубые орфографические ошибки. Мы постарались сделать так, чтобы эта система исправляла ошибки эффективнее. То есть, пользователям теперь вообще не нужно правильно оформлять запрос – мы предлагаем им все возможные орфографически правильные варианты и с помощью кластеров пытаемся угадать, что же они все-таки ищут. Тем не менее, наша система жалоб по-прежнему работает – мы разбираем каждую из них, поэтому если какой-то запрос не был исправлен – пожалуйста, пишите нам, исправим!»
Алгоритм исправления ошибок составлен следующим образом:
· исправляется до 4 грубых ошибок, включая опечатки (например, "эзпорвленейэ"=>"исправление");
· пользователю на выбор предлагается не один, а несколько вариантов исправления ошибки; также приводится неисправленный вариант, чтобы пользователь из списка слов мог выбрать те, которые, по его мнению, необходимо исправить;
· исправляются перестановочные опечатки (например, "слвоо"=>"слово", "апра"=>"пара" "пеертсаноква"=>"перестановка");
· исправления сортируются по звучанию – чем ближе звучание к исправляемому слову, тем выше расположен вариант исправления (например, для запроса "ашипка" предлагаются исправления в таком порядке: ошибка, шапка, шибко, шпика и т.п.);
· если между двумя словами пропущен пробел, предлагается исправление с вставкой пробела; при этом, если в одном из слов допущена грубая ошибка, она тоже исправляется, а также если по звучанию слова не совпадают с их написанием, например, "ЮрейЛушкоф"=>"Юрий Лужков";
· исправляются ошибки, допущенные по причине выбора другой раскладки клавиатуры (к примеру, "yfqnb"=>"найти" или "ьщишду"=>"mobile");
· также исправляются ошибки, связанные с неверным выбором раскладки клавиатуры в комбинации с другими ошибками (например, "fibgrf"=>"ашипка"=>"ошибка"); при этом, если возникает необходимость исправления ошибок со сменой раскладки, то предлагается и вариант с чистым преобразованием раскладки (например, "fibgrf"=>"ашипка");
· словарь расширен компьютерными терминами (к примеру, вместо исправления "сокит"=>"соки" первым вариантом предлагается исправление "сокит"=>"сокет");
· словарь дополнен названиями известных брендов (например, "SonyErikson"=>"Sony Ericsson");
При этом адреса страниц, адреса электронной почты и пути не исправляются; слова, написанные в верхнем регистре, считаются аббревиатурами и также не исправляются.
Новая система исправления ошибок от Nigma.ru
Разработчики интеллектуальной поисковой системы Nigma.ru представляют на суд пользователя новую версию своей системы исправления ошибок в запросах. Теперь посетителям Nigma.ru нужно очень сильно постараться, чтобы сделать неграмотный запрос. И вот почему.
Система исправления ошибок Nigma.ru исправляет грубые ошибки, опечатки, предлагая пользователю на выбор не один, а несколько вариантов исправлений. Корректируются ошибки, связанные с неправильным выбором раскладки клавиатуры (включая комбинации с другими ошибками). Словарь интеллектуальной поисковой системы расширен названиями известных брендов, набирать которые в строке запроса пользователь может даже на русском языке, так как Нигма автоматически расширяет поиск альтернативным написанием бренда. Разработчики Nigma.ru провели исследование, по результатам которого составили таблицу сравнения систем исправления ошибок. К тому же, обнаружились интересные особенности поисковиков. К примеру, в одном из тестируемых поисковиков по запросу, введенному на русском языке с ошибкой в написании, предлагается исправить запрос, в другом – ошибка в написании не исправляется, но, если бренд написан правильно, поиск ведется по обоим вариантам его написания. Нигма же делает и то, и другое.
Виктор Лавренко, руководитель группы разработчиков Nigma.ru: «Не так давно мы дали возможность пользователям Nigma.ru писать жалобы на неверную работу нашей поисковой системы — для того, чтобы эффективнее оптимизировать алгоритмы поиска и кластеризации. Внимательно анализируя письма пользователей, мы обнаружили, что очень часто они не находят нужной информации не из-за неправильно написанных алгоритмов, а из-за того, что просто неграмотно составляют запрос, или допускают орфографические ошибки и опечатки. Поэтому мы сконцентрировались на том, чтобы создать такую систему исправления ошибок, которая сможет исправлять и опечатки, и грубые орфографические ошибки. Мы постарались сделать так, чтобы эта система исправляла ошибки эффективнее. То есть, пользователям теперь вообще не нужно правильно оформлять запрос – мы предлагаем им все возможные орфографически правильные варианты и с помощью кластеров пытаемся угадать, что же они все-таки ищут. Тем не менее, наша система жалоб по-прежнему работает – мы разбираем каждую из них, поэтому если какой-то запрос не был исправлен – пожалуйста, пишите нам, исправим!»
Алгоритм исправления ошибок составлен следующим образом:
· исправляется до 4 грубых ошибок, включая опечатки (например, "эзпорвленейэ"=>"исправление");
· пользователю на выбор предлагается не один, а несколько вариантов исправления ошибки; также приводится неисправленный вариант, чтобы пользователь из списка слов мог выбрать те, которые, по его мнению, необходимо исправить;
· исправляются перестановочные опечатки (например, "слвоо"=>"слово", "апра"=>"пара" "пеертсаноква"=>"перестановка");
· исправления сортируются по звучанию – чем ближе звучание к исправляемому слову, тем выше расположен вариант исправления (например, для запроса "ашипка" предлагаются исправления в таком порядке: ошибка, шапка, шибко, шпика и т.п.);
· если между двумя словами пропущен пробел, предлагается исправление с вставкой пробела; при этом, если в одном из слов допущена грубая ошибка, она тоже исправляется, а также если по звучанию слова не совпадают с их написанием, например, "ЮрейЛушкоф"=>"Юрий Лужков";
· исправляются ошибки, допущенные по причине выбора другой раскладки клавиатуры (к примеру, "yfqnb"=>"найти" или "ьщишду"=>"mobile");
· также исправляются ошибки, связанные с неверным выбором раскладки клавиатуры в комбинации с другими ошибками (например, "fibgrf"=>"ашипка"=>"ошибка"); при этом, если возникает необходимость исправления ошибок со сменой раскладки, то предлагается и вариант с чистым преобразованием раскладки (например, "fibgrf"=>"ашипка");
· словарь расширен компьютерными терминами (к примеру, вместо исправления "сокит"=>"соки" первым вариантом предлагается исправление "сокит"=>"сокет");
· словарь дополнен названиями известных брендов (например, "SonyErikson"=>"Sony Ericsson");
При этом адреса страниц, адреса электронной почты и пути не исправляются; слова, написанные в верхнем регистре, считаются аббревиатурами и также не исправляются.
Добавил
Nigma 16 Июля 2007

1 комментарий
Комментарии участников: