Почему Cluely и другие плохо слышат русских айтишников: разбор того, как Whisper ломается и что мы сделали с этим

отметили
51
человек
в архиве
Три сервиса на базе Whisper — Cluely, Final Round AI и Sensei — плохо справились с расшифровкой записи собеседования с русскоязычным IT-специалистом. Они допустили грубые ошибки в транскрибировании английских технических терминов, встроенных в русскую речь.Проблема не в знании русского языка моделью Whisper самой по себе, а в уникальном гибридном языке IT-специалистов. Они смешивают русскую грамматику, английские термины с особым произношением и профессиональный жаргон.Такой языковой микс практически отсутствует в тренировочных данных большинства систем распознавания речи. Поэтому стандартные модели не могут его корректно обрабатывать.Автор статьи проанализировал эту проблему и изучил подходы конкурентов. В завершении он рассказал о собственном решении, разработанном для корректной работы с русско-английским IT-сленгом.
Добавил X86 X86 23 Апреля
Комментарии участников:
Ни одного комментария пока не добавлено


Войдите или станьте участником, чтобы комментировать