Почему Cluely и другие плохо слышат русских айтишников: разбор того, как Whisper ломается и что мы сделали с этим
отметили
51
человек
в архиве
Три сервиса на базе Whisper — Cluely, Final Round AI и Sensei — плохо справились с расшифровкой записи собеседования с русскоязычным IT-специалистом. Они допустили грубые ошибки в транскрибировании английских технических терминов, встроенных в русскую речь.Проблема не в знании русского языка моделью Whisper самой по себе, а в уникальном гибридном языке IT-специалистов. Они смешивают русскую грамматику, английские термины с особым произношением и профессиональный жаргон.Такой языковой микс практически отсутствует в тренировочных данных большинства систем распознавания речи. Поэтому стандартные модели не могут его корректно обрабатывать.Автор статьи проанализировал эту проблему и изучил подходы конкурентов. В завершении он рассказал о собственном решении, разработанном для корректной работы с русско-английским IT-сленгом.
Источник:
https://habr.com/ru/articles/1...
Добавил
X86 23 Апреля
нет комментариев
Комментарии участников:
Ни одного комментария пока не добавлено
