LLM бенчмарк «Испытание Дали» / news2.ru

LLM бенчмарк «Испытание Дали»

отметили

человека

в архиве

Программист из компании «Флаг Софт» в процессе выбора языковой модели для своего первого пет-проекта случайно создал собственный бенчмарк под названием «Испытание Дали». Этот бенчмарк оценивает LLM по трём ключевым параметрам: качество ответов, скорость работы и стоимость использования. Именно с его помощью разработчику удалось найти оптимальную модель для встраивания в продукты компании.Изначально автор просто хотел подобрать подходящую LLM для небольшого личного проекта, но столкнулся с тем, что существующие рейтинги и тесты не дают полной картины. Они либо замеряют только качество, либо не учитывают реальные затраты на инференс. Тогда он решил совместить все три метрики в одном испытании и проверить на нём несколько популярных моделей.В результатах теста оказалось, что некоторые дорогие и разрекламированные модели показывают не лучшую скорость, а бюджетные варианты неожиданно выдают достойное качество. Бенчмарк помог не только найти баланс между ценой и производительностью, но и выявить модели, которые лучше всего подходят для конкретных задач «Флаг Софт». Автор подчёркивает, что выбор LLM должен опираться не на маркетинг, а на практические замеры в реальных сценариях.Сейчас разработчик делится результатами своего «Испытания Дали» в надежде, что они помогут другим командам сэкономить время и деньги при выборе модели. Возможно, его методология ляжет в основу более формализованного внутреннего стандарта тестирования.

Источник: https://habr.com/ru/articles/1...

Добавил

Freemen 27 Апреля

нет комментариев

Комментарии участников:

Ни одного комментария пока не добавлено

Войдите или станьте участником, чтобы комментировать

LLM бенчмарк «Испытание Дали»

Вход без регистрации

Для участников

Или войдите через OpenID