LLM бенчмарк «Испытание Дали»
Программист из компании «Флаг Софт» в процессе выбора языковой модели для своего первого пет-проекта случайно создал собственный бенчмарк под названием «Испытание Дали». Этот бенчмарк оценивает LLM по трём ключевым параметрам: качество ответов, скорость работы и стоимость использования. Именно с его помощью разработчику удалось найти оптимальную модель для встраивания в продукты компании.Изначально автор просто хотел подобрать подходящую LLM для небольшого личного проекта, но столкнулся с тем, что существующие рейтинги и тесты не дают полной картины. Они либо замеряют только качество, либо не учитывают реальные затраты на инференс. Тогда он решил совместить все три метрики в одном испытании и проверить на нём несколько популярных моделей.В результатах теста оказалось, что некоторые дорогие и разрекламированные модели показывают не лучшую скорость, а бюджетные варианты неожиданно выдают достойное качество. Бенчмарк помог не только найти баланс между ценой и производительностью, но и выявить модели, которые лучше всего подходят для конкретных задач «Флаг Софт». Автор подчёркивает, что выбор LLM должен опираться не на маркетинг, а на практические замеры в реальных сценариях.Сейчас разработчик делится результатами своего «Испытания Дали» в надежде, что они помогут другим командам сэкономить время и деньги при выборе модели. Возможно, его методология ляжет в основу более формализованного внутреннего стандарта тестирования.
Источник:
https://habr.com/ru/articles/1...
Добавил
Freemen 27 Апреля
нет комментариев
Комментарии участников:
Ни одного комментария пока не добавлено
