Как сократить расходы на инференс LLM? Кейс компании «Актион»
22 августа 2024 г. в 16.00 (мск) пройдет вебинар «Как сократить расходы на инференс LLM? Кейс компании «Актион».
Что будет на вебинаре?
Вместе с коллегами из Compressa и «Актион» обсудим способы оптимизации open-source LLM-моделей на своем сервере и преимущества использования облака для инференса LLM. Сравним производительность LLM и стоимость токенов до и после оптимизации. Разберем кейс «Актион» и Compressa по обработке 100 000+ генераций в день всего на одной GPU-карте и узнаем, как удалось сократить расходы на инференс LLM.
Кому будет полезно
- ML- и MLOps-инженерам
- Data Scientists и NLP-инженерам
- CTO и менеджерам ML-проектов
Программа
- Проблемы внешних API и open-source моделей «из коробки»
- Способы оптимизации LLM-моделей на своем сервере
- Сравнение производительности и стоимости токенов после оптимизации LLM
- Инфраструктура Selectel для инференса LLM-моделей
- Кейс «Актион» и Compressa. Оценка окупаемости решения и использование LLM в продакшене
- Ответы на вопросы
Подробности ирегистрация по ссылке
Тематики:
Интеграция
Ключевые слова:
Selectel, Машинное обучение (ML)