Модель DeepSeek R1 хорошо справляется с математическими задачами и программированием, применяя метод «chain of thought» – разбиение решения на последовательные шаги. Например, в математической задаче модель сначала разбирает условия, потом поэтапно рассчитывает значения и только затем выдаёт итоговое решение. Этот метод особенно эффективен, когда требуются логические рассуждения или нужно работать с большими объёмами данных, где важно обрабатывать информацию шаг за шагом.
Помимо основной версии DeepSeek выпустила шесть упрощённых моделей, одну из которых можно запускать на ноутбуке.
Напомним, что США ввели экспортные ограничения, которые запрещают поставки в Китай высокопроизводительных полупроводников и чипов, таких как графические процессоры (GPU) Nvidia A100 и H100. Это создает дефицит вычислительных ресурсов, необходимых для обучения и работы больших языковых моделей. Но, похоже, что эти меры не работают так, как предполагалось. Санкции поталкивают такие компании как DeepSeek искать способы повышения эффективности, объединения ресурсов и кооперации.
Компания DeepSeek создана в Ханчжоу в июле 2023 года Лян Вэньфэном, выпускником Чжэцзянского университета. DeepSeek —одна из немногих ведущих компаний в области искусственного интеллекта в Китае, которая не зависит от финансирования таких технологических гигантов, как Baidu, Alibaba или ByteDance. Компания получает финансирование от хедж-фонда High-Flyer, основанного Лян Вэньфэном в 2015 году.
DeepSeek сфокусирована на разработке решений, которые минимизируют потребление ресурсов и снижают объемы используемой памяти и, таким образом, ускоряют работу модели. Чтобы добиться эффективности работы модель была адаптирована под менее мощные чипы, доступные в Китае. Компания использовала около 2048 GPU H800 и и потратила 5,6 млн долларов для обучения модели с 671 млрд параметров.
Для сравнения — обучение GPT-4 OpenAI обошлось примерно в 78,4 млн долларов, а обучение модели PaLM (540B) от Google — 12,4 млн долларов. LLM от Google, Gemini Ultra, стоит еще дороже — 191 млн долларов.
Подход open-source становится всё более популярным среди компаний, которые сталкиваются с ограниченными вычислительными ресурсами. Для компаний вроде DeepSeek, которые работают в условиях ограниченного доступа к передовым чипам и других ресурсов, подход open-source открывает возможность разрабатывать конкурентоспособные решения, используя уже готовые базовые модели. Это позволяет не только экономить средства, но и сокращать время на создание и внедрение технологий.
Кроме того, open-source способствует обмену опытом и знаниями. Исследователи, инженеры и разработчики могут делиться своими наработками, улучшать код и предлагать новые подходы. Это создаёт коллаборативную среду, где идеи развиваются быстрее, чем в изолированных корпоративных проектах.