В основе новой технологии лежит метод «self-principled critique tuning» (SPCT) и система оценки Generative Reward Modeling (GRM), которая позволяет ИИ самостоятельно анализировать свои ответы и улучшать их с каждым разом.
DeepSeek GRM не просто оценивает ответы ИИ, а формирует подробные критические разборы, помогая системе становиться точнее и надёжнее. Среди ключевых особенностей — использование стратегии выборки и голосования для снижения предвзятости, а также интеграция вспомогательной модели Meta RM для окончательной оценки качества решений.
Эти наработки легли в основу нового поколения модели DeepSeek R2, которая, по заявлениям компании, может составить конкуренцию таким лидерам рынка, как GPT-4 от OpenAI и Llama 4 от Meta. Ожидается, что R2 будет официально представлена в мае, однако точная дата пока не раскрывается.
Отдельно отмечается, что DeepSeek планирует сделать свои модели с открытым исходным кодом, чтобы их могли свободно использовать и дорабатывать другие разработчики.