Tencent представила Hunyuan-T1 — новую модель ИИ, которая бросает вызов DeepSeek и OpenAI

Китайский Tencent анонсировал свою новую модель искусственного интеллекта Hunyuan-T1, которая, по заявлению компании, конкурирует с DeepSeek R1 и OpenAI (GPT-4.5/o1) в ключевых категориях, включая логическое мышление, математику и обработку текста.

Ключевые характеристики и сравнение (по данным компании)

Математика и логика:

  • На тесте MATH-500 Hunyuan-T1 показал 96.2%, что близко к DeepSeek-R1 с 97.3%. Это демонстрирует его конкурентоспособность в математике — ключевом направлении для оценки reasoning-моделей
  • В AIME 2024 результат — 78,2 балла, что близко к DeepSeek R1 (79,8) и OpenAI o1 (79,2).

Знания и язык:

  • Для MMLU-Pro (Massive Multitask LanguageUnderstanding – Professional), разработанного для оценки знаний ИИ-моделей в профессиональных и академических областях, Hunyuan-T1показала 87,2 балла, что выше, чем у DeepSeek R1 (84), но ниже, чем у OpenAI o1 (89,3).
  • В китайском языке (C-Eval) модель показала 91,8 балла, сравнимый с DeepSeek R1 и лучше, чем у OpenAI o1 (87,8).

Скорость и стоимость:

  • Использует гибридную архитектуру Transformer + Mamba, что, по заявлению Tencent, ускоряет обработку текста в 2 раза и снижает затраты на вычисления.
  • Цена: 1 юань за 1 млн входных токенов (как у DeepSeek R1), вывод — 4 юаня за 1 млн токенов.

Как разрабатывалась модель?

Основной упор в обучении делался на reinforcementlearning или обучение с подкреплением: 96.7% вычислительных мощностей после обучения было направлено на reinforcement learning. Т.е., что основная «доработка» модели происходила через механизм наград/штрафов.

Применялся постепенный подход к сложности задач (curriculum learning) и самооценка модели — более ранние версии оценивали новые.

Первые тесты начались в январе 2025 (бета-версия T1-preview в чат-боте Yuanbao), а официальный релиз состоялся 21 марта 2025.

Что говорят эксперты?

В тестах BIG-Bench Extra Hard (BBEH) (версия масштабного теста BIG-Bench, созданная GoogleDeepMind для оценки предельных возможностей современных ИИ-моделей в решениисверхсложных, нестандартных и комплексных задач) Hunyuan-T1 показал ~7% точности, как и DeepSeek R1, что говорит о том, что даже топовые модели пока далеки от человеческого уровня в самых сложных задачах.

В независимых тестах (например, от блога NCJRYDS) модель проиграла DeepSeek в создании стихов на древнекитайском, но выиграла в интерпретации многозначных слов.

В тесте GoPlayAI для выявления слабых мест модели (например, долгий анализ сложных задач) Hunyuan-T1 не справился со сложным математическим вопросом после 5 минут вычислений.

Что это значит для рынка?

Tencent позиционирует Hunyuan-T1 как альтернативу DeepSeek и OpenAI, особенно для китайского рынка. Компания использует «двойную стратегию»: продвигает свою модель и интегрирует DeepSeek R1 в свои сервисы (например, облако TencentCloud и чат-бот Yuanbao).

Hunyuan-T1 — подающий надежды игрок в области ИИ-рассуждений, особенно в математике и китайском языке. Но, как и все модели, она не идеальна: в сверхсложных тестах и узких задачах есть пробелы. Впрочем, учитывая скорость развития Tencent, конкуренция между китайскими и западными ИИ будет только нарастать.

О Tencent

Tencent — крупная китайская технологическая компания, основанная в 1998 году. Известна продуктами:

  • WeChat — многофункциональный мессенджер с платежами и мини-приложениями
  • QQ — одна из первых массовых платформ для онлайн-общения в Китае
  • Tencent Cloud — облачная платформа с ИИ-сервисами
  • Tencent Games — разработка и издание популярных игровых проектов

В последние годы компания развивает направление искусственного интеллекта. Tencent придерживается гибкой стратегии — параллельно с развитием собственных ИИ-разработок сотрудничает с другими лидерами отрасли, предлагая пользователям выбор технологий. Такой подход ранее успешно применялся компанией в игровом бизнесе.

 

Автор: Владимир Кораблёв.

Тематики: ПО

Ключевые слова: Нейросети