Китайская компания SHI Deepseek представила новую версию своей флагманской большой лингвистической модели Deeseek V3.1. Гизмочина сообщает, что компания тихо объявила об обновлении 19 августа 2025 года в своей группе в WeChat, без публикаций по официальным каналам.
Deepeseek v3.1 обновления ключей
Наиболее важным изменением V3.1 было увеличение окна контекста до 128 000 токенов, что позволяет модели разрабатывать объем информации, эквивалентной 300-400 страницам.
Это значительно улучшает возможность создания длинного содержания, анализа технических документов и поддержания длительных многоэтапных диалогов. Хотя модель V3 уже имела внутреннюю поддержку расширенного контекста, она была официально активирована в новой версии для всех интерфейсов.
Deeseek v3.1 продолжает использовать архитектуру смеси экспертов (MOE), которая допускает всего 37 миллиардов из общей 685 миллиардов параметров на токен. Это повышает эффективность и снижает стоимость модели.
Модель доступна для разработчиков через API или для загрузки обнимающего лица под открытой лицензией MIT.
Высокие рейтинги и изменение стратегии
Обновленная модель показала хорошие результаты в независимых тестах. Он набрал 71,6% на тестирование Aider для программирования, опередив Claude Opus 4 и стал одной из самых сильных открытых моделей для написания кода.
Deepeeek v3.1 также продемонстрировал улучшенную производительность в математических и логических задачах, хотя некоторые пользователи не заметили явных улучшений в рассуждениях по сравнению с предыдущей моделью R1-0528.
Deepeseek удалил все упоминание модели R1 из своего интерфейса чата, что указывает на переход к одной гибридной архитектуре. Компания, похоже, интегрировала возможность рассуждения в V3.1, вместо того, чтобы поддерживать отдельную модель.
Задержка модели R2 через чипсы Huawei
Ожидалось, что следующим великим выпуском Deeseek станет долгожданная модель R2, которая должна способствовать возможности рассуждения. Однако, согласно недавнему заявлению Financial Times, проблема R2 была отложена из -за постоянных технических проблем с использованием Huawei Ascend Huawei.
Сообщается, что Пекин настаивал на использовании оборудования для восходов для снижения зависимости от NVIDIA, что соответствует национальной стратегии Китая по самооценке в области ИИ.
Несмотря на поддержку инженеров Huawei, обучение модели на Ascend Chip не удалось из -за проблем совместимости и производительности. В конце концов, компания была вынуждена перейти на графический процессор из NVIDIA для обучения, а чипсы воспитания уходят для менее требовательных задач.
Этот инцидент подчеркнул ограничение внутренней инфраструктуры Китая для чипсов и трудностей, с которыми сталкиваются стартапы, пытаясь выполнить политические и технические требования одновременно. В то время как конкуренты, такие как Alibaba с моделью QWEN3, продвигаются вперед, Deeseek пытается решить проблемы с разработкой.