24 апреля

Вышли DeepSeek V4 Flash и V4 Pro с контекстом на миллион токенов

Изображение: Solen Feyissa (unsplash)

Китайская команда DeepSeek представила предварительные версии флагманских моделей V4 Flash и V4 Pro, отчитавшись о серьёзном рывке в программировании, логике и сложных агентных задачах. Обе системы тянут контекстное окно до миллиона токенов, что сильно раздвигает горизонты применения. Новинки разработчики выпустили в паре, разведя их по разным весовым категориям.

Под капотом у моделей лежат обновлённые архитектурные решения и пачка оптимизаций для работы с длинными цепочками запросов. Главная техническая фишка касается поддержки контекста в 1 млн токенов, что резко раздвигает горизонты для разбора объёмных документов, долгих диалогов и многошаговых задач.

Отдельную ставку команда DeepSeek сделала на гибридную архитектуру внимания. По словам разработчиков, такая схема прокачивает способность модели удерживать и перерабатывать информацию на протяжении длинного взаимодействия, что критично для задач с множеством предыдущих шагов.

Две версии заточены под разные классы сценариев. Модель V4 Pro выступает тяжеловесом верхнего уровня. Она оперирует объёмом примерно в 1,6 терабайта параметров и поднимает 49 миллиардов активных параметров во время работы. По утверждению разработчиков, её мощности хватает для паритета с лучшими закрытыми моделями на рынке.

Вариант V4 Flash бьёт в сторону эффективности и скорости отклика. Его объём держится на уровне 284 гигабайт при 13 миллиардах активных параметров. Такое соотношение даёт возможность вкатывать модель в широкий круг задач без чрезмерных запросов к железу.

Релиз V4 стал продолжением линии после нашумевшего выпуска R1, который ранее встряхнул рынок. Та модель с открытым кодом, способная имитировать человеческое рассуждение, вызвала громкий резонанс и заметно повлияла на котировки технологических компаний.

Автор: Артем

Представитель редакции CISOCLUB. Пишу новости, дайджесты, добавляю мероприятия и отчеты.

Комментарии: