
Компания DeepSeek выпустила экспериментальную модель V3.2-e, которая значительно снижает стоимость обработки длинных контекстов. Главной инновацией стала технология «разреженного внимания» — сложная система, позволяющая эффективно выбирать важные фрагменты текста для анализа. В её основе лежит модуль «lightning inde», который выделяет ключевые отрывки из контекста, а затем система «fine-grained token selection» выбирает конкретные токены для обработки в ограниченном окне внимания модели.
Это позволяет модели работать с большими объёмами информации, не перегружая серверы. В предварительных тестах DeepSeek удалось снизить стоимость простого API-вызова почти вдвое при работе с длинными контекстами. Модель с открытыми весами доступна на платформе Hugging Face, что даёт возможность независимым специалистам проверить и подтвердить эти результаты.
Новое решение DeepSeek — важный шаг в направлении снижения затрат на работу с предобученными AI-моделями, поскольку именно операционные (инференсные) расходы часто оказываются значительнее затрат на обучение. DeepSeek сосредоточилась на оптимизации базовой архитектуры трансформеров, добившись заметных улучшений.
Компания из Китая уже привлекла внимание в начале года моделью R1, которая была обучена с применением методов подкрепления и при этом стоила значительно дешевле аналогов из США. Хотя эта модель не вызвала революцию в индустрии, DeepSeek продолжает развивать технологии, предлагая интересные решения для повышения эффективности AI. Новый подход с «разреженным вниманием» может стать полезным для многих провайдеров, стремящихся сократить операционные расходы на AI-сервисы.


