DeepSeek-V3 0324
Мощная языковая модель типа Mixture-of-Experts (MoE) с 671 млрд общих параметров (37 млрд активируется для каждого токена). Включает Multi-head Latent Attention (MLA), балансировку нагрузки без вспомогательных потерь и обучение с предсказанием нескольких токенов. Предварительно обучена на 14,8 трлн токенов с высокой производительностью в задачах логического мышления, математики и программирования.
Основные характеристики
Временная шкала
Технические характеристики
Ценообразование и доступность
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Рассуждения
Другие тесты
Лицензия и метаданные
Похожие модели
Все моделиDeepSeek-V3
DeepSeek
DeepSeek-V3.1
DeepSeek
DeepSeek-R1-0528
DeepSeek
DeepSeek-R1
DeepSeek
DeepSeek-V2.5
DeepSeek
DeepSeek-V3.2-Exp
DeepSeek
DeepSeek R1 Distill Qwen 32B
DeepSeek
DeepSeek R1 Distill Llama 70B
DeepSeek
Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.