Обзор
Это руководство предоставляет подробные инструкции по развертыванию и запуску модели DeepSeek V3 в вашей локальной среде. Мы охватим полный процесс от базовой настройки до продвинутых опций развертывания, помогая вам выбрать наиболее подходящую стратегию развертывания.
Настройка окружения
Базовые требования
- GPU NVIDIA (рекомендуется A100 или H100) или GPU AMD
 - Достаточно системной памяти (рекомендуется 32ГБ+)
 - Операционная система Linux (рекомендуется Ubuntu 20.04 или выше)
 - Python 3.8 или выше
 
Подготовка кода и модели
- Клонируйте официальный репозиторий:
 
git clone https://github.com/deepseek-ai/DeepSeek-V3.git
cd DeepSeek-V3/inference
pip install -r requirements.txt- Загрузите веса модели:
 
- Скачайте официальные веса модели с HuggingFace
 - Поместите файлы весов в указанную директорию
 
Варианты развертывания
1. Демонстрационное развертывание DeepSeek-Infer
Это базовый метод развертывания, подходящий для быстрого тестирования:
python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 \
                 --save-path /path/to/DeepSeek-V3-Demo \
                 --n-experts 256 \
                 --model-parallel 16
torchrun --nnodes 2 --nproc-per-node 8 generate.py \
         --node-rank $RANK \
         --master-addr $ADDR \
         --ckpt-path /path/to/DeepSeek-V3-Demo \
         --config configs/config_671B.json \
         --interactive \
         --temperature 0.7 \
         --max-new-tokens 2002. Развертывание SGLang (Рекомендуется)
SGLang v0.4.1 предлагает оптимальную производительность:
- Поддержка оптимизации MLA
 - Поддержка FP8 (W8A8)
 - Поддержка FP8 KV кэша
 - Поддержка Torch Compile
 - Поддержка GPU NVIDIA и AMD
 
3. Развертывание LMDeploy (Рекомендуется)
LMDeploy предоставляет корпоративные решения для развертывания:
- Офлайн обработка конвейера
 - Онлайн развертывание сервиса
 - Интеграция с рабочим процессом PyTorch
 - Оптимизированная производительность вывода
 
4. Развертывание TRT-LLM (Рекомендуется)
Особенности TensorRT-LLM:
- Поддержка весов BF16 и INT4/INT8
 - Предстоящая поддержка FP8
 - Оптимизированная скорость вывода
 
5. Развертывание vLLM (Рекомендуется)
Особенности vLLM v0.6.6:
- Поддержка режимов FP8 и BF16
 - Поддержка GPU NVIDIA и AMD
 - Возможность конвейерного параллелизма
 - Многомашинное распределенное развертывание
 
Советы по оптимизации производительности
- 
Оптимизация памяти:
- Используйте квантование FP8 или INT8 для уменьшения использования памяти
 - Включите оптимизацию KV кэша
 - Установите подходящие размеры батча
 
 - 
Оптимизация скорости:
- Включите Torch Compile
 - Используйте конвейерный параллелизм
 - Оптимизируйте обработку ввода/вывода
 
 - 
Оптимизация стабильности:
- Внедрите механизмы обработки ошибок
 - Добавьте мониторинг и логирование
 - Регулярные проверки системных ресурсов
 
 
Распространенные проблемы и решения
- 
Проблемы с памятью:
- Уменьшите размер батча
 - Используйте меньшую точность
 - Включите опции оптимизации памяти
 
 - 
Проблемы с производительностью:
- Проверьте использование GPU
 - Оптимизируйте конфигурацию модели
 - Настройте стратегии параллелизма
 
 - 
Ошибки развертывания:
- Проверьте зависимости окружения
 - Проверьте веса модели
 - Просмотрите подробные логи
 
 
Следующие шаги
После базового развертывания вы можете:
- Провести тестирование производительности
 - Оптимизировать параметры конфигурации
 - Интегрировать с существующими системами
 - Разработать пользовательские функции
 
Теперь вы освоили основные методы локального развертывания DeepSeek V3. Выберите вариант развертывания, который лучше всего соответствует вашим потребностям, и начните создавать свои AI-приложения!