نمای کلی
این راهنما دستورالعملهای دقیق استقرار و اجرای مدل DeepSeek V3 در محیط محلی شما را ارائه میدهد. ما فرآیند کامل از راهاندازی پایه تا گزینههای استقرار پیشرفته را پوشش خواهیم داد و به شما در انتخاب مناسبترین استراتژی استقرار کمک میکنیم.
راهاندازی محیط
نیازمندیهای پایه
- GPU انویدیا (A100 یا H100 توصیه میشود) یا GPU ایامدی
 - حافظه سیستم کافی (۳۲ گیگابایت یا بیشتر توصیه میشود)
 - سیستم عامل لینوکس (اوبونتو ۲۰.۰۴ یا بالاتر توصیه میشود)
 - پایتون ۳.۸ یا بالاتر
 
آمادهسازی کد و مدل
۱. کلون کردن مخزن رسمی:
git clone https://github.com/deepseek-ai/DeepSeek-V3.git
cd DeepSeek-V3/inference
pip install -r requirements.txt۲. دانلود وزنهای مدل:
- دانلود وزنهای رسمی مدل از HuggingFace
 - قرار دادن فایلهای وزن در دایرکتوری مشخص شده
 
گزینههای استقرار
۱. استقرار نسخه نمایشی DeepSeek-Infer
این روش پایه استقرار است که برای آزمایش و تجربه سریع مناسب است:
python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 \
                 --save-path /path/to/DeepSeek-V3-Demo \
                 --n-experts 256 \
                 --model-parallel 16
torchrun --nnodes 2 --nproc-per-node 8 generate.py \
         --node-rank $RANK \
         --master-addr $ADDR \
         --ckpt-path /path/to/DeepSeek-V3-Demo \
         --config configs/config_671B.json \
         --interactive \
         --temperature 0.7 \
         --max-new-tokens 200۲. استقرار SGLang (توصیه شده)
SGLang نسخه ۰.۴.۱ عملکرد بهینه ارائه میدهد:
- پشتیبانی از بهینهسازی MLA
 - پشتیبانی از FP8 (W8A8)
 - پشتیبانی از حافظه نهان FP8 KV
 - پشتیبانی از Torch Compile
 - پشتیبانی از GPU انویدیا و ایامدی
 
۳. استقرار LMDeploy (توصیه شده)
LMDeploy راهحلهای استقرار سطح سازمانی ارائه میدهد:
- پردازش خط لوله آفلاین
 - استقرار سرویس آنلاین
 - یکپارچهسازی با گردش کار PyTorch
 - عملکرد استنتاج بهینهشده
 
۴. استقرار TRT-LLM (توصیه شده)
ویژگیهای TensorRT-LLM:
- پشتیبانی از وزن BF16 و INT4/INT8
 - پشتیبانی از FP8 در آینده نزدیک
 - سرعت استنتاج بهینهشده
 
۵. استقرار vLLM (توصیه شده)
ویژگیهای vLLM نسخه ۰.۶.۶:
- پشتیبانی از حالت FP8 و BF16
 - پشتیبانی از GPU انویدیا و ایامدی
 - قابلیت موازیسازی خط لوله
 - استقرار توزیعشده چند ماشینه
 
نکات بهینهسازی عملکرد
۱. بهینهسازی حافظه:
- استفاده از کمیسازی FP8 یا INT8 برای کاهش مصرف حافظه
 - فعالسازی بهینهسازی حافظه نهان KV
 - تنظیم اندازههای دسته مناسب
 
۲. بهینهسازی سرعت:
- فعالسازی Torch Compile
 - استفاده از موازیسازی خط لوله
 - بهینهسازی پردازش ورودی/خروجی
 
۳. بهینهسازی پایداری:
- پیادهسازی مکانیزمهای مدیریت خطا
 - افزودن نظارت و ثبت وقایع
 - بررسی منظم منابع سیستم
 
مشکلات رایج و راهحلها
۱. مشکلات حافظه:
- کاهش اندازه دسته
 - استفاده از دقت پایینتر
 - فعالسازی گزینههای بهینهسازی حافظه
 
۲. مشکلات عملکرد:
- بررسی استفاده از GPU
 - بهینهسازی پیکربندی مدل
 - تنظیم استراتژیهای موازی
 
۳. خطاهای استقرار:
- بررسی وابستگیهای محیط
 - تأیید وزنهای مدل
 - بررسی گزارشهای دقیق
 
گامهای بعدی
پس از استقرار پایه، میتوانید:
- انجام معیارسنجی عملکرد
 - بهینهسازی پارامترهای پیکربندی
 - یکپارچهسازی با سیستمهای موجود
 - توسعه ویژگیهای سفارشی
 
اکنون شما روشهای اصلی استقرار محلی DeepSeek V3 را فرا گرفتهاید. گزینه استقراری را که بهترین تناسب را با نیازهای شما دارد انتخاب کنید و شروع به ساخت برنامههای هوش مصنوعی خود کنید!