تحسين Deepseek Blackwell
بنية الذكاء الاصطناعي من الجيل التالي التي تعزز نموذج DeepSeek-R1-FP4 بأداء وكفاءة غير مسبوقة للنماذج اللغوية الكبيرة.
مثال استخدام واجهة برمجة التطبيقات
قم بنشر DeepSeek-R1-FP4 باستخدام TensorRT-LLM باستخدام رمز Python البسيط هذا:
from tensorrt_llm import SamplingParams
from tensorrt_llm._torch import LLM
def main():
prompts = [
"Hello, my name is",
"The president of the United States is",
"The capital of France is",
"The future of AI is",
]
sampling_params = SamplingParams(max_tokens=32)
llm = LLM(model="nvidia/DeepSeek-R1-FP4", tensor_parallel_size=8, enable_attention_dp=True)
outputs = llm.generate(prompts, sampling_params)
# Print the outputs.
for output in outputs:
prompt = output.prompt
generated_text = output.outputs[0].text
print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
# The entry point of the program need to be protected for spawning processes.
if __name__ == '__main__':
main()
ملاحظة: يتطلب هذا المثال 8 وحدات معالجة رسومات B200 مع TensorRT-LLM مبني من أحدث فرع رئيسي.
الميزات الرئيسية
- نموذج DeepSeek-R1-FP4
نسخة مكممة من نموذج DeepSeek AI R1 مُحسنة لبنية NVIDIA Blackwell، تقلل بتات المعلمات من 8 إلى 4 مع الحفاظ على الأداء.
- تحسين TensorRT-LLM
يستفيد من TensorRT-LLM من NVIDIA للاستدلال عالي الأداء، مما يتيح النشر الفعال على وحدات معالجة الرسومات Blackwell مع متطلبات ذاكرة مخفضة.
- طول سياق 128K
يدعم طول سياق ممتد يصل إلى 128K رمز، مما يتيح تحليلًا شاملاً للمستندات والمحادثات الطويلة مع الحفاظ على التماسك.
- تخفيض الذاكرة بمقدار 1.6 مرة
يقلل التكميم FP4 من حجم القرص ومتطلبات ذاكرة وحدة معالجة الرسومات بحوالي 1.6 مرة مقارنة بالنماذج ذات 8 بت، مما يتيح نشرًا أكثر كفاءة.
الأسئلة الشائعة
- ما هو NVIDIA Blackwell؟
- NVIDIA Blackwell هو بنية ذكاء اصطناعي من الجيل التالي مصممة لتقديم أداء وكفاءة غير مسبوقين للنماذج اللغوية الكبيرة وأعباء عمل الذكاء الاصطناعي الأخرى. إنها منصة الأجهزة التي تدعم نموذج DeepSeek-R1-FP4.
- ما هو DeepSeek-R1-FP4؟
- DeepSeek-R1-FP4 هو النسخة المكممة من نموذج DeepSeek AI R1، المحسن لبنية NVIDIA Blackwell. يستخدم تكميم FP4 لتقليل متطلبات الذاكرة مع الحفاظ على أداء عالٍ لمهام الاستدلال.
- لماذا نستخدم تكميم FP4؟
- يقلل تكميم FP4 عدد البتات لكل معلمة من 8 إلى 4، مما يؤدي إلى تقليل حجم القرص ومتطلبات ذاكرة وحدة معالجة الرسومات بحوالي 1.6 مرة. هذا يتيح نشرًا أكثر كفاءة للنماذج اللغوية الكبيرة دون تدهور كبير في الأداء.
- كيف يمكنني نشر نموذج DeepSeek-R1-FP4؟
- يمكن نشر النموذج باستخدام TensorRT-LLM على وحدات معالجة الرسومات NVIDIA Blackwell. رمز النشر المثال متاح على صفحة نموذج Hugging Face، وستحتاج إلى 8 وحدات معالجة رسومات B200 مع TensorRT-LLM مبني من أحدث فرع رئيسي.