تحسين Deepseek Blackwell

بنية الذكاء الاصطناعي من الجيل التالي التي تعزز نموذج DeepSeek-R1-FP4 بأداء وكفاءة غير مسبوقة للنماذج اللغوية الكبيرة.

NVIDIA Blackwell Architecture Visualization

مثال استخدام واجهة برمجة التطبيقات

قم بنشر DeepSeek-R1-FP4 باستخدام TensorRT-LLM باستخدام رمز Python البسيط هذا:

from tensorrt_llm import SamplingParams
from tensorrt_llm._torch import LLM

def main():

    prompts = [
        "Hello, my name is",
        "The president of the United States is",
        "The capital of France is",
        "The future of AI is",
    ]
    sampling_params = SamplingParams(max_tokens=32)

    llm = LLM(model="nvidia/DeepSeek-R1-FP4", tensor_parallel_size=8, enable_attention_dp=True)

    outputs = llm.generate(prompts, sampling_params)

    # Print the outputs.
    for output in outputs:
        prompt = output.prompt
        generated_text = output.outputs[0].text
        print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")


# The entry point of the program need to be protected for spawning processes.
if __name__ == '__main__':
    main()

ملاحظة: يتطلب هذا المثال 8 وحدات معالجة رسومات B200 مع TensorRT-LLM مبني من أحدث فرع رئيسي.

الميزات الرئيسية

نموذج DeepSeek-R1-FP4: نسخة مكممة من نموذج DeepSeek AI R1 مُحسنة لبنية NVIDIA Blackwell، تقلل بتات المعلمات من 8 إلى 4 مع الحفاظ على الأداء.
تحسين TensorRT-LLM: يستفيد من TensorRT-LLM من NVIDIA للاستدلال عالي الأداء، مما يتيح النشر الفعال على وحدات معالجة الرسومات Blackwell مع متطلبات ذاكرة مخفضة.
طول سياق 128K: يدعم طول سياق ممتد يصل إلى 128K رمز، مما يتيح تحليلًا شاملاً للمستندات والمحادثات الطويلة مع الحفاظ على التماسك.
تخفيض الذاكرة بمقدار 1.6 مرة: يقلل التكميم FP4 من حجم القرص ومتطلبات ذاكرة وحدة معالجة الرسومات بحوالي 1.6 مرة مقارنة بالنماذج ذات 8 بت، مما يتيح نشرًا أكثر كفاءة.

الأسئلة الشائعة

ما هو NVIDIA Blackwell؟: NVIDIA Blackwell هو بنية ذكاء اصطناعي من الجيل التالي مصممة لتقديم أداء وكفاءة غير مسبوقين للنماذج اللغوية الكبيرة وأعباء عمل الذكاء الاصطناعي الأخرى. إنها منصة الأجهزة التي تدعم نموذج DeepSeek-R1-FP4.
ما هو DeepSeek-R1-FP4؟: DeepSeek-R1-FP4 هو النسخة المكممة من نموذج DeepSeek AI R1، المحسن لبنية NVIDIA Blackwell. يستخدم تكميم FP4 لتقليل متطلبات الذاكرة مع الحفاظ على أداء عالٍ لمهام الاستدلال.
لماذا نستخدم تكميم FP4؟: يقلل تكميم FP4 عدد البتات لكل معلمة من 8 إلى 4، مما يؤدي إلى تقليل حجم القرص ومتطلبات ذاكرة وحدة معالجة الرسومات بحوالي 1.6 مرة. هذا يتيح نشرًا أكثر كفاءة للنماذج اللغوية الكبيرة دون تدهور كبير في الأداء.
كيف يمكنني نشر نموذج DeepSeek-R1-FP4؟: يمكن نشر النموذج باستخدام TensorRT-LLM على وحدات معالجة الرسومات NVIDIA Blackwell. رمز النشر المثال متاح على صفحة نموذج Hugging Face، وستحتاج إلى 8 وحدات معالجة رسومات B200 مع TensorRT-LLM مبني من أحدث فرع رئيسي.