fbpx

Perplexity သည် Nvidia GB200 racks တွင် Qwen3 235B မော်ဒယ်များကို ဆောင်ရွက်ပေးသည်၊၊ အဓိက စုံစုံညီညွှတ်မှုကို ပြသသည်


Perplexity AI သည် ယခုအခါ Nvidia ၏ နောက်ဆုံးပေါ် ဟာ့ဒ်ဝဲတွင် ကြီးမားသော ဘာသာစကားမော်ဒယ်များကို လုပ်ဆောင်နေပြီး စွမ်းဆောင်ရည် ခုန်တက်မှုကို လျစ်လျူရှုရန် ခက်ခဲသည်။ ကုမ္ပဏီသည် Nvidia ၏ Blackwell-generation GB200 NVL72 racks တွင် လေ့ကျင့်သင်ကြားထားသော Qwen3 235B အရောအနှော-ကျွမ်းကျင်သူများ (MoE) မော်ဒယ်များ ဖြန့်ကျက်ခြင်းဆိုင်ရာ အသေးစိတ်နည်းပညာဆိုင်ရာ သုတေသနကို ထုတ်ပြန်ခဲ့ပြီး ယခင် Hopper-မျိုးဆက်စနစ်များထက် မြန်နှုန်းနှင့် ကုန်ကျစရိတ်များ သိသိသာသာ တိုးတက်မှုများကို ပြသထားသည်။

ဘယ်လို Perplexity ကို အမှန်တကယ် တည်ဆောက်ခဲ့တာလဲ။

စနစ်ထည့်သွင်းမှုတွင် GB200 NVL72 rack များပါဝင်ပြီး တစ်ခုစီတွင် လှိုင်းနှုန်းမြင့်မှတ်ဉာဏ် 180 GB ပါရှိသော GPU 72 ခုစီပါရှိသည်။ အဆိုပါ GPU များသည် 72-way NVLink မှတစ်ဆင့် ချိတ်ဆက်ထားပြီး ၎င်းတို့ကြားတွင် bandwidth 1,800 GB/s ကို ပေးဆောင်သည်။

ဤနေရာတွင် ကိန်းဂဏာန်းများ စိတ်ဝင်စားစရာ ကောင်းသည်။ NVLink all-reduce operations အတွက် latency သည် H200 (Hopper) တွင် 586.1 microseconds မှ GB200 တွင် 313.3 microseconds သို့ ကျဆင်းသွားသည်။ အဲဒါက 46% လျော့သွားတယ်။ MoE ကြိုတင်ဖြည့်စွက်မှုပေါင်းစပ်ချိန်သည် 730.1 မိုက်ခရိုစက္ကန့်မှ 438.5 မိုက်ခရိုစက္ကန့်သို့ ကျဆင်းသွားကာ အကြမ်းအားဖြင့် 40% တိုးတက်မှုရှိသည်။

အချို့သောဖွဲ့စည်းပုံများအတွက် H100 အခြေခံမျဥ်းများနှင့် နှိုင်းယှဉ်ပါက 30x အချိန်နှင့်တပြေးညီ ကောက်ချက်ချနိုင်မှုအထိ ရရှိနိုင်သည်ဟု ရှုပ်ထွေးမှုကလည်း အစီရင်ခံပါသည်။

ပါးပျဉ်းအောက်မှာ အင်ဂျင်နီယာ

Perplexity ၏ သုတေသနပြုချက်သည် Blackwell ဗိသုကာလက်ရာမှ ပိုမိုစွမ်းဆောင်ရည်ကို ညှစ်ထုတ်သည့် ဆော့ဖ်ဝဲလ်အဆင့် ပိုမိုကောင်းမွန်အောင် လုပ်ဆောင်မှုများကို မီးမောင်းထိုးပြသည်။ ၎င်းတို့တွင် Blackwell-native quantization ပါ၀င်သည်၊ ၎င်းတွင် တွက်ချက်မှုအား အရှိန်မြှင့်ရန်အတွက် မော်ဒယ်အလေးများ၏ တိကျမှုကို လျှော့ချပေးသည့် output quality ကို အဓိပ္ပါယ်မဲ့စွာ ကျဆင်းစေပါသည်။ ကြိုတင်ဖြည့်သွင်း/ကုဒ် ကွဲလွဲမှု ခွဲထွက်ခြင်းလည်း ရှိပါသည်၊ သင်္ကေတတစ်ခု၏ ကနဦးလုပ်ဆောင်မှုကို တိုကင်မှ တိုကင်မျိုးဆက်အဆင့်မှ ပိုင်းခြားပေးသည့် နည်းပညာတစ်ခုလည်း ရှိပါသည်။ ဤအထူးသဖြင့် ဟာ့ဒ်ဝဲ topology တွင် 235 ဘီလီယံတန် ပါရာမီတာ MoE မော်ဒယ်ကို ဝန်ဆောင်မှုပေးရန်အတွက် သီးခြားတောင်းဆိုချက်များအတွက် Perplexity ရေးသားခြင်း အထူးပြုကုဒ်ကို ချိန်ညှိခြင်းဖြင့် စိတ်ကြိုက်ပြင်ဆင်မှုအစုအဝေးကို ဖယ်ထုတ်ထားပါသည်။

ဟာ့ဒ်ဝဲနှင့် ဆော့ဖ်ဝဲလ်တိုးတက်မှုများ ပေါင်းစပ်ခြင်းသည် Hopper-based စနစ်များနှင့် နှိုင်းယှဉ်ပါက အထွက်အရည်အသွေးကို တိုးတက်စေပြီး GB200 NVL72 စနစ်ထည့်သွင်းမှုတွင် အနုအရင့် ကုန်ကျစရိတ်များကို သိသိသာသာ လျော့နည်းစေသည်။

ပိုမိုကျယ်ပြန့်သော AI ဟာ့ဒ်ဝဲပြိုင်ပွဲအတွက် ၎င်းသည် အဘယ်ကြောင့် အရေးကြီးသနည်း။

ဤအသုံးချမှုသည် AMD ၏ MI300X နှင့် AWS ၏ စိတ်ကြိုက် Trainium ချစ်ပ်များကဲ့သို့သော အခြားရွေးချယ်စရာများနှင့်ဆန့်ကျင်ဘက် Nvidia ၏ရပ်တည်ချက်ကို အားကောင်းစေသည်။ 1,800 GB/s bandwidth ကိုပေးဆောင်သည့် 72-GPU NVLink topology သည် ပြိုင်ဆိုင်မှုဖြေရှင်းနည်းများသည် GPU အများအပြားကို တစ်ပြိုင်နက်တည်းလုပ်ဆောင်ရန် လိုအပ်သည့် မော်ဒယ်များကို ဝန်ဆောင်မှုပေးသည့်အခါတွင် ပိတ်ဆို့မှုများကို ဖန်တီးပေးသည့် ချစ်ပ်များကြားတွင် နှေးကွေးသော အပြန်အလှန်ချိတ်ဆက်မှုများကို မကြာခဏ မှီခိုနေရသောကြောင့်၊

ထုတ်ဖော်ချက်- ဤဆောင်းပါးကို အယ်ဒီတာအဖွဲ့မှ တည်းဖြတ်ထားပါသည်။ အကြောင်းအရာကို ကျွန်ုပ်တို့ ဖန်တီးပုံနှင့် ပြန်လည်သုံးသပ်ခြင်းဆိုင်ရာ နောက်ထပ်အချက်အလက်များအတွက် ကျွန်ုပ်တို့၏ နေရာကို ကြည့်ပါ။ အယ်ဒီတာ့အာဘော် မူဝါဒ.



Source

Comments are closed, but trackbacks and pingbacks are open.