آموزش مدل زبان بزرگ (LLM) با سریع ترین ابررایانه جهان !

مهندسان کامپیوتر موفق شدند یک مدل زبان بزرگ(LLM) به اندازه چت بات ChatGPT را در سریع ترین ابررایانه جهان معروف به Frontier آموزش دهند.

سریع ترین ابررایانه جهان

ابررایانه Frontier که توسط آزمایشگاه ملی Oak Ridge در ایالات متحده ساخته شده است، توانست یک مدل زبان بزرگ به اندازه ChatGPT شرکت OpenAI را آموزش دهد. برای آموزش مدل LLM، ابررایانه Frontier از 3000 پردازنده گرافیکی AMD استفاده کرده است . پردازنده های گرافیک معمولا AMD از قدرت پردازشی بالایی برخوردار هستند و برای آموزش مدل های زبان بزرگ انتخاب مناسبی خواهند بود. سریع ترین ابررایانه جهان تنها با 8 درصد از ظرفیت MI250X GPU خود حدود یک تریلیون پارامتر را پردازش کند.

این تیم مطالعاتی جزئیات نحوه انجام این کار و چالش هایی را که در طول مسیر با آن روبرو بود را به تازگی منتشر کرد. ابرکامپیوتر Frontierبه 9472 پردازنده مرکزی و 37888 پردازنده گرافیکی مجهز شده است. این ابرکامپیوتر می‌تواند در ثانیه 1.1 اگزافلاپس محاسبه را انجام دهد. برای آموزش دو مدل زبان بزرگ (LLM) تیم مهندسی Frontier تنها از بخش کوچکی از قدرت این ابرکامپیوتر استفاده کرد. برای آموزش یک LLM با یک تریلیون پارامتر آنها تصمیم گرفتند از 3072 پردازنده گرافیکی استفاده کنند. برای آموزش یک مدل دیگر LLM با 175 میلیارد پارامتر، از 1024 پردازنده گرافیکی استفاده کردند.

آموزش یک مدل LLM یک فرآیند زمان‌بر و پرهزینه است. استفاده از ابرکامپیوتر Frontier برای این کار، امکان آموزش این مدل‌های پیچیده در مدت‌زمان کوتاه‌تری را فراهم می کند. چالشی که در طول آموزش چنین مدل زبان بزرگی مهندسان با آن مواجه شدند، میزان حافظه بود. این محاسبات به حداقل 14 ترابایت حافظه و چندین پردازنده گرافیکی MI250X با 64 گیگابایت VRAM نیاز داشت. این نیازها مشکل جدیدی ایجاد می کرد: موازی سازی! استفاده از پردازنده‌های گرافیکی بیشتر در مدل LLM به ارتباطات بهتری نیاز دارد تا در واقع از منابع بیشتر به صورت موثر استفاده شود. در غیر این صورت، بیشتر انرژی GPU به هدر می رود.

این مقاله خاطرنشان می کند که چالش کلیدی در آموزش چنین LLM بزرگی، میزان حافظه مورد نیاز است که حداقل 14 ترابایت بود. این بدان معناست که چندین پردازنده گرافیکی MI250X با 64 گیگابایت VRAM هر کدام نیاز به استفاده دارند، اما این یک مشکل جدید ایجاد کرد: موازی سازی. برای آموزش یک LLM، پردازنده‌های گرافیکی باید داده‌ها را با یکدیگر به اشتراک بگذارند. این داده‌ها می‌توانند شامل وزن‌های مدل، داده‌های آموزشی و نتایج محاسبات باشند. اگر ارتباطات بین پردازنده‌های گرافیکی به یک اندازه نباشد، ممکن است این داده‌ها به کندی یا با خطا منتقل شوند. این کار می‌تواند منجر به کاهش عملکرد مدل زبانی شود.

مهندسان در چارچوب‌هایی مانند Megatron-DeepSpeed و FSDP، تغییراتی ایجاد کردند تا عملکرد برنامه را بهبود بخشند. آنها در نهایت توانستند راندمان مقیاس‌گذاری ضعیف را به 100% برسانند. بنابراین با افزایش تعداد پردازنده‌های گرافیکی مورد استفاده، عملکرد برنامه به همان نسبت افزایش یافت.

راندمان مقیاس‌بندی قوی برای LLM با 175 میلیارد پارامتر حدود 87 درصد و برای LLM با یک تریلیون پارامتر حدود 89 درصد بود. مقیاس‌بندی قوی به این معناست که با افزایش تعداد پردازنده‌های گرافیکی، عملکرد برنامه باید به همان نسبت بهبود یابد. با این حال، طبق قانون آمدال، این امر همیشه امکان‌پذیر نیست. با توجه به تعداد پردازنده‌های گرافیکی مورد استفاده، راندمان 87 درصد برای LLM با 175 میلیارد پارامتر و راندمان 89 درصد برای LLM با یک تریلیون پارامتر نتایج مناسبی هستند.

همانطور که در مقاله اشاره شده است، معمولا یادگیری ماشینی در این مقیاس روی اکوسیستم سخت افزاری-نرم افزاری CUDA انویدیا انجام می شود، که باعث می شود راه حل های AMD و اینتل در مقایسه با آنها توسعه نیافته به نظر برسند.


چاپ