مهندسان کامپیوتر موفق شدند یک مدل زبان بزرگ(LLM) به اندازه چت بات ChatGPT را در سریع ترین ابررایانه جهان معروف به Frontier آموزش دهند.
ابررایانه Frontier که توسط آزمایشگاه ملی Oak Ridge در ایالات متحده ساخته شده است، توانست یک مدل زبان بزرگ به اندازه ChatGPT شرکت OpenAI را آموزش دهد. برای آموزش مدل LLM، ابررایانه Frontier از 3000 پردازنده گرافیکی AMD استفاده کرده است . پردازنده های گرافیک معمولا AMD از قدرت پردازشی بالایی برخوردار هستند و برای آموزش مدل های زبان بزرگ انتخاب مناسبی خواهند بود. سریع ترین ابررایانه جهان تنها با 8 درصد از ظرفیت MI250X GPU خود حدود یک تریلیون پارامتر را پردازش کند.
این تیم مطالعاتی جزئیات نحوه انجام این کار و چالش هایی را که در طول مسیر با آن روبرو بود را به تازگی منتشر کرد. ابرکامپیوتر Frontierبه 9472 پردازنده مرکزی و 37888 پردازنده گرافیکی مجهز شده است. این ابرکامپیوتر میتواند در ثانیه 1.1 اگزافلاپس محاسبه را انجام دهد. برای آموزش دو مدل زبان بزرگ (LLM) تیم مهندسی Frontier تنها از بخش کوچکی از قدرت این ابرکامپیوتر استفاده کرد. برای آموزش یک LLM با یک تریلیون پارامتر آنها تصمیم گرفتند از 3072 پردازنده گرافیکی استفاده کنند. برای آموزش یک مدل دیگر LLM با 175 میلیارد پارامتر، از 1024 پردازنده گرافیکی استفاده کردند.
آموزش یک مدل LLM یک فرآیند زمانبر و پرهزینه است. استفاده از ابرکامپیوتر Frontier برای این کار، امکان آموزش این مدلهای پیچیده در مدتزمان کوتاهتری را فراهم می کند. چالشی که در طول آموزش چنین مدل زبان بزرگی مهندسان با آن مواجه شدند، میزان حافظه بود. این محاسبات به حداقل 14 ترابایت حافظه و چندین پردازنده گرافیکی MI250X با 64 گیگابایت VRAM نیاز داشت. این نیازها مشکل جدیدی ایجاد می کرد: موازی سازی! استفاده از پردازندههای گرافیکی بیشتر در مدل LLM به ارتباطات بهتری نیاز دارد تا در واقع از منابع بیشتر به صورت موثر استفاده شود. در غیر این صورت، بیشتر انرژی GPU به هدر می رود.
این مقاله خاطرنشان می کند که چالش کلیدی در آموزش چنین LLM بزرگی، میزان حافظه مورد نیاز است که حداقل 14 ترابایت بود. این بدان معناست که چندین پردازنده گرافیکی MI250X با 64 گیگابایت VRAM هر کدام نیاز به استفاده دارند، اما این یک مشکل جدید ایجاد کرد: موازی سازی. برای آموزش یک LLM، پردازندههای گرافیکی باید دادهها را با یکدیگر به اشتراک بگذارند. این دادهها میتوانند شامل وزنهای مدل، دادههای آموزشی و نتایج محاسبات باشند. اگر ارتباطات بین پردازندههای گرافیکی به یک اندازه نباشد، ممکن است این دادهها به کندی یا با خطا منتقل شوند. این کار میتواند منجر به کاهش عملکرد مدل زبانی شود.
مهندسان در چارچوبهایی مانند Megatron-DeepSpeed و FSDP، تغییراتی ایجاد کردند تا عملکرد برنامه را بهبود بخشند. آنها در نهایت توانستند راندمان مقیاسگذاری ضعیف را به 100% برسانند. بنابراین با افزایش تعداد پردازندههای گرافیکی مورد استفاده، عملکرد برنامه به همان نسبت افزایش یافت.
راندمان مقیاسبندی قوی برای LLM با 175 میلیارد پارامتر حدود 87 درصد و برای LLM با یک تریلیون پارامتر حدود 89 درصد بود. مقیاسبندی قوی به این معناست که با افزایش تعداد پردازندههای گرافیکی، عملکرد برنامه باید به همان نسبت بهبود یابد. با این حال، طبق قانون آمدال، این امر همیشه امکانپذیر نیست. با توجه به تعداد پردازندههای گرافیکی مورد استفاده، راندمان 87 درصد برای LLM با 175 میلیارد پارامتر و راندمان 89 درصد برای LLM با یک تریلیون پارامتر نتایج مناسبی هستند.
همانطور که در مقاله اشاره شده است، معمولا یادگیری ماشینی در این مقیاس روی اکوسیستم سخت افزاری-نرم افزاری CUDA انویدیا انجام می شود، که باعث می شود راه حل های AMD و اینتل در مقایسه با آنها توسعه نیافته به نظر برسند.