فهرست مطالب
ابرکلاستر RSC متا؛ کارخانه تولید مدلهای زبانی بزرگ (LLM) و معماری نوین دیتاسنتر هوش مصنوعی

تحول در زیرساختهای محاسباتی جهان به نقطهای رسیده است که دیگر نمیتوان با الگوهای سنتی به نیازهای پردازشی پاسخ داد. دیتاسنتر هوش مصنوعی امروزه نه تنها یک مرکز میزبانی، بلکه یک اکوسیستم پیچیده و هماهنگ است که به عنوان موتور پیشران انقلاب دیجیتال عمل میکند.
در این میان، ابرکلاستر تحقیقاتی متا (AI Research SuperCluster) که به اختصار RSC نامیده میشود، به عنوان یکی از قدرتمندترین سوپرکامپیوترهای هوش مصنوعی جهان، معیارهای جدیدی را در طراحی و اجرای زیرساختهای مقیاسبزرگ تعریف کرده است. این گزارش به تحلیل عمیق و فنی معماری RSC، بررسی نقش آن در آموزش مدلهای زبانی بزرگ (LLM) و تبیین تفاوتهای بنیادین دیتاسنترهای هوش مصنوعی با مراکز داده سنتی میپردازد.
تکامل دیتاسنترها از اتاقهای سرور ساده در دهه ۱۹۴۰ به مراکز داده فوقمقیاس (Hyperscale) امروزی، نشاندهنده تغییر پارادایم از محاسبات متمرکز بر CPU به سمت سیستمهای شتابیافته توسط GPU است. در حالی که دیتاسنترهای سنتی برای بارهای کاری ایزوله و تراکنشهای سریالی طراحی شده بودند، دیتاسنتر هوش مصنوعی باید توانایی مدیریت پردازشهای موازی عظیم و جابجایی تریلیونها پارامتر را داشته باشد.
ظهور مدلهای زبانی بزرگ مانند Llama، نیاز به توان محاسباتی را به سطح اگزافلاپس (Exaflops) رسانده است. یک اگزافلاپ معادل یک میلیارد میلیارد محاسبه در ثانیه است؛ مقیاسی که درک آن برای ذهن انسان دشوار است. برای مقایسه، اگر انسانی بخواهد در هر ثانیه یک محاسبه انجام دهد، بیش از ۳۱ میلیارد سال طول میکشد تا با توان پردازشی یک ثانیهای یک سیستم یک اگزافلاپی برابری کند. این حجم از قدرت تنها از طریق خوشهبندی هزاران پردازنده گرافیکی در یک شبکه با تاخیر فوقکم میسر میشود.
| پارامتر مقایسه | دیتاسنتر سنتی | دیتاسنتر هوش مصنوعی (AI-Ready) |
|---|---|---|
| واحد پردازش اصلی | CPU (پردازش متوالی) | GPU / TPU (پردازش موازی) |
| تراکم توان (هر رک) | ۵ تا ۱۰ کیلووات | ۳۰ تا ۱۰۰ کیلووات و بالاتر |
| سیستم خنکسازی | تهویه مطبوع هوا (CRAC/CRAH) | خنکسازی مایع (Direct-to-Chip / Immersion) |
| معماری شبکه | Ethernet (TCP/IP) | InfiniBand / RoCE با قابلیت RDMA |
| نوع بارهای کاری | وب، پایگاه داده، ایمیل | آموزش LLM، استنتاج، بینایی ماشین |
| تأخیر شبکه | میلیثانیه (ms) | میکروثانیه (\mu s) |
ابرکلاستر RSC متا در فاز دوم خود که در سال ۲۰۲۳ تکمیل شد، به یکی از سریعترین سیستمهای هوش مصنوعی جهان تبدیل گشت. این پروژه نتیجه همکاری نزدیک متا با غولهای فناوری نظیر NVIDIA، Pure Storage و Penguin Computing است.
قلب تپنده RSC از ۲,۰۰۰ سیستم NVIDIA DGX A100 تشکیل شده است که در مجموع ۱۶,۰۰۰ واحد پردازش گرافیکی (GPU) را در اختیار محققان قرار میدهد. هر گره (Node) در این سوپرکامپیوتر شامل دو پردازنده AMD EPYC "Rome" و ۲ ترابایت حافظه رم است که بستری پایدار برای عملیاتهای پیچیده فراهم میکند. این تراکم بالای پردازشی به متا اجازه داده است تا مدلهای NLP را ۳ برابر سریعتر و کارهای بینایی ماشین را ۲۰ برابر سریعتر از زیرساختهای قبلی خود اجرا کند.
با این حال، جاهطلبی متا به اینجا ختم نشد. مارک زاکربرگ اعلام کرده است که تا پایان سال ۲۰۲۴، زیرساختهای این شرکت شامل بیش از ۳۵۰ هزار پردازنده H100 خواهد بود و مجموع توان پردازشی آنها معادل ۶۰۰ هزار پردازنده H100 ارزیابی میشود. این حجم از سرمایهگذاری نشاندهنده نقش حیاتی دیتاسنتر هوش مصنوعی در بقای شرکتهای بزرگ فناوری است.
آموزش مدلهای LLM نیازمند خواندن مداوم مجموعهدادههای عظیم و ثبت نقاط بازرسی (Checkpointing) با فرکانس بالاست. RSC از یک ساختار ذخیرهسازی چندلایه بهره میبرد:
این ترکیب به RSC اجازه میدهد تا دادهها را با نرخ ۱۶ ترابایت بر ثانیه به پردازندهها تحویل دهد، که برای جلوگیری از بیکار ماندن GPUها در طول آموزش مدلهای سنگین حیاتی است.
در یک دیتاسنتر هوش مصنوعی، شبکه تنها یک ابزار اتصالی نیست، بلکه تعیینکننده اصلی رفتار کل سیستم است. اگر شبکه نتواند دادهها را با سرعت کافی جابجا کند، گرانقیمتترین پردازندهها نیز کارایی خود را از دست میدهند.
متا در طراحی RSC از شبکه NVIDIA Quantum InfiniBand با پهنای باند ۲۰۰ گیگابیت بر ثانیه استفاده کرده است. این شبکه از یکی از بزرگترین ساختارهای "Flat Fabric" جهان با ۴۸,۰۰۰ لینک و ۲,۰۰۰ سوئیچ بهره میبرد. دلیل انتخاب InfiniBand به جای اترنت سنتی، پشتیبانی بومی از تکنولوژی RDMA (Remote Direct Memory Access) است.
RDMA به پردازندههای گرافیکی اجازه میدهد بدون درگیر کردن CPU یا سیستمعامل، مستقیماً به حافظه یکدیگر دسترسی داشته باشند. این قابلیت تاخیر شبکه را به کمتر از ۵ میکروثانیه کاهش میدهد، که برای عملیاتهای همگامسازی (Synchronization) در آموزش LLMها ضروری است. علاوه بر این، استفاده از پروتکلهایی مانند SHARP انویدیا اجازه میدهد تا بخشی از محاسبات کاهش (Reduction) مستقیماً درون سوئیچهای شبکه انجام شود، که بار کاری GPUها را سبکتر میکند.
در خوشههای جدیدتر متا که برای آموزش Llama 3 طراحی شدهاند، از دو رویکرد شبکه متفاوت استفاده شده است:
۱. NVIDIA Quantum2 InfiniBand: برای خوشههایی که به بیشترین پایداری و کمترین تاخیر نیاز دارند.
۲. RoCE (RDMA over Converged Ethernet): مبتنی بر سوئیچهای Arista 7800 که اجازه میدهد قابلیتهای RDMA بر روی بستر اترنت پیادهسازی شود.
این استراتژی دوگانه به متا اجازه میدهد تا مقیاسپذیری خوشههای خود را به بیش از ۲۴ هزار GPU در هر واحد برساند و در عین حال، انعطافپذیری لازم را در تأمین تجهیزات حفظ کند.
متا با معرفی پلتفرم "Grand Teton" در سال ۲۰۲۲، طراحی سختافزاری دیتاسنترهای خود را به بلوغ رساند. Grand Teton جانشین پلتفرم Zion-EX است و به طور اختصاصی برای میزبانی از پردازندههای قدرتمند H100 طراحی شده است.
برخلاف Zion-EX که از چندین زیرسیستم مجزا (واحد پردازنده، واحد سوئیچ و واحد شتابدهنده) تشکیل شده بود، Grand Teton یک طراحی یکپارچه (Monolithic) دارد. این ادغام باعث بهبود یکپارچگی سیگنال (Signal Integrity) و عملکرد حرارتی میشود.
| ویژگی فنی | پلتفرم Zion-EX (نسل قبل) | پلتفرم Grand Teton (نسل جدید) |
|---|---|---|
| پهنای باند Host-to-GPU | مبنا (۱ واحد) | ۴ برابر افزایش |
| پهنای باند شبکه | ۲۰۰ گیگابیت | ۴۰۰ گیگابیت |
| ظرفیت توان الکتریکی | مبنا (۱ واحد) | ۲ برابر افزایش |
| طراحی فیزیکی | Disaggregated (چند شاسی) | Integrated (تک شاسی) |
| پشتیبانی از شتابدهنده | NVIDIA A100 | NVIDIA H100 / AMD MI300X |
این پلتفرم به گونهای طراحی شده است که علاوه بر پردازندههای انویدیا، از شتابدهندههای AMD Instinct MI300X نیز پشتیبانی کند، که نشاندهنده رویکرد متا برای کاهش وابستگی به یک تأمینکننده واحد و تقویت اکوسیستم Open Compute Project (OCP) است.
افزایش توان مصرفی پردازندهها، دیتاسنتر هوش مصنوعی را با یک بحران حرارتی مواجه کرده است. پردازندههای H100 با توان حرارتی (TDP) حدود ۷۰۰ وات، مرزهای خنکسازی با هوا را شکستهاند. در حالی که یک رک سنتی حدود ۸ کیلووات گرما تولید میکرد، رکهای مخصوص AI اکنون به توان ۵۰ تا ۱۴۰ کیلووات رسیدهاند.
۱. خنکسازی مستقیم روی تراشه (Direct-to-Chip): در این روش، مایع خنککننده از طریق لولههای باریک به بلوکهای مسی (Cold Plates) که مستقیماً روی GPU قرار دارند، منتقل میشود.
۲. خنکسازی غوطهوری تکفاز و دوفاز: سرورها به طور کامل در یک مایع دیالکتریک غیررسانا غوطهور میشوند. در مدل دوفاز، مایع با جذب گرما به جوش میآید و از طریق تبخیر و میعان، حرارت را دفع میکند.
۳. سیستمهای کمکی هوا-مایع (AALC): برای دیتاسنترهایی که زیرساخت لولهکشی آب ندارند، متا از مبدلهای حرارتی درب پشتی (Rear Door Heat Exchangers) استفاده میکند که گرمای رک را قبل از خروج، به مایع منتقل میکنند.
استفاده از این فناوریها نه تنها برای پایداری قطعات، بلکه برای کاهش شاخص PUE (Power Usage Effectiveness) حیاتی است. سیستمهای خنککننده مایع میتوانند مصرف انرژی بخش سرمایش را تا ۷۰٪ کاهش دهند و فضای اشغال شده توسط فنهای بزرگ را آزاد کنند.

ابرکلاستر RSC صرفاً یک دستاورد مهندسی نیست، بلکه ابزاری برای تولید دانش است. مدلهای Llama 2 و Llama 3 در بطن همین زیرساخت متولد شدهاند.
آموزش Llama 3 نشاندهنده جهشی خیرهکننده در مقیاس دادهها بود:
نگاهی به نقشههای راه متا نشان میدهد که RSC تنها آغاز راه است. پروژههای جدیدی مانند "Prometheus" و "Hyperion" در حال تعریف دوباره مقیاس دیتاسنتر هوش مصنوعی هستند.
این گذار نشان میدهد که غولهای فناوری اکنون به توسعهدهندگان انرژی تبدیل شدهاند. متا قراردادهایی برای تأمین ۶.۶ گیگاوات انرژی هستهای تا سال ۲۰۳۵ امضا کرده است تا از "دیوار انرژی" که بسیاری از آزمایشگاههای هوش مصنوعی در سال ۲۰۲۵ با آن برخورد کردند، عبور کند.
برای سازمانهایی که در ابعاد کوچکتر قصد پیادهسازی زیرساختهای پردازش سنگین را دارند، رعایت استانداردهای طراحی دیتاسنتر هوش مصنوعی برای تضمین بازگشت سرمایه و پایداری سیستم الزامی است.
انتخاب مکان باید بر اساس دسترسی به پستهای برق فشار قوی باشد، نه صرفاً نزدیکی به دفتر مرکزی. برای دیتاسنترهای AI، استفاده از ترانسفورماتورهای اختصاصی با ظرفیت بالا و سیستمهای توزیع برق ۴۰۰ ولت DC پیشنهاد میشود تا تلفات تبدیل انرژی به حداقل برسد.
دیتاسنتر هوش مصنوعی به دلیل ماهیت طولانیمدت آموزش مدلها (گاهی چندین ماه بدون وقفه)، نیاز به سطح بالایی از پایداری دارد. استاندارد Tier 3 یا Tier 4 (با قابلیت اطمینان ۹۹.۹۹۵٪) برای این مراکز توصیه میشود. هرگونه قطعی برق نه تنها باعث توقف آموزش میشود، بلکه میتواند منجر به فساد دادهها در نقاط بازرسی شود.
پارادوکس جالب این است که خود هوش مصنوعی بهترین ابزار برای مدیریت دیتاسنتر هوش مصنوعی است. الگوریتمهای یادگیری ماشین میتوانند:
| استاندارد طراحی | تمرکز اصلی | کاربرد در دیتاسنتر هوش مصنوعی |
|---|---|---|
| TIA-942 | معماری و فیزیک | طراحی فضاهای با تراکم بالا و مدیریت کابلکشی نوری |
| BICSI 002 | زیرساختهای فیزیکی | جزئیات فنی نصب رکهای ۵۰ کیلوواتی و سیستمهای ارتینگ |
| ISO/IEC 22237 | تداوم کسبوکار | مدیریت ریسک و دسترسیپذیری در مقیاس خوشهای |
| Uptime Tier | پایداری عملیاتی |
تضمین کارکرد بدون وقفه در طول چرخههای آموزش LLM |
دیتاسنتر هوش مصنوعی زیرساختی است که به طور اختصاصی برای بارهای کاری سنگین نظیر آموزش مدلهای زبانی (LLM) طراحی شده است. برخلاف دیتاسنترهای سنتی، این مراکز دارای تراکم توان بسیار بالا (۳۰ تا ۱۰۰ کیلووات در هر رک)، سیستمهای خنکسازی مایع پیشرفته و شبکههای با تاخیر فوقکم (InfiniBand) هستند.
RSC (Research SuperCluster) سوپرکامپیوتر پیشرفته متا است که با بهرهگیری از ۱۶,۰۰۰ پردازنده A100، به عنوان "کارخانه تولید" مدلهای Llama عمل میکند. این سیستم توانسته است سرعت آموزش مدلهای هوش مصنوعی را تا ۲۰ برابر نسبت به نسلهای قبل افزایش دهد.
پردازندههای مدرن AI مانند NVIDIA H100 حرارت بسیار زیادی تولید میکنند (۷۰۰ وات به بالا) که هوای معمولی قادر به دفع آن نیست. خنکسازی مایع به دلیل ظرفیت حرارتی بالاتر، اجازه میدهد پردازندهها در دمای بهینه کار کنند، مصرف برق سرمایش را تا ۷۰٪ کاهش میدهد و تراکم تجهیزات را در دیتاسنتر افزایش میدهد.
Grand Teton یک پلتفرم سختافزاری متنباز (OCP) است که توسط متا طراحی شده است. این سیستم برق، کنترل، محاسبات و شبکه را در یک شاسی واحد ادغام کرده و برای میزبانی از پردازندههای نسل جدید با پهنای باند ۴ برابری نسبت به نسلهای قبل بهینه شده است.

ابرکلاستر RSC متا تنها یک قطعه از پازل بزرگتری است که در آن قدرت محاسباتی مستقیماً به قدرت اقتصادی و نوآوری تبدیل میشود. ما در حال حرکت به سمتی هستیم که در آن "اقتصاد محاسبات" جایگزین الگوهای قدیمی میشود. شرکتی که بتواند دیتاسنتر هوش مصنوعی کارآمدتر، پایدارتر و مقیاسپذیرتری بسازد، برنده نهایی رقابت در تولید مدلهای هوشمند خواهد بود.
چالشهای پیش رو، از تأمین انرژی گیگاواتی تا مدیریت حرارتی در سطح مولکولی، نیازمند رویکردی مهندسی و مشاورهمحور است. دیتاسنترهای آینده نه تنها مخزن داده، بلکه نیروگاههای تولید خرد هستند که باید با بالاترین استانداردهای ایمنی و پایداری طراحی شوند.
طراحی و پیادهسازی یک دیتاسنتر هوش مصنوعی استاندارد، فرآیندی فراتر از خرید سختافزار است؛ این یک سرمایهگذاری استراتژیک بر روی آینده کسبوکار شماست. شرکت فیدار کوثر، با تکیه بر دانش فنی مهندسین مجرب و تسلط بر استانداردهای روز دنیا نظیر TIA-942، همراه شما در تمامی مراحل مشاوره، طراحی و اجرای زیرساختهای پیشرفته مراکز داده است.
اگر به دنبال ارتقای زیرساختهای خود برای میزبانی از بارهای کاری سنگین هوش مصنوعی هستید یا نیاز به راهکارهای نوین خنکسازی مایع و مدیریت انرژی دارید، همین امروز برای دریافت مشاوره تخصصی با کارشناسان ما در فیدار کوثر تماس بگیرید. ما زیرساختی را برای شما میسازیم که نه تنها امروز، بلکه در عصر دیتاسنترهای گیگاواتی نیز پیشرو بمانید.
بعد از ورود به حساب کاربری می توانید دیدگاه خود را ثبت کنید