تغییر پارادایم در محاسبات مدرن از پردازشهای مبتنی بر واحد پردازش مرکزی (CPU) به سمت پردازشهای تسریعشده توسط واحد پردازش گرافیکی (GPU)، منجر به ظهور مفهوم جدیدی در صنعت زیرساخت شده است که از آن با عنوان «کارخانه هوش مصنوعی» یاد میشود.
در این عصر نوین، دیتاسنترها دیگر صرفاً انبارهایی برای ذخیرهسازی داده یا میزبانی اپلیکیشنهای وب نیستند؛ بلکه به موتورهای تولید هوش تبدیل شدهاند که دادههای خام را به عنوان مواد اولیه دریافت کرده و بینشهای هوشمند را به عنوان محصول نهایی صادر میکنند.
انویدیا Eos به عنوان یکی از قدرتمندترین ابرکامپیوترهای جهان، نه تنها یک دستاورد فنی خیرهکننده، بلکه به عنوان «الگوی مرجع» (Reference Model) برای تمامی سازمانهایی شناخته میشود که در پی ساخت زیرساختهای هوش مصنوعی مولد در مقیاس بزرگ هستند.

دیتاسنترهای سنتی برای بارهای کاری عمومی (General Purpose) طراحی شده بودند که در آنها هزاران ماشین مجازی کوچک با بارهای کاری مستقل اجرا میشدند. در مقابل، دیتاسنتر هوش مصنوعی برای پردازشهای موازی عظیم و ارتباطات با تأخیر بسیار کم بین گرههای پردازشی بهینهسازی شده است.
این تفاوت ساختاری، بازنگری در تمام لایههای زیرساخت، از طراحی شبکه و ذخیرهسازی گرفته تا سیستمهای توزیع برق و خنکسازی را الزامی کرده است.
| پارامتر شاخص | دیتاسنتر سنتی (Legacy) | کارخانه هوش مصنوعی (AI Factory) |
|---|---|---|
| محور محاسباتی | پردازشگرهای CPU محور | شتابدهندههای GPU و TPU محور |
| تراکم توان رک | ۵ تا ۱۵ کیلووات به ازای هر رک | ۴۰ تا ۱۲۰ کیلووات و بالاتر |
| معماری شبکه | لایهای (Leaf-Spine) استاندارد | Fat-Tree بدون انسداد با پهنای باند عظیم |
| سیستم خنکسازی | تهویه مطبوع هوا (Air Cooling) | خنکسازی مایع مستقیم (DLC) یا غوطهوری |
| نوع ذخیرهسازی | HDD و SSD معمولی (بتاخیر متوسط) | All-Flash NVMe با سیستم فایل موازی |
| تأخیر شبکه | میلیثانیه (بسته به فاصله جغرافیایی) | میکروثانیه (درون کلاستری) |
در معماری کارخانه هوش مصنوعی، دادهها به همان شکلی نگریسته میشوند که سنگ معدن در یک کارخانه ذوب آهن دیده میشود. این دادهها باید با سرعت فوقالعاده بالا به سمت پردازندهها هدایت شوند تا مدلهای زبانی بزرگ (LLM) آموزش ببینند.
هرگونه وقفه در تغذیه دادهها به GPUها منجر به "GPU Stall" شده و هزینههای عملیاتی را به شدت افزایش میدهد. به همین دلیل، دیتاسنتر هوش مصنوعی نیازمند یک سیستم عصبی (شبکه) و سیستم گوارشی (ذخیرهسازی) بسیار قدرتمندتر از مدلهای سنتی است.
انویدیا Eos که در اواخر سال ۲۰۲۳ به عنوان یک ابرکامپیوتر در کلاس جهانی معرفی شد، در ردهبندی TOP500 جزو ۱۰ سیستم برتر جهان جای گرفته است. این سیستم که نام خود را از الهه سپیدهدم در اساطیر یونان باستان گرفته، نمادی از طلوع عصر جدیدی در توسعه هوش مصنوعی است.
Eos برای انویدیا نه تنها یک ابزار تحقیقاتی داخلی برای آموزش مدلهایی مانند Megatron-Turing است، بلکه به عنوان ویترینی برای آنچه پلتفرم DGX SuperPOD میتواند انجام دهد، عمل میکند.
انویدیا Eos بر پایه ۵۷۶ سیستم DGX H100 بنا شده است. هر یک از این سیستمها دارای ۸ پردازنده گرافیکی NVIDIA H100 Tensor Core هستند که مجموعاً ۴۶۰۸ واحد پردازش گرافیکی را در یک کلاستر واحد و یکپارچه در اختیار قرار میدهند.
| مولفه فنی | مشخصات در مقیاس Eos |
|---|---|
| تعداد کل سیستمهای DGX H100 | ۵۷۶ گره پردازشی |
| تعداد کل GPUها | ۴۶۰۸ عدد NVIDIA H100 |
| عملکرد محاسباتی AI (FP8) | 18.4 اگزافلاپس |
| عملکرد بنچمارک LINPACK (Rmax) | 121.4 پتافلاپس |
| تکنولوژی شبکه داخلی | NVIDIA Quantum-2 InfiniBand |
| پهنای باند شبکه به ازای هر پورت | ۴۰۰ گیگابیت بر ثانیه (NDR) |
عملکرد اگزافلاپسی Eos به این معناست که این سیستم میتواند 10^{18} عملیات محاسباتی را در هر ثانیه انجام دهد. این سطح از قدرت پردازشی برای حل مسائلی که قبلاً غیرقابل حل به نظر میرسیدند، مانند شبیهسازیهای آب و هوایی فوق دقیق، کشف داروهای جدید و آموزش مدلهای زبانی با تریلیونها پارامتر، حیاتی است.

ساخت یک دیتاسنتر هوش مصنوعی در مقیاس Eos کار سادهای نیست. انویدیا برای سادهسازی این فرآیند برای سازمانها، «معماریهای مرجع سازمانی» (Enterprise Reference Architectures) را معرفی کرده است. این معماریها مجموعهای از دستورالعملهای تستشده و تاییدشده هستند که شامل طراحی سختافزار، توپولوژی شبکه، پیکربندی ذخیرهسازی و پشته نرمافزاری میشوند.
یکی از مفاهیم کلیدی در معماری Eos، استفاده از واحدهای مقیاسپذیر یا SU است. یک SU به عنوان کوچکترین بلوک ساختمانی استاندارد در یک SuperPOD عمل میکند. با استفاده از SU، سازمانها میتوانند زیرساخت خود را از ۳۲ گره به صدها یا هزاران گره افزایش دهند، بدون اینکه نیاز به طراحی مجدد کل سیستم داشته باشند.
برای سادهسازی انتخاب سیستم، انویدیا از یک کنوانسیون نامگذاری چهار رقمی استفاده میکند که مشخصات اصلی هر گره پردازشی را تعریف میکند :
به عنوان مثال، پیکربندی 2-8-5-200 که در بسیاری از دیتاسنترهای مدرن هوش مصنوعی استفاده میشود، شامل ۲ سیپییو، ۸ جیپییو، ۵ کارت شبکه و ۲۰۰ گیگابیت پهنای باند اختصاصی به ازای هر GPU است. این سطح از دقت در تعریف معماری، ریسکهای مربوط به گلوگاههای شبکه را در پروژههای بزرگ به شدت کاهش میدهد.
انویدیا Eos بر پایه معماری Hopper بنا شده است، اما دنیای دیتاسنتر هوش مصنوعی با معرفی پلتفرم Blackwell در سال ۲۰۲۴ و ۲۰۲۵، وارد فاز جدیدی شده است. معماری Blackwell که در سیستمهایی مانند GB200 NVL72 استفاده میشود، عملکرد را نسبت به نسل Hopper تا ۳۰ برابر در بارهای کاری استنتاج مدلهای زبانی بزرگ ارتقا داده است.
در دیتاسنتر هوش مصنوعی، قدرت خام محاسباتی تنها بخشی از معادله است. آنچه Eos را متمایز میکند، پهنای باند حافظه گرافیکی (VRAM) است.
| نسل معماری | مدل شاخص | پهنای باند حافظه (هر GPU) | ظرفیت حافظه |
|---|---|---|---|
| Volta | Tesla V100 | 900 GB/s | ۱۶/۳۲ گیگابایت HBM2 |
| Ampere | A100 | 2 TB/s | ۴۰/۸۰ گیگابایت HBM2e |
| Hopper | H100 | 3 TB/s | ۸۰ گیگابایت HBM3 |
| Blackwell | B200 | 8 TB/s | ۱۹۲ گیگابایت HBM3e |
استفاده از حافظههای HBM3e در معماریهای جدید، اجازه میدهد تا مدلهایی با پارامترهای بسیار زیاد (Trillion-scale) به طور کامل در حافظه کلاستر قرار گیرند، که این امر سرعت آموزش را به صورت نمایی افزایش میدهد.

در حالی که در دیتاسنترهای معمولی شبکه به عنوان یک ابزار برای اتصال سرورها به اینترنت دیده میشود، در دیتاسنتر هوش مصنوعی، شبکه «بکپلون» (Backplane) کل سیستم محسوب میشود.
انویدیا Eos از تکنولوژی NVIDIA Quantum-2 InfiniBand استفاده میکند که برای بارهای کاری محاسباتی با کارایی بالا (HPC) بهینهسازی شده است.
شبکه محاسباتی Eos بر پایه توپولوژی Fat-Tree سه لایه بنا شده است. این ساختار تضمین میکند که پهنای باند کامل دوطرفه (Full Bisection Bandwidth) بین هر دو گره در کل کلاستر وجود داشته باشد. به زبان ساده، اگر نیمی از ابرکامپیوتر بخواهد با نیمی دیگر صحبت کند، هیچ گلوگاهی در سوئیچهای مرکزی ایجاد نمیشود.
یکی از چالشهای بزرگ در آموزش مدلهای هوش مصنوعی، تأخیرهای ناگهانی در شبکه است که به آن Tail Latency میگویند. اگر ۴۶۰۷ پردازنده گرافیکی منتظر رسیدن داده از پردازنده ۴۶۰۸ام بمانند، کل سیستم متوقف میشود. InfiniBand با استفاده از مدیریت ترافیک سختافزاری و مکانیزمهای کنترلی پیشرفته، این تأخیرها را به حداقل میرساند و بهرهوری کلاستر را به بالای ۹۵ درصد میرساند.
در حالی که InfiniBand برای کلاسترهای عظیم انتخاب اول است، بسیاری از سازمانها ترجیح میدهند از زیرساختهای اترنت (Ethernet) خود استفاده کنند. انویدیا پلتفرم Spectrum-X را برای این دسته از مشتریان ارائه داده است.
Spectrum-X اولین پلتفرم اترنت در جهان است که به طور خاص برای هوش مصنوعی طراحی شده و با استفاده از تکنولوژی RoCE v2 (RDMA over Converged Ethernet)، عملکردی نزدیک به InfiniBand را در محیطهای اترنت فراهم میکند.
یکی از بزرگترین موانع در ساخت دیتاسنتر هوش مصنوعی، تامین توان الکتریکی و دفع حرارت عظیم ناشی از آن است. هر گره DGX H100 به تنهایی تا ۱۰.۲ کیلووات برق مصرف میکند. در یک رک استاندارد SuperPOD که معمولاً ۴ گره را در خود جای میدهد، مصرف برق به بیش از ۴۰ کیلووات میرسد.
انویدیا برای تضمین پایداری Eos، استفاده از سیستمهای توزیع برق سه فاز (3\Phi) با ولتاژ بالا (مانند ۴۱۵ ولت AC) را توصیه میکند. این رویکرد نه تنها تلفات انرژی در کابلکشی را کاهش میدهد، بلکه اجازه میدهد تا جریان آمپراژ کمتری در زیرساخت جاری شود که منجر به کاهش قطر کابلها و پیچیدگیهای اجرا میگردد.
| پارامتر برق | مقدار در هر گره DGX H100 | ملاحظات رک (۴ گره) |
|---|---|---|
| حداکثر توان مصرفی | ۱۰.۲ کیلووات | ۴۰.۸ کیلووات |
| تعداد منابع تغذیه (PSU) | ۶ عدد (N+2 Redundancy) | ۲۴ عدد در هر رک |
| حداقل PSU فعال برای اجرا | ۴ عدد | حیاتی برای پایداری کار |
| خروجی حرارتی (BTU/hr) | ۳۸,۵۵۷ | ۱۵۴,۲۲۸ (بسیار بحرانی) |

در دیتاسنترهای سنتی، استفاده از راهروهای سرد و گرم (Cold/Hot Aisle Containment) و فنهای پرقدرت برای خنکسازی کافی بود. اما در ابرکامپیوتری مانند Eos، هوا دیگر ظرفیت فیزیکی لازم برای جابجایی این حجم از گرما را ندارد.
انویدیا در نسلهای جدید Blackwell و حتی در برخی پیکربندیهای سفارشی Eos، به سمت خنکسازی مایع حرکت کرده است.
سختافزار قدرتمند Eos بدون پشته نرمافزاری هوشمند، کارایی نخواهد داشت. انویدیا لایههای متعددی از نرمافزار را برای مدیریت این "کارخانه" ارائه داده است که از درایورهای سطح پایین تا پلتفرمهای ارکستراسیون پیشرفته را شامل میشود.
پلتفرم NVIDIA AI Enterprise شامل تمام کتابخانهها و ابزارهای لازم برای اجرای مدلهای هوش مصنوعی (مانند CUDA-X، TensorRT و Triton) است. اما برای مدیریت فیزیکی کلاستر، از Base Command Manager (BCM) استفاده میشود. BCM وظایف زیر را بر عهده دارد:
در یک دیتاسنتر هوش مصنوعی، برخلاف دیتاسنترهای معمولی، منابع پردازشی بسیار گرانقیمت هستند و نباید حتی برای یک ثانیه بیکار بمانند.

با توجه به ارزش تریلیون دلاری دادهها و مدلهای هوش مصنوعی، امنیت در معماری Eos در اولویت قرار دارد. انویدیا با معرفی واحدهای پردازش داده (DPU) مدل BlueField-3، مفهوم امنیت را به سطح سختافزار منتقل کرده است.
BlueField-3 به عنوان یک پردازنده مستقل در کنار GPU قرار میگیرد و وظیفه رمزنگاری دادهها در حال انتقال (Encryption at line rate) و بازرسی بستههای شبکه را بر عهده دارد. این موضوع باعث میشود تا امنیت شبکه دیتاسنتر از بارهای کاری جدا شده و حتی اگر یک سرور هک شود، نفوذگر نتواند به سایر بخشهای کلاستر دسترسی پیدا کند (Zero Trust Multi-tenancy).
فیدار کوثر با سال ها تجربه در زمینه طراحی ،ساخت و نگهداری مراکز داده، پیشبینی میکنیم که سال ۲۰۲۶ نقطه عطفی در تاریخ دیتاسنترهای جهان خواهد بود. روندهای کلیدی که باید مد نظر قرار گیرند عبارتند از:
ساخت یک دیتاسنتر آماده برای هوش مصنوعی (AI-Ready Data Center) نیازمند دانشی فراتر از مهندسی عمران و برق سنتی است. شرکت فیدار کوثر با تکیه بر استانداردهای روز دنیا (مانند TIA-942 و BICSI) و بهرهگیری از مهندسین مجرب، پیشرو در ارائه راهکارهای نوین زیرساختی در ایران است.
۱. دیتاسنتر هوش مصنوعی چه تفاوتی با دیتاسنتر معمولی دارد؟
تفاوت اصلی در تراکم توان (بیش از ۴۰ کیلووات در هر رک)، سیستم خنککننده (نیاز به مایع به جای هوا) و شبکه (نیاز به پهنای باند عظیم و تأخیر در حد میکروثانیه برای محاسبات موازی) است.
۲. انویدیا Eos چیست و چه جایگاهی دارد؟
انویدیا Eos یکی از ۱۰ ابرکامپیوتر برتر جهان است که با استفاده از ۴۶۰۸ پردازنده گرافیکی H100، توان محاسباتی ۱۸.۴ اگزافلاپس را برای آموزش بزرگترین مدلهای هوش مصنوعی فراهم میکند.
۳. چرا خنکسازی مایع (Liquid Cooling) برای هوش مصنوعی ضروری است؟
چون هوا ظرفیت انتقال حرارت تولید شده توسط GPUهای مدرن را ندارد. خنکسازی مایع ۳۵۰۰ برابر کارآمدتر از هوا عمل کرده و مصرف انرژی را تا ۲۷ درصد کاهش میدهد.
۴. شاخص PUE چیست و در دیتاسنترهای هوش مصنوعی چقدر است؟
PUE نسبت کل برق مصرفی دیتاسنتر به برق مصرفی تجهیزات IT است. در دیتاسنترهای مدرن هوش مصنوعی با خنکسازی مایع، این عدد به حدود ۱.۱ میرسد که نشاندهنده بهرهوری بسیار بالاست.

دیتاسنتر هوش مصنوعی دیگر یک گزینه نیست، بلکه ستون فقرات اقتصاد دیجیتال در دهه آینده است. انویدیا Eos به ما نشان داد که با ترکیب صحیح محاسبات تسریعشده، شبکههای بدون انسداد و سیستمهای خنکسازی مایع، میتوان به مرزهای جدیدی از دانش بشری دست یافت.
سازمانهایی که امروز بر روی زیرساختهای استاندارد و مقیاسپذیر سرمایهگذاری میکنند، برندگان فردای دنیای هوش مصنوعی خواهند بود. ساخت چنین زیرساختی پیچیده است، اما نباید آن را به شانس واگذار کرد. الگوبرداری از معماریهای مرجع و همکاری با شرکای متخصص که سابقه اجرای پروژههای حساس را دارند، تضمینکننده موفقیت شما در این مسیر پرشتاب خواهد بود.
تیم متخصصان فیدار کوثر با سالها تجربه در طراحی و اجرای مراکز داده استاندارد، آماده است تا به عنوان مشاور و مجری در کنار شما باشد. ما به شما کمک میکنیم تا با استفاده از جدیدترین تکنولوژیهای خنکسازی و توزیع برق، زیرساختی پایدار، مقیاسپذیر و مطابق با استانداردهای جهانی انویدیا بسازید.
همین حالا برای مشاوره تخصصی با کارشناسان فیدار کوثر تماس بگیرید
بعد از ورود به حساب کاربری می توانید دیدگاه خود را ثبت کنید