فهرست مطالب
تکوین هوش مصنوعی در سالهای اخیر، پارادایمهای حاکم بر زیرساختهای فیزیکی دیتاسنتر را به طور بنیادی تغییر داده است. ظهور مدلهای زبانی بزرگ (LLM) و نیاز مبرم به پردازش حجم عظیم دادههای تصویری برای سیستمهای خودمختار، مهندسان زیرساخت را با چالشی مواجه کرده است که مراکز داده سنتی دیگر قادر به پاسخگویی به آن نیستند.
در این میان، شرکت تسلا با معرفی ابررایانه دوجو (Dojo)، نه تنها یک ماشین یادگیری ماشین (Machine Learning) قدرتمند، بلکه یک شاهکار مهندسی در زمینه معماری دیتاسنتر هوش مصنوعی ارائه کرده است که استانداردهای توزیع برق، چگالی توان و خنکسازی را در سطح جهانی جابهجا میکند. این گزارش تخصصی به تحلیل دقیق ابعاد فنی این ابررایانه، از سطح میکروسکوپی تراشه تا خوشههای عظیم ExaPOD، و بررسی تأثیرات آن بر آینده طراحی مراکز داده میپردازد.

دیتاسنترهای سنتی عمدتاً بر پایه معماریهای چندمنظوره (General Purpose) بنا شدهاند که در آنها سرورها، تجهیزات ذخیرهسازی و شبکه به صورت لایهبندی شده و با تأخیرهای مشخصی با یکدیگر در ارتباط هستند. اما در یک دیتاسنتر هوش مصنوعی مدرن، هدف اصلی بر بهینهسازی «توان محاسباتی به ازای هر وات» و کاهش حداکثری تأخیر (Latency) در انتقال دادههای حجیم میان گرههای پردازشی متمرکز است.
تحلیلهای فنی نشان میدهند که مراکز داده مدرن اکنون از هوش مصنوعی نه تنها به عنوان بار کاری (Workload)، بلکه به عنوان ابزاری برای مدیریت هوشمند زیرساخت (DCIM) استفاده میکنند تا مصرف انرژی را پیشبینی کرده و نقاط حرارتی را با دقت بالا شناسایی کنند.
با این حال، تسلا در پروژه دوجو رویکردی رادیکالتر برگزید؛ به جای استفاده از هوش مصنوعی برای مدیریت دیتاسنتر، کل ساختار فیزیکی دیتاسنتر را به عنوان یک واحد پردازشی هوش مصنوعی یکپارچه طراحی کرد. این رویکرد که «ادغام عمودی» (Vertical Integration) نامیده میشود، به تسلا اجازه داده است تا تمامی اجزا، از سیلیکون تراشه تا سیستم توزیع برق کابینت را متناسب با نیازهای خاص پردازش تصویر طراحی کند.
تراشه D1 تسلا، که توسط تیم مهندسی داخلی این شرکت طراحی شده، یک شتابدهنده اختصاصی (ASIC) برای آموزش شبکههای عصبی عمیق است. برخلاف پردازندههای گرافیکی عمومی (GPU) که باید برای طیف وسیعی از کاربردها بهینه باشند، D1 فاقد هرگونه بخش بلااستفاده (Dark Silicon) برای عملکردهای گرافیکی یا پشتیبانی از سیستمهای قدیمی است.
این تراشه خالصترین شکل یک «ماشین یادگیری عمیق» است که توازنی دقیق میان قدرت پردازشی GPU و انعطافپذیری CPU برقرار میکند.
تراشه D1 با استفاده از فناوری ۷ نانومتری شرکت TSMC ساخته شده و در مساحت ۶۴۵ میلیمتر مربع، حدود ۵۰ میلیارد ترانزیستور را جای داده است. هر تراشه شامل ۳۵۴ گره آموزشی (Training Nodes) است که به صورت یک شبکه مش (Mesh) دو بعدی به هم متصل شدهاند.
| پارامتر فنی | مشخصات تراشه D1 | نقش در عملکرد |
|---|---|---|
| فناوری ساخت | 7nm TSMC | بهرهوری بالای ترانزیستور |
| تعداد ترانزیستور | 50 میلیارد | تراکم محاسباتی خیرهکننده |
| توان محاسباتی (BF16/CFP8) | 362 TFLOPS | سرعت آموزش مدلهای عمیق |
| توان محاسباتی (FP32) | 22.6 TFLOPS | دقت بالا در محاسبات شناور |
| حافظه SRAM داخلی | 440 MB | کاهش نیاز به دسترسی به DRAM خارجی |
| پهنای باند لبه (I/O) | 4 TB/s در هر سمت | انتقال سریع داده بین تراشهها |
| توان حرارتی (TDP) | 400 W | چگالی گرمایی مدیریت شده |
هر گره پردازشی در تراشه D1 یک پردازنده ۶۴ بیتی مستقل است که از دستورالعملهای سفارشی برای ضرب ماتریسی (Matrix Multiplication) پشتیبانی میکند. یکی از نوآوریهای کلیدی در این سطح، حذف حافظه مجازی (Virtual Memory) و استفاده از مدیریت نرمافزاری مستقیم برای دسترسی به حافظه است که باعث کاهش اورهد پردازشی و افزایش سرعت دسترسی به دادهها میشود.

در طراحی دیتاسنتر هوش مصنوعی دوجو، مفهوم سنتی «مادربرد» با مفهومی به نام «تایل آموزشی» جایگزین شده است. تسلا ۲۵ تراشه D1 را در یک آرایه ۵×۵ بر روی یک وافر یکپارچه (Fan-out Wafer) قرار داده است. این ساختار که به عنوان بزرگترین واحد مولتیچیپ (MCM) در صنعت شناخته میشود، اجازه میدهد تا ۲۵ تراشه به صورت یک پردازنده واحد و غولآسا عمل کنند.
در دیتاسنترهای معمولی، انتقال داده بین کارتهای GPU از طریق گذرگاههای PCIe یا سوئیچهای شبکه انجام میشود که همواره باعث ایجاد تأخیر و محدودیت پهنای باند میگردد. در تایل دوجو، تراشهها به صورت مستقیم و در سطح سیلیکون با یکدیگر ارتباط دارند که پهنای باند خیرهکننده ۳۶ ترابایت بر ثانیه را در هر تایل فراهم میکند.
علاوه بر این، طراحی تایل به گونهای است که کانکتورهای با پهنای باند بالا در هر چهار لبه قرار گرفتهاند. این ویژگی اجازه میدهد تا تایلها به سادگی در کنار هم چیده شده و یک «صفحه محاسباتی» (Compute Plane) بیپایان را تشکیل دهند، بدون اینکه افت سرعت در مرزهای بین تایلها مشاهده شود.
توزیع برق در یک دیتاسنتر هوش مصنوعی با چالش «افت ولتاژ» و «تلفات گرمایی» روبروست. هر تایل آموزشی دوجو به تنهایی ۱۵ کیلووات انرژی مصرف میکند. از این مقدار، ۱۰ کیلووات صرف پردازندهها و ۵ کیلووات صرف سیستمهای تنظیم ولتاژ و تلفات جانبی میشود. مدیریت چنین جریانی در فضای بسیار محدود تایل، نیازمند بازنگری در قوانین فیزیک توزیع توان بود.
تسلا برای غلبه بر چالش جریانهای بالا، سیستم توزیع برق را به صورت عمودی طراحی کرده است. در این معماری، ماژولهای تنظیم ولتاژ (Voltage Regulator Down - VRD) مستقیماً روی وافر و در لایههای زیرین یا مجاور تراشهها قرار گرفتهاند.
این رویکرد تسلا در ادغام سیستم برق با صفحات محاسباتی، یک تغییر بنیادین در طراحی زیرساخت فیزیکی دیتاسنتر محسوب میشود که استانداردهای جدیدی را برای مراکز داده با چگالی توان بالا تعریف کرده است.

دفع ۱۵ کیلووات گرما از سطحی به ابعاد حدود یک فوت مربع، فراتر از توان هرگونه سیستم هواخنک (Air Cooling) سنتی است. در واقع، تراکم گرمایی در تایل دوجو مشابه تراکم گرمایی در هسته یک رآکتور هستهای کوچک است. دوجو برای مهار این حرارت از یک سیستم سرمایش مایع (Liquid Cooling) کاملاً سفارشی و مستقیم استفاده میکند.
در دیتاسنتر هوش مصنوعی تسلا، خنکسازی به صورت عمودی و از بالای تایلها انجام میشود. یک صفحه آلومینیومی بزرگ بر روی تایلها قرار میگیرد که با سیال خنککننده در تماس است.
این سطح از مدیریت حرارتی اجازه میدهد تا کابینتهای دوجو به چگالی توانی بیش از ۲۰۰ کیلووات در هر رک دست یابند، در حالی که ردیفهای سرور سنتی به ندرت از ۲۰ تا ۳۰ کیلووات فراتر میروند.

سلسلهمراتب مقیاسپذیری در ابررایانه دوجو به گونهای طراحی شده است که بتوان آن را به سادگی از یک تراشه به یک مرکز داده عظیم تبدیل کرد.
هر کابینت دوجو که با نام ExaCab شناخته میشود، شامل دو سینی سیستم (System Trays) است. هر سینی سیستم خود حاوی ۶ تایل آموزشی است که مجموعاً ۱۲ تایل را در یک کابینت جای میدهند.
| سطح ساختاری | تعداد تراشه D1 | تعداد گره پردازشی | توان محاسباتی (BF16) |
|---|---|---|---|
| تراشه D1 | 1 | 354 | 362 TFLOPS |
| تایل آموزشی | 25 | 8,850 | 9 PFLOPS |
| سینی سیستم | 150 | 53,100 | 54 PFLOPS |
| کابینت دوجو | 300 | 106,200 | 108 PFLOPS |
| ExaPOD (۱۰ رک) | 3,000 | 1,062,000 | 1.1 EFLOPS |
یک ExaPOD دوجو در مجموع ۱.۱ اگزافلاپس توان محاسباتی فراهم میکند. علاوه بر تایلهای آموزشی، کابینتها شامل «پردازندههای واسط دوجو» (DIP) هستند که وظیفه مدیریت حافظه DRAM (۳۲ گیگابایت حافظه با پهنای باند بالا در هر واحد) و برقراری ارتباط با دنیای خارج را بر عهده دارند.
یک خوشه ExaPOD کامل در مجموع حدود ۱.۸ مگاوات برق مصرف میکند. اگرچه این عدد بزرگ به نظر میرسد، اما به دلیل فشردگی بالای طراحی، دوجو قادر است ۴ برابر عملکرد بیشتر را در فضایی ۵ برابر کوچکتر نسبت به راهکارهای سنتی مبتنی بر GPU ارائه دهد. این به معنای کاهش چشمگیر هزینههای ساختمانی و زیرساختی (CAPEX) برای دیتاسنتر است.
در دنیای دیتاسنتر هوش مصنوعی، انویدیا با محصولات سری Hopper (H100/H200) و نسل جدید Blackwell (B200) رقیب اصلی محسوب میشود. مقایسه این دو رویکرد، تفاوت بین «تجهیزات عمومی قدرتمند» و «زیرساخت اختصاصی بهینه» را نشان میدهد.
| ویژگی | Tesla Dojo (ExaPOD) | NVIDIA GB200 (NVL72) |
|---|---|---|
| نوع پردازنده | ASIC اختصاصی (D1) | GPU چندمنظوره (Blackwell) |
| تمرکز اصلی | بینایی ماشین و ویدئو | مدلهای زبانی بزرگ (LLM) |
| پهنای باند داخلی تایل/رک | 36 TB/s (تایل) | 1.8 TB/s (NVLink 5.0) |
| سیستم توزیع برق | 52V DC عمودی | 48V DC استاندارد |
| سیستم سرمایش | مایع (تغییر فاز احتمالی) | مایع (DTC) / هوا |
| مدل تجاری | ادغام عمودی (فقط تسلا) | فروش به دیتاسنترها و کلودها |
انویدیا با پلتفرم Blackwell به توانهای خیرهکنندهای در زمینه استنتاج (Inference) دست یافته است، اما تسلا با دوجو، هزینههای آموزش مدلهای خود را به شدت کاهش داده است. ایلان ماسک مدعی است که تراشه AI5 تسلا (که در نسلهای بعدی دوجو به کار میرود) با توان مصرفی ۲۵۰ وات، عملکردی معادل Hopper انویدیا با ۷۰۰ وات مصرف برق ارائه خواهد داد. این موضوع نشاندهنده اهمیت طراحی اختصاصی در کاهش هزینههای عملیاتی (OPEX) دیتاسنتر است.

در اوایل سال ۲۰۲۶، تسلا از احیای پروژه دوجو تحت عنوان «دوجو ۳» پرده برداشت. این نسل جدید نه تنها برای آموزش مدلهای خودمختار روی زمین، بلکه برای محاسبات هوش مصنوعی در مدار زمین (Space-Based AI Compute) طراحی شده است.
دیتاسنترهای هوش مصنوعی در زمین با محدودیت منابع برق مواجه هستند. انتقال محاسبات به فضا میتواند مزایای زیر را داشته باشد:
این چشمانداز، دیتاسنتر را از یک ساختمان فیزیکی ثابت به یک شبکه توزیعشده جهانی و حتی فرازمینی تبدیل میکند که از طریق زیرساختهای SpaceX پشتیبانی میشود.
طراحی دیتاسنتر هوش مصنوعی به سبک دوجو، نیازمند رعایت استانداردهای مهندسی بسیار سختگیرانهای است. نسخه جدید استاندارد TIA-942-C (مه ۲۰۲۴) و استاندارد BICSI-002 الزامات جدیدی را برای مراکز داده با چگالی بالا تعریف کردهاند.
شرکتهایی نظیر فیدار کوثر با پیادهسازی دقیق این استانداردها، اطمینان حاصل میکنند که زیرساخت فیزیکی دیتاسنتر قادر به پشتیبانی از نسلهای بعدی سختافزارهای هوش مصنوعی خواهد بود.
ابررایانه دوجو تسلا فراتر از یک ابزار برای آموزش رانندگی خودکار است؛ این پروژه یک «اثبات مفهوم» برای نسل بعدی دیتاسنترهای تخصصی است. ادغام عمودی که تسلا در این پروژه به نمایش گذاشته، اکنون توسط غولهای دیگری نظیر گوگل (با تراشههای TPU) و آمازون (با Trainium) با جدیت دنبال میشود.
تغییر از سیستمهای توزیع برق ۱۲ ولت به ۵۲ ولت، جایگزینی هواخنک با سیستمهای مایعخنک مستقیم روی وافر، و حذف لایههای نرمافزاری سنتی، همگی نشاندهنده یک جهتگیری کلی در صنعت هستند: برای دستیابی به هوش مصنوعی در مقیاس انسانی، باید زیرساختهای فیزیکی را از نو اختراع کرد. دوجو به ما آموخت که در یک دیتاسنتر هوش مصنوعی، مرز بین سختافزار پردازشی و زیرساخت فیزیکی (برق و مکانیک) باید از بین برود تا بالاترین سطح کارایی حاصل شود.
دوجو یک ابررایانه فوقپیشرفته است که توسط تسلا برای آموزش شبکههای عصبی بینایی ماشین طراحی شده است. این سیستم از تراشههای اختصاصی D1 و معماری خوشهای ExaPOD برای پردازش حجم عظیم دادههای ویدئویی خودروهای تسلا استفاده میکند.
دوجو از توزیع برق عمودی با ولتاژ ۵۲ ولت DC استفاده میکند و ماژولهای تنظیم ولتاژ (VRD) را مستقیماً روی وافر تراشهها قرار داده است. این کار باعث کاهش چشمگیر تلفات گرمایی و دستیابی به چگالی توان خیرهکننده ۲۰۰ کیلووات در هر رک میشود.
به دلیل چگالی گرمایی بسیار بالا، دوجو از خنکسازی مایع مستقیم روی تراشه (Direct-to-Chip) با استفاده از واحدهای توزیع خنککننده (CDU) قدرتمند بهره میبرد که حرارت را به صورت عمودی از بالای صفحات محاسباتی دفع میکنند.
تسلا در حال حاضر از ترکیبی از خوشههای انویدیا (مثل Colossus) و دوجو استفاده میکند. هدف دوجو کاهش وابستگی به انویدیا، بهینهسازی هزینهها برای بارهای کاری خاص تسلا و دستیابی به عملکرد بالاتر به ازای هر وات مصرفی است.

پیادهسازی زیرساختهای فوقفشرده و با چگالی توان بالا، نظیر آنچه در معماری دوجو تسلا مشاهده شد، نیازمند دانش مهندسی تراز اول و تجربه عملی در پروژههای پیچیده است. شرکت فیدار کوثر با تکیه بر سال ها تجربه در صنعت مرکز داده و بهرهگیری از تیم مهندسین خبره، آماده است تا شما را در تمامی مراحل ایجاد یک دیتاسنتر مدرن و استاندارد یاری نماید.
خدمات متمایز ما عبارتند از:
اگر به دنبال ساخت دیتاسنتری هستید که نه تنها برای امروز، بلکه برای چالشهای پردازشی دهه آینده آماده باشد، شرکت فیدار کوثر مطمئنترین شریک استراتژیک شماست. تخصص ما، آرامش خاطر شما در پایداری زیرساختهای حیاتی است.
[همین امروز برای دریافت مشاوره تخصصی و برآورد قیمت زیرساخت مرکز داده خود با کارشناسان فیدار کوثر تماس بگیرید]
بعد از ورود به حساب کاربری می توانید دیدگاه خود را ثبت کنید