Skip to main content

MACHINE LEARNING CHIP BREAKS NEW GROUND WITH WAFERSCALE INTEGRATION MICHAEL FELDMAN


MACHINE LEARNING CHIP BREAKS NEW GROUND WITH WAFERSCALE INTEGRATION
 MICHAEL FELDMAN
Startup Cerebras Systems has unveiled the world’s largest microprocessor, a waferscale chip custom-built for machine learning. The 1.2 trillion transistor silicon wafer incorporates 400,000 cores, 18 GB of SRAM memory, and a network fabric with over 100 Pb/sec of aggregate bandwidth. And yes, those numbers are correct.
Integrated together, those components provide what is essentially a giant ML compute cluster on a chip. And giant it is. A single device is 215 millimeters, or about 8.5 inches, on each side. In total area, that’s about 56 times as large as Nvidia’s GV100 GPU, the current gold standard for training neural networks. As a result, the Cerebras chip has 78 times as many cores as a the GV100, although to be fair, all cores are not equal.
Sean Lie wins Hot Chips in 2019, hands down
The startup joins a multitude of companies that are designing custom silicon for machine learning. But of this bunch, Cerebras is the first and only one that is employing waferscale integration. In fact, it’s the only company we know of doing any sort of chip with this technology.
True to its name, the waferscale techniques that Cerebras has invented uses most of an entire wafer to lay down all the desired elements of the clustered system. This is in contrast to conventional chip manufacturing, where the wafer is used to etch multiple copies of a processor, which are subsequently cut out and used as individual processors in systems. Up until now, the waferscale technology has mostly been an area for academic research, but every once in a while an enterprising company attempts to build a product with it.
One of the big advantages of waferscale integration is the potential savings achieved in fabrication and packaging, which can be up to half the cost of a chip. The other big advantage is the potential for much better performance, particularly in those cases where high levels of computational intensity are desired, which was the main motivation for the Cerebras designers. Training neural networks is one of the most computationally demanding workloads in the datacenter these days. And according to Cerebras co-founder and chief hardware architect Sean Lie, it’s also “the most important computational workload of our time.”
At this point, most training is being accelerated on GPUs, with Nvidia’s Tesla V100 accelerator as the processor to beat. That V100 chip relies on its customized Tensor Cores within the graphic processor to provide nearly all of this acceleration. However, purely custom-built ML processors are making their way into the market now. This includes early IPU silicon from Graphcore and Habana’s Gaudi chip, as well as the just-unveiled Intel NNP-T processor
.Cerebras’s Lie certainly agrees that developing custom accelerators for training is the answer. “Our industry has shown time and time again that special applications need special accelerators,” he said, noting that DSPs (signal processing), switch chips (network packet processing), and GPUs (graphics) all came about to serve their particular high-volume application markets.
Where Cerebras part ways with the Intels and Nvidias of the world is that training needs a much higher level of integration than conventional chips can provide and the way to deliver that is through waferscale integration. In particular, by putting hundreds of thousands of cores, multiple gigabytes of SRAM (not DRAM) memory, and a high-speed fabric on the chip, Cerebras is claiming orders of magnitude better performance can be delivered. Chip-level integration also makes it easier to custom-design the processors, memory, and network for training.
Here’s a case in point: The on-chip network takes advantage of the fact the communication in neural network training is mostly local, with one layer generally chatting with the next layer. For this, a 2D mesh topology is just fine and delivers the bandwidth and short-wire latency that is optimal for this layer-to-layer cross-talk. In this application space, something like a 6D Tofu interconnect would have been overkill and certainly would have taken up a lot more chip real estate and power.
But the real advantage here is that you don’t need an external interconnect, like Tofu, Slingshot, or InfiniBand to glue together hundreds of thousands of cores. It’s all done on the wafer. Lie says Cerebras took advantage of the unused lines between the individual processor dies (known as scribe lines) that are used as guides when the dies are cut from the wafer. In this case, the space is used to lay down the wiring for the 2D mesh fabric.
The customization applies to memory as well, said Lie. Most neural networks use local memory for weights, activation, and tensor arithmetic, with little data reuse. That makes caching or other types of memory hierarchies less necessary. Here the 18 GB of memory, in the form of SRAM, is distributed across the cores.  Assuming that distribution is uniform, that works out to about 22 MB of local memory per core. It’s unclear whether memory can be shared between cores. It’s also unclear if the chip can access any sort of external memory, which given the limitation of the 18 GB on-chip capacity would seem to be necessary.
Lie explained that the advantage of having embedded memory is that it’s just one clock cycle from the core, which is orders of magnitude faster than off-chip memory.  Aggregate memory bandwidth for the whole chip is on the order of 9 PB/sec. “It allows the ML to be done the way that ML wants to be done,” said Lie.
As you might suspect, the cores themselves are specially designed as well. Among other things, that means that the tensors, the basic data currency of machine learning, is provided its own operand format. The cores are also optimized to deal with sparse networks, which is common to most types of ML models. Here, each core uses a hardware dataflow scheduler that is able to filter out unused (zero) elements of a network, which means no time or energy is wasted processing empty space.

Although the native arithmetic naturally supports tensor processing, the cores also include general-purpose operations, like loads and stores, as well as logic and branching operations. That suggests no host processor would be needed in a system containing the Cerebras chip, although as we said, access to external memory (or storage) associated with a host would probably have to be accommodated in some manner.
That said, the general idea is to train a machine learning model in its entirely without having to go off-processor. “Because the chip is so large, instead of running one layer at a time, you can map the entire neural network onto the chip at once,” explained Lie. “And since there is only one instance of the neural network, you don’t have to increase batch size to get cluster-scale performance.”
Understandably, Cerebras has some work to do on the software side, which Lie said was co-designed during the development effort. Apparently, the system software is able to extract the neural network from frameworks such as TensorFlow and PyTorch and map them to the Cerebras compute fabric. The size of the network layers determines how much compute resources are provided, with larger layers getting more resources, smaller layers getting less.
ded extra copies of both cores and fabric links on the wafer. According to Lie, this redundancy enables them to obtain “incredibly high yields.”
So why isn’t everyone building waferscale processors?  Well, because it’s extremely tricky.  The current-state-of-the-art in semiconductor manufacturing means you have to incorporate redundancy into the design to get around the inevitable chip defects. In this case, that meant Cerebras included extra copies of both cores and fabric links on the wafer. According to Lie, this redundancy enables them to obtain “incredibly high yields.”
One of the other significant challenges with these big wafers is power and cooling. Thermal stress, in particular, is a problem since silicon expands at different rates from the PCB substrate when heated. This would cause the chip to crack the chip if it got too hot. To get around this, Cerebras used a custom connector layer between the PCB board and the wafer that is designed to absorb the temperature variation. In addition, a water-cooled cold plate sits on top of the silicon to maintain the proper operating temperature. Power is supplied to the wafer by multiple wires that travel from the PCB board, up through the connector to the silicon. Off the cuff, we estimated that this chip would run at around 500 MHz and would generate at least 10 kilowatts of heat, but we have heard rumors to the effect that it actually throws off 14 kilowatts. Cerebras will give us the feeds and speeds as it gets closer to shipping a commercial product.
There is no production chip yet. Although Lie said early customers are running workloads on pre-production silicon, he did not mention when the product would be generally available. As a result, he did not offer some of the more practical information that a potential customer might be interested in, such as wattage, clock rates, and reliability metrics. Oh, and he also left out pricing and performance. Give that this is 56 times larger than a state-of-the-art GPU, we think it’s safe to assume the chip will offer at least an order of magnitude better performance, but not cost an order of magnitude more money. It all depends on how much better – if at all – the waferscale cluster does on actual applications compared to a DGX-2 system that costs under $400,000 with 16 GPUs lashed together, sharing memory. Those are the numbers to beat.
تعلم آلة رقاقة يكسر أرضية جديدة مع التكامل WAFERSCALE
 مايكل فيلدمان
كشفت شركة Startup Cerebras Systems عن أكبر معالج دقيق في العالم ، وهو رقاقة waferscale مصممة خصيصًا للتعلم الآلي. تشتمل رقاقة السليكون الترانزستور البالغة 1.2 تريليون على 400000 نواة ، وذاكرة SRAM بسعة 18 جيجابايت ، ونسيج شبكي مزود بنطاق ترددي إجمالي يزيد عن 100 Pb / ثانية. ونعم ، هذه الأرقام صحيحة.
متكاملة ، توفر هذه المكونات ما هو في الأساس كتلة حساب ML عملاقة على شريحة. والعملاق هو عليه. الجهاز الواحد هو 215 ملم ، أو حوالي 8.5 بوصة ، من كل جانب. في المساحة الكلية ، يبلغ هذا حوالي 56 ضعف مساحة GV100 GPU من Nvidia ، المعيار الذهبي الحالي لتدريب الشبكات العصبية. نتيجة لذلك ، تحتوي شريحة Cerebras على 78 ضعف عدد النوى مثل GV100 ، على الرغم من كونها نزيهة ، فإن جميع النوى ليست متساوية.
شون لي يفوز بجائزة Hot Chips عام 2019 ،
تنضم الشركة الناشئة إلى العديد من الشركات التي تقوم بتصميم السيليكون المخصص لتعلم الآلة. ولكن من بين هذه المجموعة ، فإن Cerebras هي الأولى والوحيدة التي تستخدم تكامل waferscale. في الواقع ، إنها الشركة الوحيدة التي نعرفها عن أي نوع من الرقائق باستخدام هذه التكنولوجيا.
طبقًا لاسمها ، فإن تقنيات waferscale التي ابتكرها Cerebras تستخدم أكثر من رقاقة كاملة لوضع جميع العناصر المرغوبة في النظام المركب. هذا على عكس التصنيع التقليدي للرقاقة ، حيث يتم استخدام الرقاقة لحفر نسخ متعددة من المعالج ، والتي يتم قطعها لاحقًا واستخدامها كمعالجات فردية في الأنظمة. حتى الآن ، كانت تقنية waferscale في الغالب مجالًا للأبحاث الأكاديمية ، لكن في كل مرة تحاول شركة مغربية إنشاء منتج معها.
واحدة من المزايا الكبيرة لتكامل waferscale هي الوفورات المحتملة التي تحققت في التصنيع والتعبئة ، والتي يمكن أن تصل إلى نصف تكلفة رقاقة. الميزة الكبيرة الأخرى هي إمكانية تحقيق أداء أفضل بكثير ، خاصة في تلك الحالات التي تكون فيها المستويات المرتفعة من الكثافة الحسابية مطلوبة ، والتي كانت الدافع الرئيسي لمصممي Cerebras. يعد تدريب الشبكات العصبية أحد أعباء العمل الأكثر تطلبًا من الناحية الحسابية في مركز البيانات هذه الأيام. ووفقًا للمؤسس المشارك لـ Cerebras وكبير مهندسي الأجهزة Sean Lie ، فإنها أيضًا "تمثل عبء العمل الحسابي الأكثر أهمية في عصرنا".
في هذه المرحلة ، يتم تسريع معظم التدريب على وحدات معالجة الرسومات ، مع تسريع Nvidia's Tesla V100 كمعالج للفوز. تعتمد شريحة V100 هذه على Tensor Cores المخصصة داخل معالج الرسوم لتوفير كل هذا التسارع تقريبًا. ومع ذلك ، فإن معالجات ML المصممة خصيصًا تشق طريقها إلى السوق الآن. يتضمن ذلك السيليكون IPU المبكر من Graphcore و Habana’s Gaudi chip ، بالإضافة إلى معالج Intel NNP-T الذي تم كشف النقاب عنه للتو.
taealam alat raqaqat yukasir 'ardiatan jadidat mae altkamul WAFE
يوافق Cerebras’s Lie بالتأكيد على أن تطوير مسرعات مخصصة للتدريب هو الحل. وقال "لقد أظهرت صناعتنا مرارًا وتكرارًا أن التطبيقات الخاصة تحتاج إلى مسرعات خاصة" ، مشيرًا إلى أن DSPs (معالجة الإشارات) وشرائح المحولات (معالجة حزمة الشبكة) ووحدات معالجة الرسومات (GPU) كلها تخدم كل منها على مستوى عالٍ. أسواق التطبيقات الحجم.
حيث تتحدث Cerebras مع Intels و Nvidias في العالم هو أن التدريب يحتاج إلى مستوى تكامل أعلى بكثير مما يمكن أن توفره الرقاقات التقليدية والطريقة لتحقيق ذلك هي من خلال تكامل التردد. على وجه الخصوص ، من خلال وضع مئات الآلاف من النوى ، غيغابايت متعددة من ذاكرة SRAM (وليس DRAM) ، ونسيج عالي السرعة على الرقاقة ، تدعي Cerebras أنه يمكن تقديم أوامر ذات حجم أفضل من الأداء. يجعل التكامل على مستوى الشريحة أيضًا من السهل تصميم المعالجات والذاكرة والشبكة المخصصة للتدريب.
إليكم مثال على ذلك: الشبكة على الرقاقة تستفيد من حقيقة أن التواصل في تدريب الشبكات العصبية هو في الغالب محلي ، مع طبقة واحدة تتحدث عمومًا مع الطبقة التالية. لهذا ، فإن طوبولوجيا شبكة ثنائية الأبعاد جيدة تمامًا وتوفر النطاق الترددي والكمون القصير السلك المثالي لمحادثة الطبقة إلى الطبقة. في مساحة التطبيق هذه ، كان هناك ما يشبه الاتصال البطيء 6D Tofu الذي كان مفرطًا وكان من المؤكد أنه كان سيحتاج إلى الكثير من العقارات والطاقة.
لكن الميزة الحقيقية هنا هي أنك لست بحاجة إلى اتصال خارجي ، مثل Tofu أو Slingshot أو InfiniBand لتجمع مئات الآلاف من النوى. كل شيء يتم على الرقاقة. يقول لي إن Cerebras استفاد من الخطوط غير المستخدمة بين وفاة المعالج الفردي (المعروفة باسم خطوط الكاتب) التي تستخدم كمرشدين عندما يتم قطع الوفيات من الرقاقة. في هذه الحالة ، يتم استخدام المساحة لوضع الأسلاك للنسيج الشبكي ثنائي الأبعاد.
قال لي إن التخصيص ينطبق على الذاكرة أيضًا. تستخدم معظم الشبكات العصبية الذاكرة المحلية للأوزان والتنشيط والحساب الموتر ، مع إعادة استخدام القليل من البيانات. وهذا يجعل التخزين المؤقت أو الأنواع الأخرى من التسلسلات الهرمية للذاكرة أقل ضرورة. هنا يتم توزيع 18 جيجابايت من الذاكرة ، في شكل SRAM ، عبر النوى. بافتراض أن التوزيع موحد ، يعمل على حوالي 22 ميغابايت من الذاكرة المحلية لكل نواة. ليس من الواضح ما إذا كان يمكن مشاركة الذاكرة بين النوى. كما أنه من غير الواضح ما إذا كانت الشريحة يمكنها الوصول إلى أي نوع من الذاكرة الخارجية ، الأمر الذي يبدو أنه ضروري بسبب وجود قيود على سعة الرقاقة البالغة 18 جيجابايت.
أوضح لي أن ميزة امتلاك ذاكرة مدمجة هي أنها دورة ساعة واحدة فقط من القلب ، وهي أوامر من حيث الحجم أسرع من الذاكرة خارج الرقاقة. إجمالي عرض النطاق الترددي الذاكرة للرقاقة بأكملها في حدود 9 PB / ثانية. قال لي: "إنها تسمح لـ ML بالقيام بالطريقة التي يريد ML القيام بها".
كما قد تشك في ، النوى نفسها مصممة خصيصا كذلك. هذا يعني ، من بين أشياء أخرى ، أن التنسورات ، عملة البيانات الأساسية للتعلم الآلي ، يتم توفيرها في شكل المعامل الخاص بها. يتم تحسين النوى أيضًا للتعامل مع الشبكات المتناثرة ، وهو أمر شائع في معظم أنواع نماذج ML. هنا ، يستخدم كل نواة برنامج جدولة تدفق بيانات جهاز قادر على تصفية العناصر غير المستخدمة (صفر) من الشبكة ، مما يعني عدم إضاعة الوقت أو الطاقة في معالجة المساحة الفارغة.

على الرغم من أن الحساب الأصلي يدعم بشكل طبيعي معالجة التنسور ، فإن النوى تشمل أيضًا عمليات للأغراض العامة ، مثل الأحمال والمخازن ، فضلاً عن عمليات المنطق والفروع. يشير هذا إلى أنه لن تكون هناك حاجة إلى معالج مضيف في نظام يحتوي على شريحة Cerebras ، على الرغم من أننا ، كما قلنا ، قد يتعين استيعاب الوصول إلى الذاكرة الخارجية (أو التخزين) المرتبطة بالمضيف بطريقة ما.
ومع ذلك ، فإن الفكرة العامة هي تدريب نموذج للتعلم الآلي بالكامل دون الحاجة إلى الخروج من المعالج. "لأن الشريحة كبيرة جدًا ، بدلاً من تشغيل طبقة واحدة في كل مرة ، يمكنك تعيين الشبكة العصبية بأكملها على الشريحة في وقت واحد" ، أوضح لي. "نظرًا لوجود مثيل واحد فقط من الشبكة العصبية ، فلا يتعين عليك زيادة حجم الدُفعات للحصول على أداء على مستوى الكتلة."
من المفهوم أن لدى Cerebras بعض الأعمال التي يتعين القيام بها على جانب البرنامج ، والتي قال لي إنه تم تصميمها بشكل مشترك أثناء جهود التطوير. من الواضح أن برنامج النظام قادر على استخراج الشبكة العصبية من الأطر مثل TensorFlow و PyTorch وتعيينها على نسيج Cerebras. يحدد حجم طبقات الشبكة مقدار الموارد التي يتم توفيرها ، حيث تحصل الطبقات الأكبر على موارد أكثر ، بينما تحصل الطبقات الأصغر على أقل.
فلماذا لا يبني الجميع معالجات waferscale؟ حسنًا ، لأنها صعبة للغاية. إن أحدث ما توصلت إليه صناعة أشباه الموصلات في العصر الحالي يعني أنه يتعين عليك دمج التكرار في التصميم للتغلب على عيوب الرقاقة التي لا مفر منها. في هذه الحالة ، يعني ذلك أن Cerebras تضمنت نسخًا إضافية من كل من النوى وروابط القماش على الرقاقة. حسب لي ، فإن هذا التكرار يمكّنهم من الحصول على "عوائد عالية بشكل لا يصدق".
واحدة من التحديات الكبيرة الأخرى مع هذه الرقاقات الكبيرة هي القوة والتبريد. يمثل الإجهاد الحراري ، على وجه الخصوص ، مشكلة نظرًا لأن السيليكون يتوسع بمعدلات مختلفة عن الركيزة ثنائية الفينيل متعدد الكلور عند تسخينه. هذا من شأنه أن يتسبب في كسر الرقاقة للرقاقة إذا أصبحت ساخنة للغاية. للتغلب على ذلك ، استخدم Cerebras طبقة موصل مخصصة بين لوحة PCB والرقاقة المصممة لامتصاص التغير في درجة الحرارة. بالإضافة إلى ذلك ، توجد لوحة باردة مبردة بالماء فوق السيليكون للحفاظ على درجة حرارة التشغيل المناسبة. يتم توفير الطاقة للرقاقة بواسطة عدة أسلاك تنتقل من لوحة PCB ، عبر الموصل إلى السيليكون. خارج الكفة ، قدرنا أن هذه الرقاقة ستعمل بسرعة حوالي 500 ميجاهرتز وستولد ما لا يقل عن 10 كيلووات من الحرارة ، لكننا سمعنا شائعات مفادها أنها تتخلص بالفعل من 14 كيلووات. ستقدم لنا Cerebras الأعلاف والسرعات حيث تقترب من شحن منتج تجاري.
لا يوجد رقاقة الإنتاج حتى الآن. على الرغم من أن لي قال إن العملاء الأوائل يشغلون أعباء عمل على السيليكون قبل الإنتاج ، إلا أنه لم يذكر متى سيكون المنتج متاحًا بشكل عام. ونتيجة لذلك ، لم يقدم بعضًا من المعلومات العملية التي قد يهتم بها العميل المحتمل ، مثل القوة الكهربائية وأسعار الساعة ومقاييس الموثوقية. أوه ، وترك أيضًا التسعير والأداء. مع العلم أن هذا أكبر بـ 56 مرة من وحدة معالجة الرسومات الحديثة ، نعتقد أنه من الآمن افتراض أن الرقاقة ستقدم على الأقل طلبًا من حيث الحجم أفضل من الأداء ، ولكن لا تكلف مبلغًا أكبر من المال. كل هذا يتوقف على مدى أفضل - إن كان على الإطلاق - أداء مجموعة waferscale على التطبيقات الفعلية مقارنة بنظام DGX-2 الذي يتكلف أقل من 400000 دولار مع 16 وحدة معالجة الرسومات (GPU) التي يتم تجميعها معًا ومشاركة الذاكرة. هذه هي الأرقام للفوز.

Comments

Popular posts from this blog

Mona Farouk reveals scenes of "scandalous video"Egyptian actress Mona Farouk appeared on

Mona Farouk reveals scenes of "scandalous video"Egyptian actress Mona Farouk appeared on Monday in a video clip to discuss the details of the case she is currently facing. She recorded the first video and audio statements about the scandalous video that she brings together with Khaled Youssef.Farouk detonated several surprises, on the sidelines of her summons to the Egyptian prosecution, that Khalid Youssef was a friend of her father years ago, when she was a young age, and then collected a love relationship with him when she grew up, and married him in secret with the knowledge of her parents and her father and brother because his social status was not allowed to declare marriage .Muna Farouk revealed that the video was filmed in a drunken state. She and her colleague Shima al-Hajj said that on the same day the video was filmed, she was at odds with Shima, and Khaled Yusuf repaired them and then drank alcohol.She confirmed that Youssef was the one who filmed the clips whil...

الحلقة 20 هنادي المطلقة والمحلل (ماذا قال كتاب العرب في هنادي)-----------Khalid Babiker

• الجنس شعور فوضوي يتحكم في الذات والعقل . وله قوة ذاتية لا تتصالح إلا مع نفسها . هكذا قال أنصار المحلل الحلقة 20 هنادي المطلقة والمحلل (ماذا قال كتاب العرب في هنادي) أول طريق عبره الإنسان هو طريق الذكر . بعدها شهق وصرخ . تمرغ في الزيت المقدس . وجرب نشوة الأرغوس . عاجلا أم آجلا سيبحث عن هذا الطريق ( كالأسماك تعود إلى أرض ميلادها لتبيض وتموت ) . وسيعبره . سيعبره بحثا عن الديمومة . وسيشهق وسيضحك . لقد جاء إليه غريبا . سيظل بين جدرانه الدافئة غريبا . وحالما يدفع تلك الكائنات الحية الصغيرة المضطربة في الهاوية الملعونة سيخرج فقيرا مدحورا يشعر بخيانة ما ( ..... ) . لن ينسى الإنسان أبدا طريق الذكر الذي عبره في البدء . سيتذكره ليس بالذاكرة وإنما بالذكر . سيعود إليه بعد البلوغ أكثر شوقا وتولعا . ولن يدخل فيه بجميع بدنه كما فعل في تلك السنوات التي مضت وإنما سيدخل برأسه . بعد ذلك سيندفع غير مبال بالخطر والفضيحة والقانون والدين . الله هناك خلف الأشياء الصغيرة . خلف كل شهقة . كل صرخة مندفعا في الظلام كالثور في قاعة المسلخ . الله لا يوجد في الأشياء الكبيرة . في الشرانق . في المح . ينشق فمه . تن...

Trusting Liar (#5) Leave a reply

Trusting Liar (#5) Leave a reply Gertruida is the first to recover.  “Klasie… ?” “Ag drop the pretence, Gertruida. You all call me ‘Liar’ behind my back, so why stop now? Might as well be on the same page, yes?” Liar’s face is flushed with anger; the muscles in his thin neck prominently bulging. “That diamond belongs to me. Hand it over.” “What are you doing? Put away the gun…” “No! This…,” Liar sweeps his one hand towards the horizon, “…is my place.  Mine!   I earned it! And you…you have no right to be here!” “Listen, Liar, we’re not the enemy. Whoever is looking for you with the aeroplane and the chopper….well, it isn’t us. In fact, we were worried about you and that’s why we followed you. We’re here to help, man!” Vetfaan’s voice is pleading as he takes a step closer to the distraught man. “Now, put down the gun and let’s chat about all this.” Liar hesitates, taken aback after clearly being convinced that the group  had hostile intentions. “I…I’m ...