Cerebras Architecture Deep Dive: Първи поглед вътре в съвместния дизайн на HW/SW за задълбочено обучение

Нашата оптимизирана за ML архитектура позволява най-големите модели да работят на едно устройство. С мащабиране само на паралелни данни и естествено ускорение на неструктурирана разреденост, Cerebras прави големите модели достъпни за всички. (Разговор от Hot Chips 34.)

Невронните мрежи нараснаха експоненциално през последните години, от най-съвременните невронни мрежи от 2018 г. със 100 милиона параметри до известния GPT-3 със 175 милиарда параметри. Въпреки това, това голямо предизвикателство на търсенето на ML трябва да бъде адресирано чрез извършване на съществени подобрения — порядък или повече — в широк спектър от множество различни компоненти. Тази публикация е писмена версия на лекция, която изнесох на конференцията Hot Chips 34 наскоро. Той дава дълбоко потапяне в хардуера на Cerebras, за да ви покаже как нашите революционни подходи в основната архитектура, мащабиране и мащабиране са проектирани да отговорят на това търсене на ML.

Голямото предизвикателство за търсене на ML

Едва в началото сме да разберем какво могат да направят невронните мрежи. Освен това вече достигаме скорост, при която традиционните подходи към обучението и изводите просто не могат да се справят. През 2018 г. най-съвременните невронни мрежи имаха 100 милиона параметъра и това беше много. Бързо напред две години по-късно и получаваме известния GPT-3 със 175 милиарда параметъра. Не се вижда край; утре ще искаме да стартираме модели с трилиони параметри. Това е над хиляда пъти повече изчисления само за две години; над три порядъка повече изчисления само за две години (Фигура 1).

Това е Grand ML Demand Challenge пред всички ни. В Cerebras вярваме, че можем да отговорим на това безпрецедентно търсене. Не можем да го направим, като разчитаме само на едно решение. Трябва да се обърне внимание чрез извършване на съществени подобрения — от порядък или повече — в широк спектър от множество различни компоненти. За да отговорим на това безпрецедентно търсене, ние се нуждаем от подобрения от порядък на големината в производителността на основната архитектура, така че да можем да отидем отвъд обикновените провали с груба сила. Имаме нужда от подобрения от порядък на мащаба; Законът на Мур просто не е достатъчен. Нуждаем се от порядък на подобрения в мащабирането, за да подобрим и опростим значително клъстерирането. Всичко това е необходимо, за да имаме надежда да се справим с това търсене на ML.

Възможно ли е изобщо това? Така е, но само с архитектура, която е съвместно проектирана от нулата специално за невронни мрежи. В тази публикация ще се потопя дълбоко в архитектурата на Cerebras, за да ви покажа как правим това.

Основна архитектура

Първо, в основата на цялата компютърна архитектура е изчислителното ядро. В Cerebras се заехме да проектираме ядро, което е специално проектирано за фината, динамична рядкост в невронните мрежи.

Това е малък основен дизайн, съвсем буквално (Фигура 2). Размерът му е само 38 000 квадратни микрона и половината от този силиций се използва от 48 килобайта памет. Другата половина е логика, съставена от 110 000 стандартни клетки. Цялото ядро работи на ефективна тактова честота от 1,1 гигахерца и консумира само 30 миливата пикова мощност.

Нека разгледаме по-отблизо паметта. Традиционните архитектури на паметта, като GPU, използват споделена централна DRAM, но DRAM е едновременно бавна и далеч, когато сравните това с изчислителната производителност. Дори с усъвършенствани, модерни техники като interposers и High Bandwidth Memory (HBM), относителната честотна лента от паметта е значително по-ниска от честотната лента на основния път на данни. Например, много често пъти изчислителните пътеки на данни имат 100 пъти по-голяма честотна лента от честотната лента на паметта. Това означава, че всеки операнд от паметта трябва да се използва поне 100 пъти в пътя на данните, за да се поддържа високо използване. Традиционният начин за справяне с това е чрез повторно използване на данни чрез локално кеширане или локални регистри. Въпреки това има начин да получите пълна честотна лента на паметта към пътищата за данни при пълна производителност и това е чрез пълно разпределяне на паметта точно до мястото, където се използва. Това позволява честотна лента на паметта, която е равна на честотната лента на операнда на основния път на данни. Причината това да е възможно е, честно казано, просто физика. Прехвърлянето на битове от десетки микрони от локалната памет към пътя на данните през силикон е много по-лесно, отколкото чрез пакет към външно устройство.

След това нека да разгледаме как е проектирана тази памет (Фигура 3). Всяко малко ядро има 48 килобайта локална SRAM, предназначена за ядрото. Тази памет е проектирана да има най-висока плътност, като същевременно осигурява пълна производителност. Тази плътност и производителност се постигат чрез организиране на паметта в осем банки с един порт, всяка от които е с ширина 32 бита. С тази степен на банкиране имаме повече необработена честотна лента на паметта, отколкото се нуждае пътят на данни. Така че можем да поддържаме пълна производителност на пътя на данните директно извън паметта: това са две пълни 64-битови четения и един пълен 64-битов запис на цикъл. Важно е да се отбележи, че цялата тази памет се адресира независимо за всяко ядро. Няма споделена памет в традиционния смисъл. За да се даде възможност за наистина мащабируема памет, цялото споделяне между ядрата се извършва изрично чрез тъканта. В допълнение към високопроизводителната SRAM, имаме и малък 256-байтов софтуерно управляван кеш, който се използва за често достъпни структури от данни, като акумулатори. Този кеш е проектиран да бъде физически много компактен и близо до пътя на данните, така че да можем да получим ултра ниска мощност за тези чести достъпи. С тази архитектура на разпределена памет ние сме в състояние да постигнем умопомрачително ниво на честотна лента на паметта. Ако нормализирате към областта на GPU, това е 200 пъти повече честотна лента на паметта в рамките на същата област на GPU, директно към пътищата за данни.

Пълна производителност на всички нива на BLAS

Сега, с това ниво на честотна лента на паметта, можем да направим някои забележителни неща. Можем да изпълняваме матрични операции без памет, при пълна производителност във всички нива на BLAS (Фигура 4). Традиционните CPU и GPU архитектури с ограничена честотна лента на паметта извън чипа са ограничени до работа само на GEMM при пълна производителност: това е само умножение матрица-матрица. Всъщност можете да видите, че всяко ниво на BLAS под пълното умножение матрица-матрица изисква огромен скок в честотната лента на паметта. Това не е възможно с традиционните архитектури, но с достатъчно честотна лента на паметта можете да активирате пълна производителност до AXPY, което е векторно-скаларно умножение. В рамките на изчисленията на невронни мрежи това е важно, защото позволява напълно неструктурирано ускорение на разредеността. Това е така, защото разреденият GEMM е просто колекция от AXPY операции, с една операция за всеки различен от нула елемент. Това ниво на честотна лента на паметта е предпоставка за ускорение на неструктурирана разреденост. Освен това се нуждаем от изчислително ядро, което може да ускори тази рядкост.

Основата на ядрото на Cerebras е напълно програмируем процесор, който може да бъде адаптиран към променящите се области на дълбокото обучение. Като всеки процесор с общо предназначение, той поддържа пълен набор от инструкции за общо предназначение, който включва аритметични, логически инструкции, инструкции за зареждане/съхранение, сравнение и разклоняване. Тези инструкции са напълно локални за всяко ядро, съхранявани в същите 48 килобайта локална памет като данните. Това е важно, защото означава, че всяко от тези малки ядра е независимо. Това позволява много фино, динамично изчисление, глобално в целия чип. Тези инструкции с общо предназначение работят върху 16 регистъра с общо предназначение и работят в компактен шестстепенен конвейер.

В допълнение към тази основа с общо предназначение имаме хардуерна поддръжка за тензорни инструкции, които са предназначени за обработка на всички данни. Тези тензорни операции се изпълняват на основния 64-битов път на данни, който се състои от четири FP16 FMAC единици. За оптимизиране за производителност и гъвкавост, нашата ISA има тензори като първокласни операнди, точно като регистри с общо предназначение или памет. Уравнение 1 показва пример за FMAC инструкция, която работи директно върху 3D и 2D тензор като операнди.

Правим това, като използваме регистри на структурата на данните (DSR) като операнди към инструкциите. Нашето ядро има 44 от тези DSR, всеки от които съдържа дескриптор с указател към тензора и друга ключова информация като дължина, форма и размер на този тензор. С този DSR хардуерната архитектура е достатъчно гъвкава, за да поддържа естествено до 4D тензори, които са в паметта, или сензори за поточно предаване на тъкани, или FIFO, и кръгови буфери. Зад кулисите има хардуерни държавни машини, които използват DSRS и последователност през пълния тензор при пълна производителност по пътя на данните.

Фино планиране на потока от данни

В допълнение към тези тензорни приложения, ядрото използва фино планиране на потока от данни. Тук всички изчисления се задействат от данните (Фигура 5). Тъканта транспортира както данните, така и асоциативния контрол директно в хардуера. След като ядрата получат тези данни, хардуерът задейства търсене на инструкции за изпълнение. Този поглед нагоре се основава изцяло на това, което е получено в тъканта. С този механизъм за поток от данни в ядрата, цялата изчислителна структура е двигател за поток от данни. Това позволява собствено ускорение на разредеността, тъй като извършва работа само върху ненулеви данни. Ние филтрираме всички нулеви данни при подателя, така че получателят дори не ги вижда. Изпращат се само ненулеви данни и това е, което задейства всички изчисления. Не само спестяваме енергия, като не изпълняваме изгубеното изчисление, но получаваме ускорение, като го пропускаме и преминаваме към следващото полезно изчисление. Тъй като операциите се задействат от единични елементи от данни, това поддържа ултра фино зърнеста, напълно неструктурирана рядкост без загуба на производителност. За да допълни динамичния характер на потока от данни, ядрото поддържа и осем едновременни тензорни операции, които наричаме микро-нишки. Това са независими тензорни контексти, между които хардуерът може да превключва на базата на цикъл по цикъл. Планировчикът непрекъснато следи наличността на входа и изхода за всички тензори, които се обработват. Той има механизми за приоритет, за да гарантира, че критичната работа е приоритетна. Микронишките повишават използването, когато има много, много динамично поведение чрез превключване към други задачи, когато иначе би имало балони в конвейера.

С тази фина, динамична, малкоядрена архитектура можем да постигнем безпрецедентна изчислителна производителност, до десет пъти по-голямо използване от графичните процесори при неструктурирано, разредено изчисление или потенциално дори повече с по-голяма разреденост. Връщайки се към голямото предизвикателство пред нас, ето как можем да постигнем порядък на подобрение на нивото от основната архитектура.

Увеличаване: Усилване на закона на Мур

Сега нека да разгледаме как го увеличаваме. Традиционно мащабирането в рамките на един чип е било домейн на фабриките. Законът на Мур носи нашата индустрия в продължение на десетилетия, позволявайки все по-плътни и по-плътни чипове. Днес законът на Мур е все още жив и здрав. Но това дава само допълнителни печалби, може би двукратно подобрение на генериране на процес, а това просто не е достатъчно. И така, ние се питаме, можем ли да разширим закона на Мур и да постигнем порядък или повече подобрение?

Традиционният начин за разширяване на закона на Мур е да се правят по-големи чипове. Направихме това и го докарахме до крайност. Резултатът е нашето второ поколение Wafer-Scale Engine, WSE-2. В момента е общодостъпен и се използва от нашите клиенти всеки ден. Това е най-големият чип, създаван някога, 56 пъти по-голям от най-големия CPU днес. Той е с размер над 46 000 квадратни милиметра, с 2,6 трилиона транзистора на един чип и можем да поберем 850 000 ядра. С всички тези ядра, интегрирани в едно парче силиций, получаваме някои наистина умопомрачителни числа за памет и производителност, защото всичко е в чипа.

Изградихме специално проектирана система около него, наречена Cerebras CS-2. Това беше съвместно проектирано около WSE-2, позволявайки чипът с вафлен мащаб да се използва в стандартна среда на център за данни. Това наистина е изчисление на ниво клъстер в една кутия.

Ето как изграждаме тази масивна пластина от всички тези малки ядра. Първо създаваме традиционна матрица с 10 000 ядра всяка. Вместо да нарязваме тези матрици, за да направим традиционните чипове, ние ги запазваме непокътнати, но издълбаваме по-голям квадрат в кръглата 300-милиметрова пластина. Това са общо 84 матрици с 850 000 ядра, всички на един чип (Фигура 6.). Всичко това е възможно само ако основната архитектура може да се мащабира до този екстремен размер.

Основният фактор е тъканта. Той трябва да позволи ефективна и високопроизводителна комуникация в цялата пластина (Фигура 7). Нашата тъкан прави това, като използва 2D мрежеста топология, която е много подходяща за мащабиране върху силиций с изключително ниски режийни разходи. Тази тъкан свързва заедно всички ядра, като всяко ядро има маршрутизатор на тъканта в рамките на мрежестата топология. Платформените рутери имат прост дизайн с 5 порта с 32-битови двупосочни интерфейси във всяка от четирите кардинални посоки и един порт, обърнат към самото ядро. Този малък брой портове позволява латентност на един тактов цикъл между възлите, позволявайки евтин контрол на потока без загуби с много ниско буфериране.

Основният пакет данни е само един елемент от данни FP16, оптимизиран за невронни мрежи. Заедно с тези FP16 данни има 16 бита контролна информация, съставляваща 32-битов ултра-финозърнест пакет. За да оптимизира допълнително структурата, тя използва изцяло статично маршрутизиране, което е изключително ефективно и с ниски разходи, като същевременно перфектно използва статичните връзки на невронните мрежи. За да активираме множество маршрути на една и съща физическа връзка, имаме 24 независими статични маршрута, които могат да бъдат конфигурирани. Ние наричаме тези цветове. Всички те са неблокиращи помежду си и всички те са мултиплексирани във времето върху едни и същи физически връзки. И накрая, невронната мрежова комуникация по своята същност има висока степен на разклоняване, така че на нашата тъкан са присвоени собствени възможности за излъчване и множествено предаване във всеки рутер за тъкани.

Сега, когато имаме мащабируема основа, трябва да я мащабираме. Мащабирането в рамките на една матрица е лесно. За мащабиране отвъд матрицата, ние разширяваме тъканта през тези граници на матрицата. Ние пресичаме по-малко от милиметър линия на писане и правим това, като използваме висококачествени метални слоеве в рамките на процеса TSMC. Това разширява това до 2D мрежестата изчислителна тъкан до напълно хомогенен масив от ядра в цялата пластина. Интерфейсът die-to-die е високоефективен, синхронен с източника, паралелен интерфейс. Но в този мащаб на вафла, това добавя до над милион проводника, така че трябва да имаме излишък, вграден директно в основния протокол. Правим това с машини за обучение и автоматична корекция. С тези интерфейси, дори и с дефекти в производствения процес, получаваме напълно еднаква тъкан по цялата пластина.

Тези привидно прости къси проводници са голяма работа, защото обхващат по-малко от милиметър разстояние върху силиций. Когато сравните това с традиционните подходи на SERDES, разликата е огромна. Точно като паметта, това е просто физика. Задвижването на битове, по-малки от милиметър върху чип, е много по-лесно, отколкото през съединители на пакети, печатни платки и понякога дори кабели. Това води до порядък на подобрение в сравнение с традиционния IO. Както можете да видите от таблицата на Фигура 8, можем да постигнем около един порядък по-голяма честотна лента на единица площ и почти два порядъка по-добра енергийна ефективност на бит. Всичко това се превръща в безпрецедентно представяне на тъканта в цялата пластина. Ако нормализирате към GPU еквивалентна област, това е седем пъти по-голяма честотна лента от GPU die-to-die честотна лента в същата област на GPU, само при пет вата мощност. Това ниво на глобална производителност на тъканта позволява на пластината да работи като единичен чип. Това е важно, защото с такъв мощен единичен чип можем да решим някои наистина, наистина големи проблеми.

Weight Streaming позволява най-големите модели

Тъканта ни позволява да управляваме изключително големи невронни мрежи на един чип. WSE-2 има повече от достатъчно производителност и капацитет, за да работи дори с най-големите модели без разделяне или сложно разпределение. Това се прави чрез дезагрегиране на модела на невронната мрежа, теглата на паметта и изчислението. Ние съхраняваме всички тегла на модела външно в устройство, наречено MemoryX, и „поточно предаваме всички тези тегла“ към системата CS-2, тъй като те са необходими за изчисляване на всеки слой на мрежата, един слой наведнъж. Теглата никога не се съхраняват в системата, дори временно. Докато теглата преминават, CS-2 извършва изчислението, използвайки основните механизми за поток от данни в ядрата (Фигура 9).

Всяко отделно тегло задейства изчислението като отделна AXPY операция. След като всяка тежест е завършена, тя се изхвърля и хардуерът преминава към следващия елемент. Сега, тъй като теглата никога не се съхраняват на чипа, размерът на модела не е ограничен от капацитета на паметта на чипа. При обратно преминаване, градиентите се предават в обратна посока обратно към модула MemoryX, където се извършват актуализациите на теглото.

Нека се потопим по-задълбочено в това как се извършва изчислението, за да можем да видим как свойствата на архитектурата уникално позволяват тази възможност. Слоевете на невронната мрежа се свеждат до умножение на матрици. Поради мащаба на CS-2, можем да използваме всичките 850 000 ядра на пластината като единичен гигантски матричен умножител (Грешка! Референтният източник не е намерен.). Ето как работи това: За трансформаторни модели, като GPT, тензорите за активиране имат три логически измерения: партида, последователност и скрито измерение (B, S и H). Ние разделяме тези тензорни измерения върху 2D мрежата от ядра на пластината. Скритото измерение е разделено върху тъканта в посока x, а размерите на партидата и последователността са разделени върху посоката y на тъканта. Тази подредба позволява ефективно излъчване на тегло и намаляване на последователни и скрити измерения.

С активации, съхранени в ядрата, където ще се извършва работата, следващата стъпка е да задействате изчислението на тези активации. Това се прави с помощта на тъканта за излъчване в чипа. Това е, което използваме, за да изпратим теглата, данните и командите към всяка колона. Разбира се, използвайки хардуерните механизми за поток от данни, теглата задействат директно FMAC операциите. Това са операциите AXPY. Тъй като излъчването се извършва по колони, всички ядра, съдържащи едно и също подмножество от функции, получават еднакви тегла. Освен това изпращаме команди за задействане на други изчисления, като редукции или нелинейни операции.

Нека преминем през пример. Започваме с излъчване на реда от тежести върху вафлата (Фигура 11). Всеки елемент от реда е нашата скала. В рамките на този ред има множество тегла, които се нанасят върху една колона, разбира се. Когато има рядкост, само тези ненулеви тегла се излъчват към колоната, задействайки тези FMAC изчисления. Пропускаме всички нулеви тегла и предаваме следващото ненулево тегло. Това е, което създава разредено ускорение.

Ако сега увеличим ядрото, можем да видим как основната архитектура се използва за тази операция (Фигура 12). Когато пристигне тегло, използвайки механизмите за поток от данни, то задейства FMAC операция в ядрото. Стойността на теглото се умножава с всяко от тези активации и се добавя към локален акумулатор, който се намира в управлявания от SW кеш. FMAC изчислението се извършва с помощта на тензорна инструкция с активациите като тензорен операнд. Всичко това се прави с нулеви допълнителни разходи за ядрото. Освен това няма излишни разходи за капацитет на паметта за теглата, тъй като след като изчислението приключи, ядрото преминава към следващото тегло. Никога не съхраняваме никакви тежести. След като всички тегла за реда са получени, всяко ядро съдържа частична сума, която трябва да бъде намалена в реда от ядра.

Това намаление след това се задейства от команден пакет, излъчен до всички ядра на всяка колона. Отново, използвайки механизмите за планиране на потока от данни, след като ядрото получи командния пакет, то задейства намаляването на частичната сума. Самото действително изчисление на редукция се извършва с помощта на тензорната инструкция на ядрото, този път с тензорни операнди на тъканта. Всички колони получават команда PSUM (частична сума). Но една колона получава специална команда FSUM (крайна сума). Командата FSUM показва на ядрото, че трябва да съхрани крайната сума. Правим това, така че изходните функции да се съхраняват, като се използва същият вид разпределение, както беше използвано за входни характеристики, което ни настройва за следващия слой. След като получи командите, ядрата комуникират с помощта на пръстеновиден модел върху тъканта, който е настроен с помощта на цветовете за статично маршрутизиране на тъканта. Използвайки микронишки, цялото това намаление се припокрива с изчислението на FMAC за следващия ред с тегло, който е започнал паралелно. След като всички редове с тегла са обработени, пълната операция GEMM е завършена и всички наши активации са на място за следващия слой.

Това позволява на невронни мрежи от всякакъв размер да работят с висока производителност, всички на един чип. Това е възможно благодарение на уникалната основна памет и плат архитектура. Това означава, че изключително големи матрици се поддържат без блокиране или разделяне, дори най-големите модели с до 100 000 на 100 000 MatMul слоя могат да работят без разделяне на матрицата. Когато комбинирате това в един чип WSE-2, това води до 75 петафлопа FP16 разредена производителност (и потенциално дори повече с по-висока разреденост) или 7,5 петафлопа FP16 плътна производителност, всичко това на един чип. Сега, връщайки това към предизвикателството Grand ML Demand пред нас, това е начинът, по който можем да постигнем подобрение на ниво с порядък на мащаба.

Мащабиране: Защо е толкова трудно днес?

Нека поговорим за последния компонент: Клъстерно мащабиране. Решенията за групиране вече съществуват днес. Така че защо все още е толкова трудно да се мащабира?

Нека да разгледаме съществуващите техники за мащабиране (Фигура 13). Най-често срещаният е паралел на данни. Това е най-простият подход, но не работи добре за големи модели, защото целият модел трябва да се побере във всяко устройство, за да се реши това. За да се реши този проблем, общият подход е моделът да се изпълнява паралелно. Това разделя модела и изпълнява различни слоеве на различни устройства като тръбопровод. Но с нарастването на конвейера паметта за активиране се увеличава квадратично, за да поддържа конвейера пълен. За да се избегне това, също е обичайно да се изпълнява друга форма на модел паралелно чрез разделяне на слоеве между устройства. Това води до значителни разходи за комуникация и разделянето на отделните слоеве е изключително сложно. Поради всички тези ограничения днес няма универсален начин за мащабиране. Всъщност в повечето случаи обучението на масивни модели изисква хибриден подход както с паралел на данни, така и с паралел на модел. Въпреки че решенията за мащабиране технически съществуват, те имат много ограничения. И основната причина е проста: при традиционно мащабиране нашата памет и изчисления са обвързани един с друг. Опитът да се изпълнява един модел на хиляди устройства превръща мащабирането както на паметта, така и на изчисленията в проблеми с разпределени ограничения, които са взаимозависими.

Ето резултата от тази сложност: Фигура 14 показва най-големите модели, обучени на GPU през последните няколко години, и използваните различни видове паралелизъм. Както можете да видите, колкото повече модели стават по-големи, толкова повече видове паралелизъм са необходими и това води до огромно количество сложност. Например, можете да видите, че нивото на паралелизъм на тензорния модел винаги е ограничено до 8, защото това е броят на GPU, които обикновено са в един сървър. В резултат на това повечето паралелизъм за големи модели е конвейерен паралелизъм на модела, но това е най-сложното поради компромисите с паметта. Обучението на тези модели на GPU клъстери днес изисква навигиране във всички тези поръчкови проблеми на разпределената система. Тази сложност води до по-дълги времена за разработка и често неоптимално мащабиране.

Архитектурата на Cerebras прави мащабирането лесно

От друга страна, тъй като архитектурата на Cerebras позволява работа на всички модели на един чип без разделяне, мащабирането става лесно и естествено. Можем да мащабираме само с паралелна репликация на данни, няма нужда от паралелно разделяне на сложни модели.

Ние правим това със специално проектирано свързване за паралел на данни (Фигура 15). Това се нарича SwarmX. Той се намира между модулите MemoryX, които държат теглата, и системите CS-2 за изчисления, но е независим и от двете. SwarmX излъчва тегла към всички CS-2 системи и намалява градиентите от всички CS-2. Това е повече от просто свързване - това е активен компонент в процеса на обучение, специално създаден за паралелно мащабиране на данни. Вътрешно SwarmX използва дървовидна топология, за да даде възможност за модулно и ниско режийно мащабиране. Тъй като е модулен и дезагрегиран, можете да мащабирате произволен брой CS-2 системи със същия модел на изпълнение като една система. Мащабирането до повече изчисления е толкова просто, колкото добавянето на повече възли към топологията на SwarmX и добавянето на повече CS-2 системи. Ето как се справяме с последния компонент на Grand ML Demand Challenge; за подобряване и драстично опростяване на мащабирането.

Заключение

Да се върнем там, откъдето започнахме днес. През последните няколко години видяхме над три порядъка по-голямо търсене от работните натоварвания на ML и няма признаци за забавяне. През следващите няколко години ще бъдем тук (Фигура 16). Питаме се възможно ли е това?

В Cerebras знаем, че е така. Но не чрез използване на традиционни техники. Само чрез подобряване на основната архитектура с порядък с неструктурирано ускорение на разредеността. Само чрез мащабиране с порядък с чипове с вафлен мащаб и само чрез подобряване на мащабирането на клъстера с порядък с наистина мащабируемо клъстериране. С всичко това бъдещето е постижимо. Моделите на невронни мрежи продължават да растат експоненциално. Малко компании днес имат достъп до тях и този списък само намалява.

С архитектурата Cerebras, като позволяваме на най-големите модели да работят на едно устройство, мащабиране само на паралелни данни и естествено неструктурирано ускоряване на разредеността, ние правим тези големи модели достъпни за всички.

(Препечатано от блога на Cerebras)