Cerebras Systems推出了CS-1,它被称为国际上最快的人工智能核算机,并且肯定是最斗胆的测验来创立更好的超级核算机之一。并且它现已获得了美国联邦政府超级核算方案的认可。
CS-1具有整个晶片而不是芯片。一般,硅芯片是从经过处理的12英寸硅晶片上雕琢出来的,一个晶片上有数百个芯片。可是,总部坐落加利福尼亚州的Cerebras的Los Altos规划了一种核算机,该核算机具有许多小中心,并且在整个晶圆上都能够重复运用。那个晶片被锯成一个大的矩形,可是上面有许多芯片。 CS-1在今日的Supercomputing 2019活动中宣告。
总而言之,一个晶片上一切中心的晶体管总数超越1.2万亿,而一个典型的处理器或许在一个芯片上具有100亿个晶体管。可是CS-1超级核算机走得更远:它在一个体系中具有这些Cerebras晶片之一-每个都称为晶片级引擎。这是一个庞然大物。
Cerebras已向美国能源部的阿贡国家试验室(Argonne National Laboratory)供给了榜首架CS-1,这是国际上最大的超级核算机买家之一。它将运用40万个内核来处理很多的AI核算问题,例如研讨抗癌药物的相互效果。
该公司表明,经过为AI作业而优化的每个组件,CS-1能够在更小的空间和更低的功耗下供给更高的核算功用。 “该体系自身高达15个机架,” Cerebras首席执行官Andrew Feldman说。 “那是26英寸高。”
8月,Cerebras交给了Wafer Scale Engine(WSE),这是现在仅有的万亿晶体管晶圆级处理器。 Cerebras WSE的体积是最大的GPU的56.7倍,并且包括的??核算内核比最大的GPU多78倍,为AI处理器树立了新的规范。
CS-1体系规划和Cerebras软件渠道相结合,可从WSE上的40万个核算内核和18 GB高功用片上存储器中提取每盎司的处理才干。
在AI核算中,芯片尺寸至关重要。大筹码能够更快地处理信息,然后在更短的时刻内产生答案。可是,超卓的处理器功用是必要的,但还不行。 WSE之类的高档处理器有必要与专用的硬件体系和软件结合在一起才干抵达创纪录的功用。因而,Cerebras CS-1体系和Cerebras软件渠道的各个方面都为加快AI核算而规划。
费尔德曼在承受VentureBeat采访时说:“这是能够切割出300毫米晶圆的最大正方形。” “即便咱们具有最大,最快的芯片,但咱们知道超卓的处理器不一定足以供给超卓的功用。假如要供给真实快速的功用,则需求构建一个体系。并且,您无法将法拉利发动机放入大众汽车中来获得法拉利功用。假如您想获得1,000倍的功用进步,您要做的便是消除瓶颈。”
Cerebras表明,这是仅有一家承当从头开端构建专用体系的雄伟任务的公司。经过优化芯片规划,体系规划和软件的各个方面,CS-1供给了空前的功用。运用CS-1,现在只需数分钟即可完结现在需求数月的AI作业,而现在只需数秒即可完结数周的作业。
CS-1不只从根本上削减了操练时刻,并且为推理推迟设定了新的规范。关于深度神经络,单个图画分类能够在几微秒内完结,比其他处理方案快数千倍。
“咱们是由40万个专用AI处理器组成的AI机器,” Feldman说。
在阿贡国家试验室,CS-1被用于加快癌症研讨中的神经络,以更好地了解黑洞的性质,并协助了解和医治颅脑外伤。 CS-1的肯定功用使其成为处理AI中最大,最杂乱问题的超卓处理方案。
Tirias Research的首席剖析师Kevin Krewell在一份声明中说:“ CS-1是一个单一体系,能够供给比最大的集群更高的功用,而没有集群设置和办理的开支。”经过在单个体系中交给如此多的核算,CS-1不只能够缩短训练时刻,并且能够削减布置时刻。整体而言,CS-1能够大大削减整体答复时刻,这是进步AI研讨生产率的要害目标。”
与GPU集群或许需求数周或数月的设置,需求对现有模型进行很多修正,耗费数十个数据中心机架以及需求杂乱的专有InfiniBand进行集群不同,CS-1的树立需求几分钟的时刻。
用户只需将根据规范的100Gb以太链路刺进交换机,即能够创纪录的速度发动训练模型。
CS-1易于布置且易于运用。 Cerebras的任务不只是加快训练时刻,并且要缩短研讨人员获得新见地所需的端到端时刻-从模型界说到训练再到调试再到布置。
Cerebras软件渠道旨在答应机器学习(ML)研讨人员运用CS-1功用,而无需更改其现有作业流程。用户能够运用行业规范的ML结构(例如TensorFlow和PyTorch)为CS-1界说模型。
强壮的图形编译器可主动将这些模型转换为CS-1的优化可执行文件,而丰厚的东西集可完成直观的模型调试和功用剖析。
费尔德曼说:“咱们运用开源,并使其尽或许简单地进行编程。”
该体系既不是根据x86也不根据Linux。
“核算中心是由咱们为其自界说中心规划的,” Feldman说。 “软件仓库能够在络中任何地方的主机上运转。因而,产生的作业是,您采用了TensorFlow模型,而咱们的软件抵达了一个容器中。您将软件指向咱们的容器,咱们的容器抓取您的软件,然后对其进行编译,并生成一个装备文件,并将其发送到咱们的机器。”
Cerebras软件渠道包括四个首要元素:
与常见的ML结构集成,例如TensorFlow和PyTorch
优化的脑图编辑器(CGC)
灵敏的高功用内核库和内核API
用于调试,自省和功用剖析的开发东西
脑图编译器
大脑图谱编译器(CGC)将用户指定的神经络作为输入。为了获得最大的作业流程了解性和灵敏性,研讨人员能够运用现有的ML结构和以其他通用言语(例如C和Python)编写的结构杰出的图形算法来为CS-1编程。
经过从源言语提取静态图形表明并将其转换为Cerebras线性代数中心表明(CLAIR),CGC开端将深度学习络转换为优化的可执行文件。跟着ML结构快速开展以适应该范畴的需求,这种共同的输入笼统使CGC能够快速支撑新的结构和功用,而无需更改根底编译器。
运用对共同WSE体系结构的了解,CGC然后将核算和内存资源分配给图的每个部分,然后将它们映射到核算数组。终究,将每个络独有的通讯途径装备到结构上。
因为WSE的规划巨大,因而神经络中的每一层都能够当即放置在结构上,并一起并行运转。这种对整个模型进行加快的办法是WSE独有的-没有其他设备具有满意的片上存储器来一次将一切层都保存在单个芯片上,或许只要高带宽和低推迟的通讯优势才干完成。硅。
终究结果是CS-1可执行文件,可针对每个神经络的共同需求进行定制,然后能够最大极限地运用一切400,000个核算内核和18GB片上SRAM来加快深度学习应用程序。
CGC与盛行的ML结构的集成意味着开箱即用地支撑盛行的东西,例如TensorBoard。此外,Cerebras还供给了一套功用完全的调试和功用剖析东西,以使更深化的自省和开发变得简单。
关于ML从业人员,Cerebras供给了一个调试套件,该套件可让您直观地了解编译和训练运转的每个过程。
关于需求更大灵敏性和自界说功用的高档开发人员,Cerebras供给了根据LLVM的内核API和C / C ++编译器,答应用户为CGC编程自界说内核。结合广泛的硬件文档,示例内核和内核开发最佳实践,Cerebras为用户供给了创立新内核以满意共同研讨需求所需的东西。
Cerebras WSE是有史以来最大的芯片(假如您能够称晶圆为一个芯片),并且是业界仅有的万亿晶体管处理器。与历史上的任何芯片比较,它包括更多的内核,更多的本地内存和更多的结构带宽。
这样能够以较低的推迟和更少的能量完成快速,灵敏的核算。 WSE为46255平方毫米,是最大GPU的56倍。此外,WSE具有400,000个内核,18GB片上SRAM,每秒9.6 PB的存储带宽和每秒100 PB的互连带宽,然后使WSE的核算内核增加了78倍;高速3,000倍片上存储器; 10,000倍以上的内存带宽;并且其架构带宽是其GPU竞赛对手的33,000倍。
费尔德曼(Feldman)供认,像台积电这样的芯片制作商很难制作没有任何缺点的晶圆。这便是他的团队在体系中内置冗余的原因。一个晶片上有多达6,000个备用核,可包容400,000多个核。费尔德曼说,假如制作中的杂质弄乱了其间一个中心,那么大脑能够绕开它,并用其间一个替换它。
费尔德曼(Feldman)以为,该体系将是Nvidia竞赛对手GPU的剧烈竞赛。
费尔德曼说:“假如您想带孩子参与足球操练,那么福特F150便是一种可怕的车辆。” “因而,咱们要做的是制作一台机器,该机器在各个方面都针对人工智能作业进行了优化。咱们做得很好,这便是AI作业。您能够以相同的方法来考虑GPU。我的意思是,GPU是一台特殊的机器。它能够制作出精巧的图形。它具有一切的AI功用。图形的效果令人难以置信-但它是为图形规划的,不是为深度学习规划的,咱们在各个方面的体系都针对深度学习进行了调整和优化。”
Argonne试验室是一个多学科的科学与工程研讨中心。 CS-1将使全球最大的超级核算机站点比现有的AI加快器完成100到1,000倍的改善。
经过将超级核算才干与CS-1的AI处理才干相结合,Argonne现在能够加快深度学习模型的研制,以处理现有体系无法完成的科学问题。
Argonne核算,环境和生命科学副试验室主任Rick Stevens表明:“咱们与Cerebras协作已有两年多了,非常高兴将新的AI体系引进Argonne。” “经过布置CS-1,咱们大大缩短了整个神经络的训练时刻,使咱们的研讨人员能够大大进步作业效率,然后在癌症,颅脑外伤以及当今和当今社会重要的许多其他范畴的深度学习研讨中获得长足进步未来的几年。”
称为深度学习的AI子集答应核算机络从很多非结构化数据中学习。可是,深度学习模型需求很多的核算才干,并且正在推进当时核算机体系能够处理的极限—直到现在,跟着Cerebras CS-1的推出。
Argonne布置了CS-1以增强科学AI模型。它的榜首个应用范畴是癌症药物反响猜测,该项目是能源部(DoE)与美国国家癌症研讨所协作的一部分,旨在运用先进的核算和AI处理癌症研讨中的巨大应战问题。 Cerebras CS-1的参加为扩展Argonne在高档核算范畴的首要方案供给了支撑,这也将运用有望在2021年完成的Aurora百亿亿次级体系的AI功用。
Argonne布置CS-1是DoE和Cerebras Systems之间的多试验室协作伙伴关系的榜首部分。 Cerebras还与美国能源部的劳伦斯·利弗莫尔国家试验室(Lawrence Livermore National Laboratory)协作,经过CS-1的机器学习功用来加快其AI方案并进一步增强其仿真优势。
美国能源部人工智能与技能部副部长??迪米特里·库斯涅佐夫(Dimitri Kusnezov)在一份声明中说:“在能源部,公私协作关系是加快美国AI研讨的重要组成部分。” “咱们等待与Cerebras树立长时间而富有成效的协作伙伴关系,这将有助于界说下一代AI技能并改动DOE运营,事务和任务的格式。”
不难看出为何费尔德曼(Feldman)聘请了一大批职工并筹集了数亿美元。 (他不会说多少。)
费尔德曼说:“我以为咱们的职业生涯比咱们提早了五年。” “我以为一小群人能够改动国际。我以为这确实是企业家的口头禅。并且您不需求大型公司。您不需求数十亿美元,只需求一小撮特殊的工程师就能真实改动国际。咱们信任每一天。”