资讯正文

练习时刻下降90%以上国际最大的芯片WSE有望打破AI核算瓶颈

放大字体  缩小字体 2020-01-05 10:17:07  阅读:6010 作者:责任编辑NO。魏云龙0298

新智元报导来历:IEEE修改:大明、edein【新智元导读】还记得几个月前面世的国际最大的AI芯片吗?IEEE Spectrum团队最近拜访了其...

新智元报导

来历:IEEE

修改:大明、edein

【新智元导读】还记得几个月前面世的国际最大的AI芯片吗?IEEE Spectrum团队最近拜访了其制作商Cerebras的工厂,并对CEO和技能团队进行了访谈,CerebrasCEO标明,这款划时代的芯片有望打破AI的核算瓶颈,将练习时刻由几周缩短到几小时。戳右边链接上新智元小程序了解更多!

人工智能核算机草创公司Cerebras Systems CEO兼联合开创人Andrew Feldman标明,现在的人工智能仅仅仅仅开端。

正如他及其同僚所言,问题在于当今的深度神经网络十分耗时且核算密布,练习十分困难。比方,无人驾驶轿车要辨认道路上遇到的一切重要物体,神经网络需求向其显现一切物体的许多、许多相关图画。这一进程在数据中心进行,由耗电数十有时乃至数百千瓦的核算机完结,使命时刻常常长达数周。

Cerebras的客户诉苦说,运用当下的核算机练习大型神经网络的时刻或许长达6周。照这样,一年只能练习6个神经网络。“只要验证更多主意才会发生新主意,” Feldman说。“假如能在2或3个小时内完结[网络练习],就能够测验数千个主意。”

当IEEE Spectrum拜访坐落美国加州Los Altos的Cerebras总部时,这些客户及一些潜在客户现现已过橙色光缆把他们的练习数据输入4台CS-1核算机。这些64厘米高的机器作业起来,每台耗费20千瓦,发出的热量经过墙上的一个洞流到硅谷的大街上。

从外面看,CS-1机身并不大,每个机箱大约3/4是冷却体系,余下的1/4则是真实的革新:一台功用强悍的核算机,简直彻底由一整块芯片组成。这块芯片的面积高达46,255平方毫米,是任何一块能够买到的处理器芯片的50+倍。这便是由Cerebras出产的国际最大芯片Wafer Scale Engine (WSE),它有12,000亿个晶体管,400,000个AI可编程内核,18 GB超快速片上存储器(SRAM)和100Petabits /s的结构带宽。

Cerebras的统计数据令人震惊。据称,一个10机架TPU二代集群(现在已更新为Google AI核算机的第三代集群)所耗电量是其5倍,占用空间是其30倍,而功用仅有搭载WSE芯片的核算机的1/3。单块巨型芯片是否真实是AI社区所需,信任这个答案从本年开端就会明晰起来。美国加州山景城公司LinleyGroup的高档分析师Mike Demler说:“ [神经网络]模型日益杂乱,能够快速练习或再练习的确很重要。”

Feldman说,2015年当Cerebras的开创人们开会时,他们想要打造彻底适配当下AI作业场景的核算机,这些作业场景有若干项界说:它们需求快速移动很多数据,它们需求内存接近于处理器内核,而且这些内核不需求处理其他内核正在处理的数据。

这当即给了公司资深的核算机架构师一些启示。首要,他们能够正常的运用不计其数个专门用于神经网络相关核算的小型内核,而不是更少、更通用的内核;其次,这些内核应该互连在一起,能够快速而低耗的移动数据;最终,一切数据应该在处理器芯片上,而不是在独自的存储芯片上。

在这些内核之间来回移动数据的需求,正是WSE独特性的来历。两个内核之间移动数据最快、能耗最低的办法是将其放在同一硅基片。当数据有必要从一个芯片传输至另一个芯片时,由于间隔更长而且传递信号的“电线”有必要更宽而且包装密度更低,然后在速度和功耗上大打折扣。

一切通讯在硅上的驱动力,以及对小内核和本地存储器的巴望,都标明要尽或许出产大芯片,也许是整个硅晶圆那么大。Feldman说,很明显,咱们做不到这一点,可是这显然有很大的优点。

数十年,工程师一向以为晶圆级芯片是一条绝路。究竟,IBM System/360大型机的首席架构师Gene Amdahl曾在一家名为Trilogy Systems的公司测验并失利了,但它满意令人称奇。可是Lauterbach和Feldman说,任何与Amdahl办法的比照都现已过期。其时Amdahl运用的晶圆尺度只要现在的1/10,而晶圆上相关器材的尺度则是现在的30倍。

更重要的是,Trilogy无法处理出产芯片时呈现的不可避免的过错。假如其他一切条件相同,跟着芯片增大,缺点的或许性也会添加。假如你的芯片尺度接近于一张信纸(8.5" *11"标准),那么缺点在所难免。

可是Lauterbach看到了一种架构处理方案:由于他们针对的作业负载倾向于具有数千个相同的小型内核,因而能够嵌入满意多的冗余内核,这还能够处理1/100的缺点形成的毛病,而且依然不失为一块功用微弱的大型芯片。

当然,Cerebras依然不得不处理许多制作问题,才干打造其容错性的giganto芯片。比方,光刻东西被规划为将其界说特征的款式投射到相对较小的矩形上,并一遍遍重复进行。由于在晶片不同方位浇铸不同款式的昂扬本钱和巨大困难,这样现已把打造单一晶圆的许多体系拒之门外。

Cerebras内部:冷却体系占CS-1大部分,WSE芯片坐落左后角。

可是WSE无需这样。它就像布满相同芯片的典型晶圆,与你往常制作的相同。最大的应战是把这些伪芯片衔接在一起。

芯片制作商在每个芯片周围留下空白硅的细长边际,称之为划片线。晶圆一般沿着这些线切成小块。Cerebras与台积电(TSMC)协作开发了一种跨划片线树立互连的办法,使每个伪芯片中的内核皆可通讯。

现在,一切通讯和内存在一块硅片上,数据传输能够四通八达,然后发生每秒1,000 PB的内核到内核带宽和每秒9 PB的SRAM到内核带宽。Feldman说,这不单单是多,而是带宽4个数量级的提高,由于咱们在硅片上。

跨划片线互连并不是需求的仅有创造。制作芯片的硬件有必要进行改进。即便电子规划自动化软件也要进行定制才干在如此大的芯片上作业。Feldman说,每条规矩,每个东西,每个制作设备都旨在拾取一块正常巨细“巧克力芯片曲奇”,而[咱们]要交给的是整个曲奇烤盘;办法的每一步,咱们都有必要创造。

他接着说,晶圆级集成在人们视界中消失了40年,但它必定会在某个时分再呈现;已然Cerebras现已做到,那扇门或许也会向其他人翻开。“咱们咱们都以为其他人将寻求与咱们协作处理AI以外的问题。”他又说。

2018年,Google、百度及一些学术尖端组织开端拟定基准,答应体系之间进行逐个对应的比较。成果,MLPerf于2018年5月发布了练习基准。

凭借这些基准,神经网络练习技能在曩昔几年获得长足进步。Nvidia DGX SuperPOD(本质上是有1,500块GPU的超级核算机)可在80秒内完结ResNet-50图画分类问题,与之比较,Nvidia DGX-1(大约在2017年)花费了8个小时,K80(在2015年)花费了25天。

Cerebras没有发布MLPerf成果,以及任何其他可独立逐个核对的成果。相反,他们更倾向于让客户运用自己的神经网络和数据来试用CS-1。

分析师以为,这种做法很常见。“每个公司都依据本身事务开发相关模型,” Moor Insights的AI分析师Karl Freund说。“这是客户仅有关怀的工作。”

举个比如,前期的客户阿贡国家实验室的需求很大。最近在练习神经网络以实时辨认不相同的引力波事情时,科学家运用了阿贡实验室耗电兆瓦等级的Theta超级核算机(排名第28的全球最强大体系)资源的1/4。

把功耗降到仅几千瓦对超算来说似乎是一个中心优势。这是否是一个招引数据中心的卖点,不幸的是Lauterbach对此标明置疑。他说:“尽管许多数据中心都在谈节能降耗,但仅仅口头说说,实际上并不介意,他们真实想要的是功用。这当然是一个简直和餐盘差不多巨细的处理器芯片所能满意的。”

https://spectrum.ieee.org/semiconductors/processors/cerebrass-giant-chip-will-smash-deep-learnings-speed-barrier

图文直播|新智元小程序技能公开课第一期!

1月6日晚,16本Phthon系列教材作者董付国将在新智元小程序揭秘「怎么编写有“Python滋味”的Python代码?」,当天还有机会与大咖在线互动,答疑解惑,现在扫描下方海报二维码可抢占免费预定名额。