wifi(WiFi技术更迭20年)

懵懂先生 网文资讯wifi(WiFi技术更迭20年)已关闭评论124阅读模式

文章源自略懂百科-http://wswcn.cn/30012.html

Graphcore可以说是AI界的黑马,这几年其打造的IPU屡屡表现亮眼。在最近的MLPerf训练1.1中IPU再创佳绩,通过在GPU占据优势的模型ResNet-50上进行测试,结果表明Graphcore的IPU-POD16在计算机视觉模型ResNet-50上的表现优于英伟达的旗舰产品DGX A100。这对Graphcore乃至整个行业来说,都具有很大的创新意义。文章源自略懂百科-http://wswcn.cn/30012.html

比英伟达DGX A100快约1分钟,比自己上一次提交的MLPerf性能大幅提升文章源自略懂百科-http://wswcn.cn/30012.html

在此次MLPerf训练1.1中,基于IPU-M2000,Graphcore主要提交了4个IPU系统。第一个是IPU-POD16,它有4个1U的IPU-M2000,配备一台双CPU的服务器,AI算力是4 petaFLOPS。第二个是IPU-POD64,包含了16台IPU-M2000,配备了1台用于BERT的双CPU服务器和4台用于ResNet的双CPU服务器,总共是16 petaFLOPS的AI算力;再者,基于IPU-POD64,Graphcore又横向扩展了IPU-POD128和IPU-POD256,所以分别是32台、64台的IPU-M2000,同时服务器也是成倍数的增长:2台、4台、8台、16台;算力分别是32 petaFLOPS、64 petaFLOPS,这是Graphcore首次IPU的系统集群的提交。文章源自略懂百科-http://wswcn.cn/30012.html

此次Graphcore提交了ResNet-50和BERT-Large两个主流的模型。其中,ResNet-50只提交了封闭分区(Closed Division),主要是对图片分类在网络上做训练。BERT-Large做了封闭分区和开放分区(Open Division)两种提交,BERT-Large主要是做自然语言的处理,如语义的理解、问答和推测等。文章源自略懂百科-http://wswcn.cn/30012.html

那么这两个模型在Graphcore IPU上的表现如何?下图是ResNet-50在Graphcore不同机器集群的端到端训练的性能。可以看到,在IPU-POD16上的训练时间是28.33分钟,随着系统的增大,时间逐次递减,在IPU-POD64上只需要8.5分钟,在IPU-POD256上已经减少到3.79分钟。Graphcore大中华区总裁兼全球首席营收官卢涛表示,希望到明年这个时候,Graphcore能提供更大的集群,让整个ResNet-50能在1分钟之内训练完。文章源自略懂百科-http://wswcn.cn/30012.html

来到BERT-Large在MLPerf上的性能,在开放分区和封闭分区两个提交上,开放分区的结果相对好些。比如BERT-Large在IPU-POD16上的端到端训练,在封闭分区上需要半小时,而随着集群的增加,训练时间也大大缩短。当集群扩大8倍后,训练时间不到7分钟。这会大大提高算法工程师迭代模型的效率。在开放分区中,IPU-POD64的性能进一步提高,这主要是因为Graphcore对在软件层面进行了优化,如训练策略的优化、损失函数的优化等等。文章源自略懂百科-http://wswcn.cn/30012.html

这是Graphcore第二次提交MLPerf训练,与第一次MLPerf 1.0版本提交结果纵向相比较来看有很大的提升。对于ResNet-50来说,Graphcore在IPU-POD16上有了24%的提升,在IPU-POD64上有41%的提升。对于BERT来说,在IPU-POD16上有了5%的提升,在IPU-POD64上有了12%的提升。文章源自略懂百科-http://wswcn.cn/30012.html

而横向与英伟达相比较,在ResNet-50上,Graphcore第一次超越了英伟达DGX A100的性能,在IPU-POD16端到端的时间只用了28.3分钟,而在DGX A100上的时间为29.1分钟,慢了大概接近一分钟。卢涛表示,ResNet是2016年的模型,在GPU上优化了5年,已经非常成熟。Graphcore通过两次的MLPerf的提交,就能够在GPU最主流的模型上超过了GPU,这对Graphcore来说具有里程碑的意义。文章源自略懂百科-http://wswcn.cn/30012.html

Graphcore大中华区总裁兼全球首席营收官卢涛文章源自略懂百科-http://wswcn.cn/30012.html

强大的IPU横向扩展能力文章源自略懂百科-http://wswcn.cn/30012.html

据Graphcore中国工程总负责人、AI算法科学家金琛的介绍,IPU的这些提高主要归功于Graphcore软件上的优化,比如说对应用程序本身的优化,在框架和系统软件上的优化,还有更底层的对编译器以及核函数的优化等等。能在IPU-POD128和IPU-POD256上也取得很好的成绩,也很大一部分归功于Graphcore软件的可扩展性。文章源自略懂百科-http://wswcn.cn/30012.html

Graphcore中国工程总负责人、AI算法科学家金琛文章源自略懂百科-http://wswcn.cn/30012.html

金琛表示,Graphcore在设计这个软件的过程中考虑了很多因素,比如在做模型变形、数据变形,以及在做Kernel变形等等方面都做了非常多的优化,并且用了非常细致的设计思路,比如用系统级的软件去优化主机到设备上的通信,怎么去解决框架的数据并行优化。对于用户来说,只需要写一个脚本,配置一下数据的Replica的个数,就可以很自如地进行从16个IPU到256个IPU的横向扩展。文章源自略懂百科-http://wswcn.cn/30012.html

除了在机器学习框架层上做了横向扩展,Graphcore也在通信库上做了很大一部分的优化。作为Poplar SDK版本的一部分提供的优化集合,目前已在应用程序中得到验证。而且已经集成到所有支持机器学习框架的IPU中。关于在BERT-Large的训练中所看到的5%和12%的提升,很大程度上都是源于Graphcore在通信库的提升。文章源自略懂百科-http://wswcn.cn/30012.html

此外,在绝对吞吐量性能以及扩展到更大的IPU-POD系统方面,Graphcore在MLPerf之外的一系列模型中,如用于自然语言处理的GPT类模型和用于计算机视觉的ViT(Transformer视觉模型)都是非常适用的。在这些模型中,IPU系统也可以平滑地从16个IPU一直扩展到256个IPU。文章源自略懂百科-http://wswcn.cn/30012.html

不仅如此,Graphcore的IPU还展现出了巨大优势。以EfficientNet-B4为例,其在英伟达的DGX A100上端到端的训练时间为70.5小时,而其在IPU-POD16上端到端的训练时间是20.7个小时,基本上是DGX A100的3.5倍。随着系统的增大,这个时间也在慢慢地减少,在256个IPU上的训练时间仅不到2个小时。文章源自略懂百科-http://wswcn.cn/30012.html

最低的AI芯片计算密度文章源自略懂百科-http://wswcn.cn/30012.html

据卢涛的讲述,Graphcore在设计IPU系统的时候,将1U尺寸的IPU-M2000作为单元构建模块,然后跟x86的服务器做了解耦的方案。这样的好处是能够让用户根据自己的工作负载,灵活配比服务器、处理器的数量和AI计算之间的比例。文章源自略懂百科-http://wswcn.cn/30012.html

从下图中可以看出各家企业的主机处理器与加速器的配比情况。比如AMD、英特尔、谷歌等,其CPU和自己的AI加速器之间的配比是1:2;而Graphcore在做像BERT这样的应用时,是每32个加速器配有1个主机CPU处理器。这个配比率在所有提交MLPerf的厂商中最低。这就是其解耦架构的一个特别好的佐证。文章源自略懂百科-http://wswcn.cn/30012.html

另外,如果以服务器的CPU为一个维度,Graphcore在单一的服务器的BERT训练上也是最快的,基于2颗AMD的CPU,BERT训练时间为10.6分钟。而英特尔提交的Gaudi平台,大概是80分钟;DGX A100大概是20分钟。文章源自略懂百科-http://wswcn.cn/30012.html

之所以能做到单一服务器最快的原因是,Graphcore IPU独特的执行模型需要的主机服务器更少。比如说IPU代码的执行机制能够让CPU做的工作尽量少一点;还可以通过以太网IPU连接到各品牌的服务器,灵活根据应用程序工作负载调整主机服务器与AI计算的比率。文章源自略懂百科-http://wswcn.cn/30012.html

庞大的生态系统圈文章源自略懂百科-http://wswcn.cn/30012.html

在过去半年时间里,Graphcore的生态系统也在不断扩大,无论是机器学习框架、云化部署,还是客户的合作方面,进展都很迅速。文章源自略懂百科-http://wswcn.cn/30012.html

首先在机器学习框架和AI相关的生态网方面,除了已经在支持的TensorFlow、PyTorch、Keras之外,PyTorch Lightning以及Hugging Face等也已经开始支持IPU。就在本月,百度飞桨宣布了在IPU上训练和推理的全面支持。另外,现在Hugging Face的Optimum Library已经能够在IPU训练Transformer,这也证明了IPU软件栈的通用性以及应用程度。文章源自略懂百科-http://wswcn.cn/30012.html

在云化部署方面,Docker已经能够支持IPU,VMware也宣布了对于IPU的支持。VMware是企业级虚拟化、云化平台最主流的厂商。目前这两个平台都已经开始支持IPU。文章源自略懂百科-http://wswcn.cn/30012.html

在客户生态圈中,Graphcore也公布了一些客户案例。在金融方面,牛津-英仕曼用IPU能够进行更快和更高精确度的股票预测。Tractable使用AI技术提高汽车和财产损失评估的准确性和效率。该公司通过从现有的计算平台切换到Graphcore的IPU,使其图像识别系统的性能提高5倍。还有欧洲、中国的一些使用IPU进行天气预测的案例。在电信方面,Korea Telecom发布了基于IPU的IPU云。在超算方面,Graphcore跟Atos也确定了战略合作关系。文章源自略懂百科-http://wswcn.cn/30012.html

结语文章源自略懂百科-http://wswcn.cn/30012.html

2020年12月,Graphcore的第一版IPU-POD的硬件宣布量产。在过去的一年时间里,Graphcore取得了很大的进步,提交了两次MLPerf训练,进行了硬件集群的增加和软件方面的优化,至少每三个月推出一次重大软件更新。Graphcore的IPU系统越来越强大、高效,软件日益成熟且更快、更易使用。未来Graphcore随着产品和软件迭代,性能会持续不断攀升。文章源自略懂百科-http://wswcn.cn/30012.html

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。文章源自略懂百科-http://wswcn.cn/30012.html

今天是《半导体行业观察》为您分享的第2907内容,欢迎关注。文章源自略懂百科-http://wswcn.cn/30012.html

★亚洲半导体风云再起文章源自略懂百科-http://wswcn.cn/30012.html

★FPGA面世前的江湖文章源自略懂百科-http://wswcn.cn/30012.html

★WiFi技术更迭20年文章源自略懂百科-http://wswcn.cn/30012.html

晶圆|集成电路|设备|汽车芯片|存储|台积电|AI|封装文章源自略懂百科-http://wswcn.cn/30012.html

文章源自略懂百科-http://wswcn.cn/30012.html

懵懂先生
  • 本文由 发表于 2022年8月10日 15:40:34
  • 转载请注明:http://wswcn.cn/30012.html
网文资讯

rua是什么意思(小女孩长相怎么穿才不rua?)

源: 红鹤笔记(文/ 鹤鹤) 北京话里,rua就是看着弱,怂的意思。 生来一副儿童脸的姑娘,应该都有这个困扰,准备去上班的路上,电梯偶遇小区晨练的奶奶,慈祥的看着你问道:今年上高几了呀? 这是一句40...
网文资讯

关于元宵节的对联(最全的元宵节对联集锦)

明朝南京元宵节的灯会,图右上的鳌山灯,灯节上扎巨型鳌山灯的习俗源自宋代。灯上除了放置各色灯彩,还要有 01 上联:明月皎皎千门秀 下联:华灯盏盏万户春 元宵节总与圆月、花灯相连。皎皎明月,抬眼看,月色...
网文资讯

电影排行榜(豆瓣排名前100的电影)

你爱看电影吗? 哪些经典电影,让你记忆深刻呢? 某天的午后,突然想起2022新年伊始,自己信誓旦旦立下的一年计划。 说好的两天一部电影,一周一本书籍呢? 转眼一年已过半,电影没看几部,书也只翻了几页,...
网文资讯

潮州是哪个省(广东潮州属于哪个市)

潮州,广东省辖地级市,位于广东省最东端,处于韩江中下游。东与福建省的诏安县、平和县相接,西与揭阳市的揭东区接壤,北接触梅州市的丰顺县、大埔县交界,南通汕头市和澄海区,并濒临南海;属亚热带海洋性季风气候...