全球十大AI训练芯片大盘点:华为昇腾910是中国唯一入选

做明编辑整理

量子位报告

哪个是最强的人工智能芯片?现在,有直接的比较和参考。

英国高级芯片工程师詹姆斯·w·汉隆评估了十大人工智能培训芯片。

同时给出了各项指标的横向比较,这也是人工智能训练芯片的最新讨论和排序。

其中,华为瑞星910(Huawei Rising 910)是中国芯片制造商唯一选择的芯片,其性能也在此次比较中表现出来。

Delta *代表推测和单芯片数据。

大脑晶片级引擎

该芯片于今年8月正式推出,被称为“历史上最大的人工智能芯片”,被称为“大脑晶片级引擎(wse)。

它最大的特点是将逻辑运算、通信和内存集成到一个硅片上,这是一种专门用于深度学习的芯片。

创造四项世界记录:

数据如此辉煌的原因直接在于它集成了84个高速互联芯片。fp32上单个芯片的峰值性能为40万亿次触发器,芯片功率为15千瓦,相当于ai集群。

片内缓存也达到了18gb,是gpu缓存的3000倍。它每秒能提供9pb的内存带宽,比gpu快10,000倍。

芯片级集成不是一个新概念,但是与输出、功率传输和热膨胀相关的问题使得商业化变得困难。在这些领域,大脑给出了相应的解决方案:

脑波器是由sean lie(首席硬件设计师)、andrew feldman(首席执行官)和其他人于2016年创建的。后者创建了一家微服务器公司seamicro,并以3.34亿美元将其出售给amd。

该公司在加州有194名员工,其中包括173名工程师,迄今已从benchmark等风险投资机构获得1.12亿美元的投资。

展开阅读:

历史上最大的人工智能芯片诞生了:462平方厘米,40万个内核和1.2万亿个晶体管,创造了四项世界记录。

谷歌tpu(v1、v2、v3)

谷歌tpu系列芯片于2016年正式发布。第一代芯片TPV1仅用于推理,仅支持整数运算。

通过在pcie-3之间发送指令来执行矩阵乘法和应用激活功能,为主机cpu提供了加速,并节省了大量设计和验证时间。主要数据有:

Io数据:

2017年5月,谷歌TPV2发布,提升了TPV1的浮点计算能力,增强了其内存容量、带宽和hbm集成内存。它不仅可以用于推理,也可以用于训练。其单片机的数据如下:

单核数据:

Io数据:

谷歌发布TPV2一年后,谷歌发布了一款新芯片TPV3。

然而,关于TPV3的细节很少。TPV2很可能只是一个渐进的版本,通过增加hbm2内存,它的性能和容量以及带宽都将翻倍。其单片机的数据如下:

Io数据:

展开阅读:

想知道tpu 3.0吗?杰夫·迪恩推荐看这个视频。

graphcore ipu

Graphcore成立于2016年,不仅受到资本和行业巨头的青睐,也受到行业领袖的认可。

2018年12月,宣布完成第二轮融资2亿美元,估计价值17亿美元。投资者包括宝马和微软等行业巨头,以及索菲娜和原子公司等著名的风险投资公司。

Ai巨人辛顿和deepmind创始人哈萨比斯都直接表达了他们的赞扬。

Graphcore ipu是该公司的明星产品。它的体系结构与大量具有小内存的简单处理器高度并行,并通过高带宽“交换机”互连连接在一起。

其体系结构在大容量同步并行(bsp)模型下运行,程序的执行根据一系列计算和交换阶段进行。同步用于确保所有进程都准备好开始交换。

bsp模型是一种强大的编程抽象,用于消除并发风险,bsp的执行允许计算和交换阶段充分利用芯片的能量,从而更好地控制功耗。通过连接10个议会联盟之间的链接,可以建立一个更大的议会联盟芯片系统。核心数据如下:

Io数据:

单核数据:

展开阅读:

该公司的两年估值为17亿美元,韩丁称赞的人工智能芯片公司由宝马和微软投资。

habana labs gaudi

哈瓦那实验室也成立于2016年,是一家以色列人工智能芯片公司。

2018年11月,第二轮筹资7 500万美元已经完成,筹资总额约为1.2亿美元。

高迪芯片于今年6月发布,直接针对亲和族的v100。

它的总体设计与gpu相似,特别是simd并行性和hbm2存储器。

该芯片集成了10个100g以太网链路,支持远程直接内存访问(rdma)。与NVIDIA的nvlink或opencapi相比,这种数据传输功能允许使用商用网络设备构建大规模系统。核心数据如下:

Tpc核心数据:

Io数据:

华为ascend 910

华为瑞星910(Huawei Rising 910)也与Avida v100直接竞争,于今年8月正式推出,自称是行业内最强大的人工智能培训芯片。它专注于深度学习培训场景,其主要客户是人工智能数据科学家和工程师。

其核心数据是:

互连和io数据:

单一达芬奇内核数据:

展开阅读:

华为最强大的人工智能芯片商人:两倍于Avida v100!开源ai框架,基准测试tensorflow和pytorch

英特尔nnp-t

这是继至强融核之后,英特尔再次进入人工智能训练芯片。花了四年时间,浩沟收购了四家初创公司,支出超过5亿美元。它于今年8月发行。

神经网络训练处理器nnp-t中的“T”是指训练,也就是说,这个芯片用于人工智能推理,处理器代码是spring crest。

Nnp-t将由英特尔的竞争对手台积电采用16纳米ff工艺制造。

Nnp-t拥有270亿个16纳米晶体管,硅片面积为680平方毫米,封装尺寸为60毫米X60毫米2.5d,并包含24个张量处理器网格。

核心频率高达1.1ghz,60mb片内存储器,4 8gb hbm2-2000存储器,采用x16 pcie 4接口,tdp为150~250w。

每个张量处理单元都有一个微控制器,用于指导数学协处理器的操作,并且可以通过定制的微控制器指令进行扩展。

Nnp-t支持三种主流机器学习框架:tensorflow、pytorch、Paddle、C深度学习软件库和编译器ngraph。

就计算能力而言,芯片可以达到每秒119万亿次运算(最多119次),但英特尔尚未透露它是在int8还是int4上计算能力。

相比之下,智能特斯拉t4的计算力在int8上为130次,在int4上为260次。

展开阅读:

英特尔的第一个人工智能芯片终于发布:两用培训和推理,花了4年时间,花了5亿美元收购了4家公司

Avida volta架构芯片

Nvida volta于2017年5月发布,引入了pascal架构的张量内核、hbm2和nvlink 2.0。

Nvidia v100芯片是第一个基于这种架构的gpu芯片。其核心数据是:

Io数据:

英伟达图灵架构芯片

图灵体系结构是对沃尔特体系结构的升级,于2018年9月发布,但cuda和张量核更少。

因此,它的尺寸更小,功率更低。除了机器学习任务之外,它还设计用于执行实时光线跟踪。其核心数据是:

Io数据:

参考来源:

http://www . jameswhanlon . com/new-chips-for-machine-intelligence . html

-完毕-

真诚的招聘

量子比特正在北京中关村招聘编辑/记者。期待有才华和热情的学生加入我们!详情请回复qbitai对话界面中的“招聘”一词。

量子位qbitai

跟踪人工智能技术和产品的新发展

内蒙古十一选五 吉林十一选五投注 天津11选5投注