『壹』 马斯克发布机器人,“钢铁侠”那种!还顺便推出全球最快AI计算机
全球最快的AI训练速度王座,刚刚易主了。
不是英伟达GPU,也不是谷歌TPU……
马斯克治下的特斯拉,自研AI训练芯片 D1 ,自研AI超级计算机 Dojo ExaPod ,首秀即巅峰,登场就是全球第一。
此外,马斯克还带来了另一个特斯拉新品:
汽车 机器人 ,搭载了特斯拉包含芯片在内的软硬件系统,但跟网络的不同,不像 汽车 更像人。
这就是特斯拉年度AI开放日上,马斯克再次带来的一系列激动人心的大进展。
马斯克说:要有一个超快的计算机来训练Autopilot在内的整个自动驾驶系统。
于是DOJO诞生了。
DOJO,取名源自日语里“练武”专用的 道场 ,顾名思义,DOJO就是特斯拉AI不断精益功夫的道场。
DOJO 是一种通过网络结构连接的分布式计算架构。它还具有大型计算平面、极高带宽和低延迟,以及分区和映射的大型网络。
实际上,在CVPR 2021现场,特斯拉就已经剧透过DOJO的相关性能。
当时总算力达 1.8EFLOPS ,读写速度高达1.6TBps,一度被认为超越全球排名第一的超级计算机富岳,创造超算新纪录。
但那时DOJO用的是英伟达的A100 GPU,单卡算力321TFLOPS,共计 5760 张,节点数高达720个。
而现在,DOJO更进一步,自研了“心脏” 芯片 。
特斯拉首款AI训练芯片 D1 ,正式发布。
7nm 工艺,单片FP32达到算力22.6TOPs,BF16算力362TOPs。
特斯拉发布会现场,还用图展示性能,拳打英伟达GPU,脚踢谷歌TPU。
一句话概括,比现在市面上任何芯片都强。
特斯拉也用“Pure Learning Machine”, 纯学习机器 ,来称呼D1芯片。
此外,D1芯片强的不只是单兵作战能力,还有集团军作战能力,它们可以无缝融合,变成超大规模计算阵列。
能有多大,接下来,特斯拉就揭晓了之前预热海报上的“神秘物种”:
集合了25块D1芯片的训练模块!
这也是特斯拉首个训练模块,而把多个模块集合,就能形成更大算力的训练阵列:
至此, 特斯拉自研超算DOJO 完整真身亮相!
超过50万个训练节点。每个模块算力为9 petaflops,带宽为36TB/s。
DOJO的可怕之处在于,不同于世界其他超算需要承担多种不同任务,DOJO的唯一使命就是AI训练,或者可以说聚焦到自动驾驶算法的训练。
因为专注,所以首秀即巅峰。
AutoPilot、FSD,特斯拉的其他AI训练任务,都能在DOJO里更高效练就。
另外,特斯拉官方还继续剧透:这不是终点,下一代DOJO还会有10倍性能的提升!
所以到这里就完了?拿衣服。
最后也是最强,特斯拉D1支持下的终极大杀器登场:
ExaPOD ,集成120个训练模块,包含3000个D1芯片,超过1百万个训练节点。算力达到 1.1EFLOP 。
而且每单位能耗下的性能比当今最强超算高1.3倍,但碳排放仅为1/5。
速度和性能,冠绝业内。
于是特斯拉明确: 这就是全球最快的AI训练计算机。
有意思的是,2019年美国能源部曾放言要花6亿美元建E级算力的超算,2023年问世……
万万没想到,这个目标被“车企”特斯拉率先实现了。
所以问题来了,自研D1芯片有了,最强AI训练超算DOJO ready了,接下来特斯拉会有怎样的改变?
特斯拉AI技术主管Andrej Karpathy (李飞飞高徒) 登场,介绍了D1芯片和DOJO,主要服务的对象——特斯拉的在自动驾驶方面领先所有对手的“灵丹妙药”:
纯视觉方案 。
事故频出,争议四起,甚至中国绝大部分玩家都转向了 视觉+激光雷达 的综合方案,但特斯拉依然坚持。
Karpathy详细介绍了特斯拉高纯视觉方案的思路,和现行8摄像头方案的特点,以及它为什么能work。
特斯拉纯视觉方案,基本构建原则是把自动驾驶系统看作一个生物,有眼睛、有神经、有大脑。
目前的方案有八个摄像头,背后是被称为HydraNets——“九头蛇网络”的多任务学习神经网络。
“九头蛇网络”可以同时处理目标检测、交通标志识别、车道预测等等任务,其关键在于对各种数据的特征提取,包括不同种类数据的特征共享、对不同任务的分别调参,以及参数缓存,用来加快调参速度。
这也是实现FSD敏捷开发,半年内迭代2-3个版本的关键。
接下来,Karpathy 描述了纯视觉方案的 历史 ,以及方案发展到今天的逻辑,他展示了一段特斯拉处理其图像数据的视频。
他说过去 的FSD 虽然很好,但事实证明这样的系统不够完善,每个摄像头能够检测到工程师预期的目标,但背后神经网络的矢量空间是不够的。
于是,特斯拉如重新设计了神经网络,就是上面的“九头蛇”。
另外相机校准、缓存、队列和优化等等环节都做了最大程度简化。
特斯拉方面还比较了多摄像头方案和单摄像头方案的差别,相同的场景下,单摄像头方案识别率明显低于多摄像头方案。
特斯拉车辆上的8个摄像头获取原始输入后,系统会创建各种分辨率的图像,用于各种功能和目的。
这些不同的图像会被分别喂给处理不同任务的神经网络,作为整个自动驾驶系统的决策依据。
接着,Karpathy介绍了特斯拉的“终极建筑师”,即车辆在行驶过程中可以实时对车道、环境建模。
车道线实时建模,其实就是特斯拉自己的高精地图能力。
中国自动驾驶玩家,强调“高精度地图”的不少,但特斯拉的思路,“现成资源”不是本质能力,本质能力应该是“创造资源”的能力。
最后,Karpathy谈了AI公司常见的数据标注问题,他认为,把数据外包给第三方去做手工标注并不好,所以特斯拉选择自建团队来给数据打标,目前已经从2D图像标记升级到4D矢量空间的标记。
这也是特斯拉自动驾驶不断快速进化的核心所在。
依靠人工标注,显然无法应对量产车上路后的大规模数据,所以只有自动化标注,才能形成数据闭环。
开放日上,特斯拉也展示了如何从车道线、2D图像……一点点跃迁至4D标注和建模的。
行人、车辆、树木,建筑物……清清楚楚,而且还有意图识别。
特斯拉方面也强调,基于类脑一样的感知系统、自动化标注能力,以及 仿真 ,确保了特斯拉为什么可以基于纯视觉实现更高维度的自动驾驶。
仿真 ,简单讲就是利用现实数据,将真实世界的实时动态景象,在计算机系统实现重新构建和重现。
这套模拟程序,用特斯拉的话说,就是一个以自动驾驶为玩家的视频 游戏 。
在这套系统里,任何要素都可以被添加其中,包括奇葩的极端场景。
比如这里,人太多导致目标难以标注,车辆极多:
特斯拉这里还不忘补刀一下 毫米波雷达 ——纯视觉也能做很好,所谓的雷达冗余作用有限。
特斯拉方面还披露,现在标注和仿真系统,可以模拟数量高达3.71亿的数据及场景。
当然,自动驾驶最后还得解决从比特世界走向原子世界应用的问题。
这次特斯拉主要披露了 控制和规划 方面的进展。
特斯拉自动驾驶总监Ashok Elluswamy,分享了特斯拉针对复杂场景的规划方案——“混合规划系统”。
主要思路和技术方法是基于蒙特卡洛树搜索,实现最佳路径规划。
最后,整个特斯拉自动驾驶从感知到决策规划,一图概括如下:
最后的最后,就在大家都以为发布会完全就是自动驾驶相关内容之际……
“简短茶歇”环节,竟然来了一段“机器人热舞”——宛如衣服Model一样的穿着,样子非常“硅基”。
这是特斯拉的行为艺术?
不不不,再次出乎意料。
马斯克再次登台,然后郑重其事发布: 特斯拉机器人 。
身高5英尺8英寸,约为172cm;重量125磅,约为56.7kg;承载能力为45磅,约为20kg。
它的面部是一个显示屏,用来显示重要信息。
从外形上看,四肢和人类一样。
为了实现平衡性和敏捷性,四肢使用了40个机电推杆。
同时,特斯拉各项AI和芯片技术,都会应用其中。
比如使用Autopilot的摄像头充当感知系统,胸腔里内置特斯拉自研芯片——FSD同款,还会加持多项特斯拉已开发出的技术,如多摄像头视频神经网络、规划能力、标记。
而且马斯克强调,这不是玩具周边,它会最终实现——可能明年就会正式推出,这是特斯拉电动车的 下一步 。
硅谷钢铁侠还说,他会是一个非常有用的机器人,由人打造,为人服务,而且会确保一直对人友好,能把人从危险的、重复的,无聊的任务中解放出来。
甚至还能跟已经高度自动化的特斯拉车辆生产进一步结合协作。但按照马斯克的意思,首要的应该是“做家务”。
有意思的是,随着特斯拉这个“机器人”发布,太平洋两岸都把“机器人”作为了智能车变革的下一步。
中国这边,网络李彦宏刚刚推出了一款“ 汽车 机器人”,不过更像“ 汽车 ”而不是“人”。
美国那头,马斯克的特斯拉机器人,更像“人”而不是“ 汽车 ”。
这种区别,也可能跟马斯克的那个江湖绰号有关。
伊隆·马斯克,不就是现实版钢铁侠吗?
— 完 —
智能车参考 · AI4Auto
关注我们,第一时间获知智能车最新动态
『贰』 高通发布全新自动驾驶计算平台 最高算力700TOPS,2023年量产
▲高通公司总裁CristianoAmon新闻发布会上向展示了SnapdragonRide(图源CNET/James?Martin)
SnapdragonRide通过独特的SoC、加速器和自动驾驶软件栈的结合,为汽车制造商提供了一种可扩展的解决方案,可在三个细分领域对自动驾驶汽车提供支持,分别是:
1、L1/L2级主动安全ADAS——面向具备自动紧急制动、交通标志识别和车道保持辅助功能的汽车。
2、L2+级ADAS——面向在高速公路上进行自动驾驶、支持自助泊车,以及可在频繁停车的城市交通中进行驾驶的汽车。
3、L4/L5级完全自动驾驶——面向在城市交通环境中的自动驾驶、无人出租车和机器人物流。
SnapdragonRide平台基于一系列不同的骁龙汽车SoC和加速器建立,采用可扩展且模块化的高性能异构多核CPU、高能效的AI及计算机视觉引擎,以及GPU。
其中,ADASSoC系列和加速器系列采用异构计算,与此同时利用高通的新一代人工智能引擎,ADAS和SoC能够高效管理车载系统的大量数据。
得益于这些不同的SoC和加速器的组合,SnapdragonRide平台可以根据自动驾驶的不同细分市场的需求进行配备,同时提供良好的散热效率,包括从面向L1/L2级别应用的30TOPS等级的设备,到面向L4/L5级别驾驶、超过700TOPS的功耗130瓦的设备。
此外,高通全新推出的SnapdragonRide自动驾驶软件栈是集成在SnapdragonRide平台中的模块化可扩展解决方案。
据介绍,SnapdragonRide平台的软件框架可同时托管客户特定的软件栈组件和SnapdragonRide自动驾驶软件栈组件。
SnapdragonRide平台也支持被动或风冷的散热设计,因而能够在成本降低的同时进一步优化汽车设计,提升可靠性。
现在,Arm、黑莓QNX、英飞凌、新思科技、Elektrobit、安森美半导体均已加入高通的自动驾驶朋友圈,成为SnapdragonRide自动驾驶平台的软/硬件供应商。
Arm的功能安全解决方案,新思科技的汽车级DesignWare接口IP、ARC处理器IP和STARMemorySystemTM,黑莓QNX的汽车基础软件OS安全版及Hypervisor安全版,英飞凌的AURIXTM微控制器,以及安森美半导体的ADAS系列传感器都会集成到高通的自动驾驶平台上。
Elektrobit还计划与高通合作,共同开发可规模化生产的新一代AUTOSAR架构,EBcorbos软件和SnapdragonRide自动驾驶平台都将集成在这个架构上面。
据了解SnapdragonRide将在2020年上半年交付汽车制造商和一级供应商进行前期开发,而根据QualcommTechnologies估计,搭载SnapdragonRide的汽车将于2023年投入生产。
二、深耕汽车业务多年高通赋能超百万台汽车
在发布SnapdragonRide自动驾驶平台之前,高通已在智能汽车领域深耕多年。
十多年来,高通子公司QualcommTechnologies一直在为通用汽车的网联汽车应用提供先进的无线通信解决方案,包括通用汽车上安吉星设备所支持的安全应用。
在车载信息处理、信息影音和车内互联等领域,QualcommTechnologies的订单总价值目前已超过70亿美元(约合人民币487亿元)。
而根据高通在CES2020发布会现场公布的信息,迄今为止已经有超百万辆汽车使用了高通提供的汽车解决方案。
很显然,如今高通在汽车领域的布局又向前迈进了一步。
CES2020期间,除发布SnapdragonRide自动驾驶平台外,高通还推出了全新的车对云服务(Car-to-CloudService),该服务预计在2020年下半年开始提供。
据介绍,由QualcommTechnologies打造的车对云服务支持SoftSKU芯片规格软升级能力,不仅可以帮助汽车客户满足消费者不断变化的需求,还可根据新增性能需求或新特性,让芯片组在外场实现升级、以支持全新功能。
与此同时SoftSKU也支持客户开发通用硬件,从而节省他们面向不同开发项目的专项投入。利用高通车对云SoftSKU,汽车制造商不仅能够为消费者提供各种定制化服务,还可以通过个性化特性打造丰富且具沉浸感的车内体验。
另外高通的车对云服务也支持实现全球蜂窝连接功能,既可用于引导初始化服务,也可以在整个汽车生命周期中提供无线通信连接。
QualcommTechnologies产品管理高级副总裁NakulDuggal表示,结合骁龙汽车4G和5G平台、骁龙数字座舱平台,高通的车对云服务能够帮助汽车制造商和一级供应商满足当代车主的新期待,包括灵活、持续地进行技术升级,以及在整个汽车生命周期中不断探索新功能。
此外,QualcommTechnologies也在CES2020上宣布,表示将继续深化和通用汽车的合作。作为长期合作伙伴,通用汽车将通过与QualcommTechnologies的持续合作来支持数字座舱、车载信息处理和ADAS(先进驾驶辅助系统)。
结语:巨头纷纷入局自动驾驶领域风起云涌
前有华为表示要造激光雷达、毫米波雷达等智能汽车核心传感器,后有Arm牵头成立自动驾驶汽车计算联盟,如今移动芯片巨头高通也发布了全新的自动驾驶平台,在汽车和自动驾驶领域上又迈进一步。
巨头入局有利于自动驾驶汽车更快更好地落地,然而另一方面随着更多硬核玩家拓展业务边界,此次市场上的竞争也必然会变得更加激烈。
本文来源于汽车之家车家号作者,不代表汽车之家的观点立场。
『叁』 英伟达秀全球最大GPU,黄仁勋从烤箱里拿出的产品果然「爆了」
SegmentFault 思否报道丨公众号:SegmentFault
是他,还是那个男人,那个熟悉的皮夹克。
5 月 14 日 晚,黄仁勋在厨房召开了英伟达 GTC 2020 线上发布会。由于新冠病毒疫情影响,英伟达原计划的现场活动被迫取消,定于 3 月 24 日通过媒体发布的新闻稿也未见踪影。千呼万唤中,黄仁勋终于在烤箱前和大家见面了。
本届 GTC 从预热开始就不走寻常路,黄仁勋在大会前一天晒出了自己从烤箱里拿出了 全新的安培(Ampere)架构 GPU NVIDIA A100 。
令人颇感意外的是,虽然无法举办线下活动,英伟达竟然连线上直播都懒得办,直接播放了黄仁勋在自家厨房里录制的视频完成了新品发布。果然是手里有「硬货」就不在乎形式了。
英伟达的首款安培架构 GPU 可以算「史上最强」了,基于 7nm 工艺制程,拥有 540 亿晶体管,面积为826mm²,与 Volta 架构相比性能提升了 20 倍 ,既可以做训练也可以做推理。
NVIDIA A100 具有 TF32的第三代 Tensor Core 核心,能在不更改任何代码的情况下将 FP32 精度下的 AI 性能提高 20倍,达到19.5万亿次/秒 。
多实例 GPU-MG 可将单个 A100 GPU 分割为 7 个独立的 GPU,根据任务不同提供不同的计算力,实现最佳利用率和投资回报率的最大化。
NVIDIA A100 新的效率技术利用了AI数学固有的稀疏性,优化之后性能提升了一倍。
英伟达将 NVIDIA A100 的特性总结为以下 5 点:
黄仁勋说:“Ampere架构的突破性设计为英伟达第八代GPU提供了迄今为止最大的性能飞跃, 集 AI 训练和推理于一身,并且其性能相比于前代产品提升了高达 20 倍 。这是有史以来首次,可以在一个平台上实现对横向扩展以及纵向扩展的负载的加速。A100 将在提高吞吐量的同时,降低数据中心的成本。”
NVIDIA A100 是第一个基于 NVIDIA 安培架构的 GPU,提供了在 NVIDIA 八代 GPU 里最大的性能提升,它还可用于数据分析,科学计算和云图形,并已全面投产并交付给全球客户。
全球 18 家领先的服务提供商和系统构建商正在将 NVIDIA A100 整合到他们的服务和产品中,其中包括阿里云、AWS、网络云、思科、Dell Technologies、Google Cloud、HPE、Microsoft Azure和甲骨文。
黄仁勋还介绍了基于 NVIDIA A100 的第三代 AI 系统 DGX-A100 AI。DGX-A100 AI 是世界上第一台单节点 AI 算力达到 5 PFLOPS 的服务器 ,每台 DGX A100 可以分割为多达 56 个独立运行的实例,还集合了 8 个 NVIDIA A100 GPU,每个 GPU 均支持 12 路 NVLink 互连总线。
据了解,与其他高端 CPU 服务器相比,DGXA100 的 AI 计算性能高 150 倍、内存带宽高 40 倍、IO 带宽高 40 倍。
黄仁勋说:“AI已经被应用到云计算、 汽车 、零售、医疗等众多领域,AI算法也正变得越来越复杂和多样。ResNet模型的算力需求从2016年到现在已经增加了3000倍,我们需要更好的解决方案。”
如此强大的 DGX-A100 AI 售价自然也不便宜,标价 19.9 万美元,约合人民币 141 万元。
此外,黄仁勋还提到了英伟达新一代 DGXSuper POD 集群,由 140 台DGXA100系统组成,AI算力达 700 Petaflops,相当于数千台服务器的性能 。
据了解,首批 DGXSuper POD 将部署在美国能源部阿贡国家实验室,用于新冠病毒疫情相关的研究。
除了以上两款重磅产品,黄仁勋还宣布推出了 NVIDIA Merlin,这是一个用于构建下一代推荐系统的端到端框架,该系统正迅速成为更加个性化互联网的引擎。Merlin将创建一个 100 TB 数据集推荐系统所需的时间从四天减少到 20 分钟。
英伟达此次还推出了众多 AI 领域相关产品,包括 以太网智能网卡 Mellanox ConnectX-6 Lx SmartNIC、EGX 边缘 AI 平台和一系列软件更新扩展。
1.以太网智能网卡 Mellanox ConnectX-6 Lx SmartNIC
ConnectX-6 Lx 是业界首个为 25Gb/s 优化的安全智能网卡,可提供两个 25Gb/s 端口或一个 50Gb/s 端口。
2.EGX 边缘 AI 平台
EGX Edge AI 平台是首款基于 NVIDIA 安培架构的边缘 AI 产品,可接收高达 200Gbps 的数据,并将其直接发送到 GPU 内存进行 AI 或 5G 信号处理。
3.Spark 3.0
英伟达还宣布在 Spark 3.0 上支持 NVIDIA GPU 加速,基于 RAPIDS 的 Spark 3.0,打破了提取,转换和加载数据的性能基准。它已经帮助 Adobe Intelligent Services 将计算成本降低了90%。
4.NVIDIA Jarvis
黄仁勋在发布会中详细介绍了 NVIDIA Jarvis,这是一个新的端到端平台,可以充分发挥英伟达 AI 平台的强大功能,创建实时多模态对话式 AI。
5.Misty 交互 AI
现场演示中,一个名为 Misty 的 AI系统展示了实时理解并回答一系列有关天气的复杂问题的交互过程。
自动驾驶方面,英伟达也将安培架构嵌入了新的 NVIDIA DRIVE 平台。据了解,小马智行、法拉第未来等自动驾驶企业已宣布采用 NVIDIA DRIVE AGX 计算平台。
英伟达的 NVIDIA Isaac 软件定义的机器人平台还将用于宝马集团工厂。英伟达机器人技术全球生态系统涵盖配送、零售、自主移动机器人、农业、服务业、物流、制造和医疗保健各个行业。
英伟达这场时隔 3 年的发布会可谓诚意满满,首次推出的安培架构给足了惊喜,性能提升 20 倍的 NVIDIA A100 GPU 可谓性能飞跃。
虽然发布会并不是现场直播,但依旧爆点十足。一台就比千台强的 DGX-A100 AI 也印证了黄仁勋那就经典名言“买的越多,赚的越多”。英伟达的 AI 解决方案已经覆盖了各行各业,强大的 AI 生态正在形成。
中国工程院院士倪光南曾表示:「芯片设计门槛极高,只有极少数企业能够承受中高端芯片研发成本,这也制约了芯片领域创新。」
英伟达在本届 GTC 上推出的安培架构和基于此的一系列 AI 平台无一部显示了一个 AI 芯片巨头的实力,又一次树立了性能标杆。
根据 Gartner 的预测数据 ,未来 5 年内全球人工智能芯片市场规模将呈飙升趋势 ,自 2018 年的 42.7 亿美元 ,升高至 343 亿美元 ,增长已超过 7 倍,可见 AI 芯片市场有较大增长空间。
尽管与西方发达国家相比,中国的 AI 芯片研发还存在一定差距,但过去两年中,中国 AI 芯片初创企业已获得了数亿美元的资金。华为等公司也开发了令人印象深刻的芯片设计。
但芯片开发极具复杂性,中国人才的短缺以及缺乏多家全球销售排名前 15 位的中国半导体公司的情况表明,中国仍需要取得重大进展,才能在半导体领域与美国匹敌。
『肆』 高通推便携游戏机芯片,潜藏优势与巨大挑战并存
电子发烧友网报道(文/周凯扬)高通在近期的技术峰会上公布了第一代G3x 游戏 平台,并与雷蛇合作基于该平台推出了开发机,面向便携 游戏 机市场。然而对于高通来说,这一市场的主要份额已经被传统GPU厂商霸占。高通想借助G3x虎口夺食的如意算盘能否成功,我们不妨拿其他竞争对手的产品做个对比。
单看便携 游戏 机的销量,自然没有一家能与任天堂Switch相提并论。凭借其发展了数十年的 游戏 生态,Switch全系列销量已经逼近亿级,不过与其火爆销量形成鲜明对比的是其落后的配置。
Tegra X1 / Nvidia
Switch自2017年发售以来还推出了Switch Lite、Switch续航版和Switch OLED三个版本,但其芯片配置基本没有太大变化。初版Switch选用了英伟达的ARM芯片Tegra X1作为主机SoC,该芯片采用了台积电20nm制程,集成了四个4个Cortex-A57核心和Maxwell架构的GPU,其中还有4颗被禁用的Cortex-A53核心,将功耗控制在了10W以内。
19年发售的Switch续航版并未对性能做出多大的增强,只不过将Tegra X1换为16nm制程,改动了GPU的频率,将其算力从512 GFLOPS提升至649 GFLOPS。核心数与架构均未改动,主要是靠制程优势提升了些许续航表现。Switch推出近5年以来,任天堂似乎仍没有透露下一代便携 游戏 机的打算。在这样的配置下,如今Switch平台上的多数 游戏 只有1080p 30帧甚至更低的表现。
但任天堂的机器配置差不代表英伟达拖了后腿,英伟达的Tegra系列芯片经过了几年的迭代已经广泛应用于各种设备中,比如英伟达自己的便携媒体设备Nvidia Shield,甚至一度应用于特斯拉车载信息 娱乐 系统处理器。
Tegra系列SoC路线图 / 英伟达
据业内人士透露,下一代任天堂Switch主机很可能会搭载英伟达的Tegra Orin SoC,该芯片集成了12核ARM Cortex-A78AE的CPU,以及2048个CUDA核心的Ampere架构GPU。不过考虑到Orin芯片60W的功耗,完整版的型号最终还是普遍用于车机系统,如果要用于便携 游戏 机的话,任天堂很可能会选择定制版的Orin,采用降低频率或是像Tegra X1一样砍核心的做法。
尽管在传统的家庭 游戏 主机上,AMD占据了绝对的主导地位,微软的Xbox和索尼的PlayStation都选用了AMD为其定制的SoC。但在便携 游戏 主机上,AMD却是首次出手,结合此前三星下一代Exynos芯片将搭载AMD GPU的新闻,AMD明显是想在移动端上分一杯羹。
Steam Deck / Valve
Steam Deck为老牌PC 游戏 厂商Valve推出的便携 游戏 机,采用了AMD定制的SoC芯片(APU)。与Nvidia采用ARM作为CPU核心架构不同,该SoC集成了4核8线程Zen 2架构的CPU,核心频率为2.4至3.5GHz,算力最高448 GFlops FP32。GPU上,Steam Deck用上了8个RDNA 2架构的计算单元,频率1.0-1.6GHz,算力达到1.6 TFlops FP32。这样的配置可以说是一个迷你家用 游戏 主机了,况且在台积电7nm制程的支持下,其功耗范围在4到15W。
在视频输出上,Steam Deck最高支持4K 120Hz/8K 60Hz,可以说是目前便携 游戏 机最高的输出格式。不过Steam Deck自身仅附带一个1280 x 800的LCD显示屏,且以上只是理论最高值。且在这一x86 SoC的支持下,Steam Deck选择了“魔改版”的Linux系统SteamOS作为操作系统,这又与传统的Windows PC生态不同,目前支持Linux的 游戏 仅占Steam 游戏 总数的十分之一左右。
安卓便携 游戏 机过去一直是一个边缘化的市场,甚至被人戏说为“伪命题”,市面上的产品要么性能落后于旗舰手机,要么在 游戏 生态上逃不出手机 游戏 的圈子,多数人认为手机足以满足日常的移动 游戏 要求。但随着愈发复杂的操作要求涌现,不少手机厂商也都推出了在外观上做文章的 游戏 手机,也有外设厂商推出手机专用 游戏 手柄,但这些都是基于手机定位的产品,并非彻头彻尾的 游戏 设备。
骁龙G3x芯片与开发机 / 高通
高通推出的G3x的架构与手机SoC并无二致,均选用了Kryo CPU和Adreno GPU。不过高通并没有透露具体的参数细节,仅仅强调了该平台最高支持4K分辨率和144 FPS的流畅体验。好在没了手机的外形限制,G3x在散热和续航上能够做到优于手机数倍。
不过高通最大的优势体现在其连接性上,蓝牙5.2+Wi-Fi 6E+5G,可以说是目前便携 游戏 机无线连接的天花板了,上文中的Switch和Steam仅仅支持蓝牙5.0和802.11ac,更不用说5G连接了。有了蓝牙5.2和Snapdragon Sound技术的支持,G3x的蓝牙音频在音质和延迟上可以说胜过市面上所有便携 游戏 机产品。
强大的连接性加上开放的安卓平台为G3x赋予了全新的可能性,在云 游戏 和本地串流出现后,安卓便携 游戏 机被人诟病的 游戏 生态已经成了过去式。
无论是Xbox还是PlayStation家用 游戏 主机,还是PC 游戏 平台,均提供了本地串流选项,在Wi-Fi 6E的大带宽低延迟的支持下,玩家可以在小屏下享受高分辨率和高帧率的3A大作。且多亏了苹果对于iOS云 游戏 的限制,英伟达、微软等厂商的云 游戏 平台反倒可以在安卓平台上不遗余力地打造完整体验。
此外,由于整台 游戏 机主要采用了高通自己的芯片,在供应链管理上的优势也会更大一些。根据小道消息称,今年某品牌蓝牙芯片缺货严重影响了 游戏 手柄供应,从而造成了整机缺货的情况。
高通选择在这个节骨眼上选择推出便携 游戏 机芯片,必然是借助安卓系统的 游戏 生态弯道超车。相较Switch的自研封闭系统和Steam Deck的开源x86系统,安卓以其包容性扩大了受众群体,甚至可以让传统的PC和主机玩家也加入便携 游戏 机阵营。
不过横亘在其面前的还有一些挑战,ARM的 游戏 生态经过这么多年的发展虽然销量开始反超,但在技术和质量上仍有落后之处。比如英伟达和AMD推出的DLSS和FSR分辨率压缩技术,对于移动端普遍不高的分辨率和帧数来说至关重要。高通必须以自己的专利技术形成竞争力,Adreno GPU也亟待硬件和软件上的双重突破。
『伍』 AI 应用爆发,算力会迎来哪些发展机遇
随着人工智能应用的不断扩大和深入,算力需求将不断增加。因此,未来禅没算力发展将会迎来以下机遇:
超级计算机:随着技术的提升,超级计算机的算力将会越来越强大,可以处理更加复杂的人工智能问题。
量子计算:量子计算是一种全新的计算方式,它利用量子比特而非传统的经典比特进行计算,因此具有比传统计算机更快的计算速度。这将为人工智能开辟新的研究方向,同时也为解决更加复杂的人工智能问题提供了可能。
模型局前压缩与量化:针对目前人工智能模型存在的内存占用和计算速度慢等问题,模型压缩和量化技术将成为重要的发展方向。通过减小模型大小和复杂度,同时保持良好的精度,桐袭清可以在不降低算法性能的情况下实现更高效的计算。
分布式计算:由于单台设备的算力有限,分布式计算将成为满足大规模计算需求的关键技术之一。这项技术可以将计算任务分配给多台设备进行处理,提高计算效率和准确性。
总之,随着人工智能应用的不断扩大和深入,算力发展将会迎来更多机遇,并为人工智能技术的进一步发展提供有力支撑。
『陆』 最高280 TOPS算力,黑芝麻科技发布华山二号,PK特斯拉FSD
芯片作为智能汽车的核心「大脑」,成为诸多车企、Tier 1、自动驾驶企业重点布局的领域。
围绕着自动驾驶最为关键的计算单元,国内诞生了诸多自动驾驶芯片创新公司,在该领域的绝大部分市场份额依然被国外厂商控制的当下,他们正在争取成为「国产自动驾驶芯片之光」。
成立于 2016 年的黑芝麻智能科技便是这一名号的有力争夺者。
继 2019 年 8 月底发布旗下首款车规级自动驾驶芯片华山一号(HS-1)A500 后,黑芝麻又在这个 6 月推出了相较于前代在性能上实现跃迁的全新系列产品——华山二号(HS-2),两个系列产品的推出相隔仅 300 余天,整体研发效率可见一斑。
1、国产算力最高自动驾驶芯片的自我修养
华山二号系列自动驾驶芯片目前有两个型号的产品,包括:
应用于?L3/L4?级自动驾驶的华山二号 A1000?;针对?ADAS/L2.5?自动驾驶的华山二号 A1000L。
简单理解就是,A1000 是高性能版本,而 A1000L 则在性能上进行了裁剪。
这样的产品型号设置也让华山二号系列芯片能在不同的自动驾驶应用场景中进行集成。
相较于 A500 芯片,A1000?在算力上提升了近?8 倍,达到了?40 - 70TOPS,相应的功耗为?8W,能效比超过?6TOPS/W,这个数据指标目前在全球处于领先地位。
华山二号 A1000 之所以能有如此出色的能效表现,很大程度是因为这块芯片是基于黑芝麻自研的多层异构性的?TOA 架构打造的。
这个架构将黑芝麻核心的图像传感技术、图像视频压缩编码技术、计算机视觉处理技术以及深度学习技术有机地结合在了一起。
此外,这款芯片中内置的黑芝麻自研的高性能图像处理核心?NeuralIQ ISP?以及神经网络加速引擎?DynamAI DL?也为其能效跃升提供了诸多助力。
需要注意的是,这里的算力数值之所以是浮动的,是因为计算方式的不同。
如果只计算 A1000 的卷积阵列算力,A1000 大致是 40TOPS,如果加上芯片上的 CPU 和 GPU 的算力,其总算力将达到?70TOPS。
在其他参数和特性方面,A1000 内置了 8 颗 CPU 核心,包含 DSP 数字信号处理和硬件加速器,支持市面上主流的自动驾驶传感器接入,包括激光雷达、毫米波雷达、4K 摄像头、GPS 等等。
另外,为了满足车路协同、车云协同的要求,这款芯片不仅集成了 PCIE 高速接口,还有车规级千兆以太网接口。
A1000 从设计开始就朝着车规级的目标迈进,它符合芯片 AEC-Q100 可靠性和耐久性 Grade 2 标准,芯片整体达到了 ISO 26262 功能安全 ASIL-B 级别,芯片内部还有满足 ASIL-D 级别的安全岛,整个芯片系统的功能安全等级为?ASIL-D。
从这些特性来看,A1000 是一款非常标准的车规级芯片,完全可以满足在车载终端各种环境的使用要求。
A1000 芯片已于今年 4 月完成流片,采用的是台积电的 16nm FinFET 制程工艺。
今年 6 月,黑芝麻的研发团队已经对这款芯片的所有模块进行了性能测试,完全调试通过,接下来就是与客户进行联合测试,为最后的大规模量产做准备。
据悉,搭载这款芯片的首款车型将在?2021 年底量产。
随着 A1000 和 A1000L 的推出,黑芝麻的自动驾驶芯片产品路线图也更加清晰。
在华山二号之后,这家公司计划在 2021 年的某个时点推出华山三号,主要面向的是 L4/L5 级自动驾驶平台,芯片算力将超越 200TOPS,同时会采用更先进的 7nm 制程工艺。
华山三号的?200TOPS?算力,将追平英伟达 Orin 芯片的算力。
去年 8 月和华山一号 A500 芯片一同发布的,还有黑芝麻自研的 FAD(Full Autonomous Driving)自动驾驶计算平台。
这个平台演化至今,在 A1000 和 A1000L 芯片的基础上,有了更强的可扩展性,也有了更广泛的应用场景。
针对低级别的 ADAS 场景,客户可以基于 HS-2 A1000L 芯片搭建一个算力为 16TOPS、功耗为 5W 的计算平台。
而针对高级别的 L4 自动驾驶,客户可以将 4 块 HS-2 A1000 芯片并联起来,实现高达 280TOPS 算力的计算平台。
当然,根据不同客户需求,这些芯片的组合方式是可变换的。
与其他大多数自动驾驶芯片厂商一样,黑芝麻也在可扩展、灵活变换的计算平台层面投入了更多研发精力,为的是更大程度上去满足客户对计算平台的需求。
反过来,这样的做法也让黑芝麻这样的芯片厂商有了接触更多潜在客户的机会。
根据黑芝麻智能科技的规划,今年 7 月将向客户提供基于 A1000 的核心开发板。
到今年 9 月,他们还将推出应用于 L3 自动驾驶的域控制器(DCU),其中集成了两颗 A1000 芯片,算力可达 140TOPS。
2、黑芝麻自动驾驶芯片产品「圣经」
借着华山二号系列芯片的发布,黑芝麻智能科技创始人兼 CEO 单记章也阐述了公司 2020 年的「AI 三次方」产品发展战略,具体包括「看得懂、看得清和看得远」。
这一战略是基于目前市面上对自动驾驶域控制器和计算平台的诸多要求提出的,这些要求包括安全性、可靠性、易用性、开放性、可升级以及延续性等。
其中,看得懂直接指向的是?AI 技术能力,要求黑芝麻的芯片产品能够理解外界所有的信息,可以进行判断和决策。
而看得懂的基础是看得清,这指的是黑芝麻芯片产品的图像处理能力,需要具备准确接收外界信息的能力。
这里尤其以摄像头传感器为代表,其信息量最大、数据量也最多,当然传感器融合也不可或缺。
看得远则指的是车辆不仅要感知周边环境,还要了解更大范围的环境信息,这就涉及到了车路协同、车云协同这样的互联技术,所以我们看到黑芝麻的芯片产品非常注重对互联技术的支持。
作为一家自动驾驶芯片研发商,这一战略将成为黑芝麻后续芯片产品研发的「圣经」。
3、定位 Tier 2,绑定 Tier 1,服务 OEM
现阶段,发展智能汽车已经成为了国家意志,在政策如此支持的情况下,智能汽车的市场爆发期指日可待。
根据艾瑞咨询的报告数据显示,到 2025 年全球将会有 6662 万辆智能汽车的存量,中国市场的智能汽车保守预计在 1600 万辆左右。
如此规模庞大的智能汽车增量市场,将为那些打造智能汽车「大脑」的芯片供应商培育出无限的产品落地机会。
作为其中一员,黑芝麻智能科技也将融入到这股潮流之中,很有机会成长为潮流的引领者。
作为一家自动驾驶芯片研发商,黑芝麻智能科技将自己定位为?Tier 2,未来将绑定 Tier 1 合作伙伴,进而为车企提供产品和服务。
当然,黑芝麻不仅能提供车载芯片,未来还将为客户提供自动驾驶传感器和算法的解决方案,还有工具链、操作平台等产品。
凭借着此前发布的华山一号 A500 芯片,黑芝麻智能科技已经与中国一汽和中科创达两家达成了深入的合作伙伴关系,将在自动驾驶芯片、视觉感知算法等领域展开了诸多项目合作。
另外,全球顶级供应商博世也与黑芝麻建立起了战略合作关系。
目前,黑芝麻的华山一号 A500 芯片已经开启了量产,其与国内头部车企关于 L2+ 和 L3 级别自动驾驶的项目也正在展开。
如此快速的落地进程,未来可期。
有意思的是,黑芝麻此番发布华山二号系列芯片,包括中国一汽集团的副总经理王国强、上汽集团总工程师祖似杰、蔚来汽车 CEO 李斌以及博世中国区总裁陈玉东在内的多位行业大佬都为其云站台。
这背后意味着什么?给我们留下了很大的想象空间。
本文来源于汽车之家车家号作者,不代表汽车之家的观点立场。