Ⅰ 从计算机硬件设计的角度分析如何提供更为丰富的算力
自上世纪90年代互联网技术诞生以来,移动互联网、云计算、大数据、人工智能等新一代信息技术的不断发展和逐步成熟,并日益深入的渗透到经济社会的各个领域,2020年全球范围内爆发的新冠疫情又进一步加速了这一趋势,数字经济已经成为世界经济发展的新阶段,即世界经济发展已经进入数字经济时代。
党中央、国务院和各级政府高度重视数字经济的发展。从2015年《中国制造2025》、《促进大数据发展行动纲要》等政策出台以来,中央和各级地方陆续以推出系列数字经济发展的措施,并支持雄安新区、浙江、福建等六个地区建设国家数字经济创新发展试验区,支持北京、上海、深圳、西安等地建设国家新一代人工智能创新发展试验区。2020年国家进一步提出加强新型基础设施建设,并明确将数据作为一种新型生产要素写入政策文件,这些将为数字经济的发展奠定更加坚实的基础。
农业经济时代,土地、水源和工具是关键资源。工业经济时代,能源、原材料、机器设备和生产工艺等是关键资源。那数字经济时代的关键资源是什么呢?数字经济时代的关键资源是数据、算力和算法。数据是数字经济时代的原材料,各种经济活动中都在源源不断的产生的数据,越来越多的组织也将数据当作一种资产,在政策层面数据已经成为一种新型生产要素。算力相当于数字经济时代的机器设备和生产力,面向各种场景的数据产品或应用都离不开算力的加工和计算,而且对算力的需求和要求也越来越高。算法是数字经济时代的生产工艺,面向图像、语音、自然语言处理等不同的应用场景和领域的算法也层出不穷,算法的提升和改进可以提高算力的效率和更多的挖掘数据价值。
本文重点分析算力方面内容,介绍算力市场总体情况,当前算力发展的特点和趋势,以及重点算力供应方式等。
一、算力需求快速增长,算力投资具有多重经济价值
算力即计算能力,核心是CPU、GPU、NPU、MCU等各类芯片,具体由计算机、服务器、高性能计算集群和各类智能终端等承载。数字经济时代,数据的爆炸式增长,算法的复杂程度不断提高,对算力需求越来越高。算力是数字经济发展的基础设施和核心生产力,对经济发展具有重要作用,根据IDC与浪潮联合发布的《2020全球计算力指数评估报告》,计算力指数平均每提高1点,数字经济和GDP将分别增长3.3‰和1.8‰。
随着数字经济的不断发展,人工智能、物联网、区块链、AR/VR 等数字经济的关键领域对算力的需求也将呈爆炸式增长。根据华为发布的《泛在算力:智能社会的基石》报告,预计到2030年人工智能、物联网、区块链、AR/VR 等总共对算力的需求将达到3.39万EFLOPS,并且将共同对算力形成随时、随地、随需、随形 (Anytime、Anywhere、AnyCapacity、Any Object) 的能力要求,其中人工智能算力将超过1.6万EFLOPS,接近整体算力需求的一半。OpenAI开发的GPT-3模型涉及1750亿个参数,对算力的需求达到3640PFLOPS,目前国内也有研究团队在跟进中文GPT-3模型的研究。
算力投资具有多重经济价值,不仅直接带动服务器行业及上游芯片、电子等行业的发展,而且算力价值的发挥将带动各行业转型升级和效率提升等,带来更大的间接经济价值。根据《泛在算力:智能社会的基石》报告,每投入1美元算力即可以带动芯片、服务器、数据中心、智能终端、高速网络等领域约4.7美元的直接产业产值增长;在传统工厂改造为智能化工厂的场景下,每1美元的算力投入,可以带动10美元的相关产值提升。
二、算力发展的特点及趋势
随着数据规模的增加和算法复杂度的提升,以及应用多样性的不断丰富,对算力提出的要求也越来越高,当前算力发展呈现出三方面的特点,一是多种架构百花齐放的状态,二是中心化的算力与边缘终端算力快速发展,三是专用算力日渐成势。
近年来多种算力架构并存并快速发展。曾经x86架构的算力占绝对优势,英特尔和AMD基本垄断了X86算力架构市场,海光信息通过跟AMD合作获得x86架构的授权;如今基于ARM架构的算力份额不断扩大,特别是在移动端ARM架构算力成为主流,华为海思等主要产品是基于ARM架构,另外天津飞腾的产品也是基于ARM架构。随着人工智能等算力需求的不断增加,GPU算力的需求不断增加,英伟达在GPU算力市场占有绝对优势,AMD也分了一杯羹,叠加比特币挖矿算力需求,导致市场上GPU卡供不应求。近几年国内也出现几个GPU方面的创业团队,如寒武纪、登临科技、燧原科技等。此外,Risc-V、存算一体化架构、类脑架构等算力也不断涌现,不过这些算力刚刚起步,在应用生态等方面还需要一定较长的培育过程。
中心化算力和边缘终端算力快速发展。随着7nm制程日渐成熟,基于7nm制程的CPU、GPU等算力性能得到极大提升,目前7nm制程算力主要是中心化算力,移动端智能手机的处理器算力部分也已经采用7nm制程。台积电的7nm制程已经实现规模化,并开始攻关3nm工艺制程;中芯国际7nm工艺制程仍在技术攻关当中。随着5G及物联网应用的不断增加,边缘终端算力的需求日益增加,特别是自动驾驶、智慧安防、智慧城市等领域算力需求。地平线自动驾驶芯片已经量产,英伟达jetson产品在嵌入式终端产品应用广泛,其他针对特定领域专用边缘终端芯片创业公司层出不穷。
针对图像、语音等特定领域的专用算力日渐成势。一方面是芯片工艺制程越来越逼近摩尔定律的极限,另一方面是物联网智能终端对功耗的要求等,针对特定领域的专用芯片层出不穷,并且越来越多的巨头参与其中。谷歌的TPU专为机器学习定制的算力,阿里平头哥的含光NPU专为神经网络定制的算力,赛灵思的FPGA算力,网络研发针对语音领域的鸿鹄芯片以及云知声、思必驰、探境科技等也推出智能语音相关的芯片,北京君正、云天励飞、依图科技和芯原微电子等推出针对视觉和视频处理相关的专用芯片。
三、算力供应以公有云和自建算力为主,多种方式相补充
当前的算力供给主要包括公有云、超算中心、自建算力、地方算力中心等方式。其中,公有云和自建算力中心是算力的主要来源方式,超算中心及地方算力中心等多种方式相互补充。
规模化的算力供应通常通过数据中来承载,新建数据中心的不断增加,将带动未来算力资源的供应不断扩大。据中国电子信息产业发展研究院统计数据,2019年中国数据中心数量大约为7.4万个,大约能占全球数据中心总量的23%,其中大型数据中心占比12.7%;在用数据中心机架规模达到265.8万架,同比增长28.7%;在建数据中心机架规模约185万架,同比增加约43万架。2020年国家大力支持“新基建”建设以来,数据中心作为“新基建”的重要内容,京津冀、长三角和珠三角等算力需求地区,以及中西部能源资源集中的区域,如内蒙、山西等,均在推进新的大中型数据中心的建设。
公有云以其稳定和易用等特点,成为许多企业特别是中小企业的算力首选方式。据不完全统计,阿里云服务器总数接近200万台,腾讯云服务器总数超过110万台,华为云、网络云、京东云、AWS等云厂商服务器总数未找到确切数据,保守估计各类云厂商服务器总数之和也超过500万台。而且在国家宣布大力支持“新基建”建设之后,腾讯宣布未来五年将投资5000亿元用于云计算、数据中心等新基建项目的进一步布局,阿里云宣布未来三年阿里将投2000亿元用于面向未来的数据中心建设及重大核心技术研发攻坚,网络宣布预计到2030年网络智能云服务器台数将超过500万台。各大云厂商仍在继续加大算力投入,公有云算力供应将会更加充裕。
自建算力以其安全性和自主性等特点,成为政府、大企业及其他关注安全的组织的算力首选方式。政府、银行及高校和央企等,通常通过自建或租赁数据中心的方式自建算力,满足自身各项业务的算力需求。许多互联网公司在刚开始时选择使用公有云服务,但规模发展到一定程度时通常都会开始自建或租赁数据中心的方式自建算力。其他有部分各种类型的企业,出于安全、商业机密和隐私等方面的考虑,不意愿把数据和业务等放到阿里云等公有云上,往往选择托管服务器的方式自建算力,规模更小企业直接就在本地使用。2020年6月快手宣布投资100亿元自建数据中心,计划部署30万台服务器,字节跳动等大型互联网公司都在不断加大数据中心的建设。
超算中心和地方算力中心作为算力供应有效的补充方式,适合于大规模计算需求的应用领域。截至2020年,科技部批准建立的国家超级计算中心共有八所,分别是国家超级计算天津中心、广州中心、深圳中心、长沙中心、济南中心、无锡中心、郑州中心和昆山中心。超算中心主要的算力资源以CPU为主,新建的超算中心及更新升级过程中超算中心逐步增加了异构GPU算力资源。超算中心较好的满足和弥补了高校科研中算力资源的需求,特别是在工业仿真、生物信息、新材料、气象、海洋等科学计算领域。国内主要省市地区基本都投资建设了当地算力中心,重点服务本地科研和产业发展的需求,如太原、苏州、福建等地,目前通常地方算力中心的规模并不大,计算节点数在200-500之间居多,主要服务于当地气象、工业仿真和生物信息等领域计算需求。此外,2020年以来,武汉、南京、珠海、许昌等地区正在建设人工智能计算中心,将在一定程度上弥补当前规模化AI算力不足的情况。
结语
算力作为数字经济的基础设施,也是数字经济时代的生产力和引擎,越来越成为数字经济时代国家竞争力的体现。根据IDC与浪潮联合发布的《2020全球计算力指数评估报告》,中国和美国的算力建设在全球处于领先地位,美国的算力无论在规模、效率、应用水平等方面都领先于中国。此外,从算力芯片供应角度看,美国的英特尔、AMD、英伟达等企业几乎占了全球的绝大部分的市场份额。可见,中国在算力建设和发展仍然需要加大投入和加强研发等,发挥优势的同时弥补不足,从而为数字经济长期发展奠定更加坚实的基础。
Ⅱ 英伟达CPU问世:ARM架构,对比x86实现十倍性能提升
机器之心报道
机器之心编辑部
「只需一张 GeForce 显卡,每个学生都可以拥有一台超级计算机,这正是 Alex Krizhevsky、Ilya 和 Hinton 当年训练 AI 模型 AlexNet 的方式。通过搭载在超级计算机中的 GPU,我们现在能让科学家们在 youxian 的一生之中追逐无尽的科学事业,」英伟达创始人兼首席执行官黄仁勋说道。
4 月 12 日晚,英伟达 GTC 2021 大会在线上开始了。或许是因为长期远程办公不用出门,人们惊讶地看到在自家厨房讲 Keynote 的黄老板居然留了一头摇滚范的长发:
如果你只是对他的黑色皮衣印象深刻,先对比一下 2019、2020 和 2021 的 GTC,老黄气质越来越摇滚。如此气质,黄仁勋今天推出的新产品肯定将会与众不同。
「这是世界第一款为 terabyte 级别计算设计的 CPU,」在 GTC 大会上,黄仁勋祭出了英伟达的首款中央处理器 Grace,其面向超大型 AI 模型的和高性能计算。
英伟达也要做 CPU 了
Grace 使用相对能耗较低的 Arm 核心,但它又可以为训练超大 AI 模型的系统提供 10 倍左右的性能提升。英伟达表示,它是超过一万名工程人员历经几年的研发成果,旨在满足当前世界最先进应用程序的计算需求,其具备的计算性能和吞吐速率是以往任何架构所无法比拟的。
「结合 GPU 和 DPU,Grace 为我们提供了第三种基础计算能力,并具备重新定义数据中心架构,推进 AI 前进的能力,」黄仁勋说道。
Grace 的名字来自于计算机科学家、世界最早一批的程序员,也是最早的女性程序员之一的格蕾丝 · 赫柏(Grace Hopper)。她创造了现代第一个编译器 A-0 系统,以及第一个高级商用计算机程序语言「COBOL」。计算机术语「Debug」(调试)便是她在受到从电脑中驱除蛾子的启发而开始使用的,于是她也被冠以「Debug 之母」的称号。
英伟达的 Grace 芯片利用 Arm 架构的灵活性,是专为加速计算而设计的 CPU 和服务器架构,可用于训练具有超过 1 万亿参数的下一代深度学习预训练模型。在与英伟达的 GPU 结合使用时,整套系统可以提供相比当今基于 x86 CPU 的最新 NVIDIA DGX 快 10 倍的性能。
目前英伟达自家的 DGX,使用的是 AMD 7 纳米制程的 Rome 架构 CPU。
据介绍,Grace 采用了更为先进的 5nm 制程,在内部通信能力上,它使用了英伟达第四代 NVIDIA NVLink,在 CPU 和 GPU 之间提供高达 900 GB/s 的双向带宽,相比之前的产品提升了八倍。Grace 还是第一个通过错误校正代码(ECC)等机制利用 LPDDR5x 内存系统提供服务器级可靠性的 CPU,同时提供 2 倍的内存带宽和高达 10 倍的能源效率。在架构上,它使用下一代 Arm Neoverse 内核,以高能效的设计提供高性能。
基于这款 CPU 和仍未发布的下一代 GPU,瑞士国家超级计算中心、苏黎世联邦理工大学将构建一台名为「阿尔卑斯」的超级计算机,算力 20Exaflops(目前全球第一超算「富岳」的算力约为 0.537Exaflops),将实现两天训练一次 GPT-3 模型的能力,比目前基于英伟达 GPU 打造的 Selene 超级计算机快 7 倍。
美国能源部下属的洛斯阿拉莫斯国家实验室也将在 2023 年推出一台基于 Grace 的超级计算机。
GPU+CPU+DPU,三管齐下
「简单说来,目前市场上每年交付的 3000 万台数据中心服务器中,有 1/3 用于运行软件定义的数据中心堆栈,其负载的增长速度远远快于摩尔定律。除非我们找到加速的办法,否则用于运行应用的算力将会越来越少,」黄仁勋说道。「新时代的计算机需要新的芯片、新的系统架构、新的网络、新的软件和工具。」
除了造 CPU 的大新闻以外,英伟达还在一个半小时的 Keynote 里陆续发布了大量重要软硬件产品,覆盖了 AI、 汽车 、机器人、5G、实时图形、云端协作和数据中心等领域的最新进展。英伟达的技术,为我们描绘出了一幅令人神往的未来愿景。
黄仁勋表示,英伟达全新的数据中心路线图已包括 CPU、GPU 和 DPU 三类芯片,而 Grace 和 BlueField 是其中必不可少的关键组成部分。投身 Arm 架构的 CPU,并不意味着英伟达会放弃原有的 x86、Power 等架构,黄仁勋将英伟达重新定义为「三芯片」公司,覆盖 CPU、GPU 和 DPU。
对于未来的发展节奏,黄仁勋表示:「我们的发展将覆盖三个产品线——CPU、GPU 和 DPU,以每两年一次更新的节奏进行,第一年更新 x86,第二年就更新 Arm。」
最后是自动驾驶。「对于 汽车 而言,更高的算力意味着更加智能化,开发者们也能让产品更快迭代。TOPS 就是新的马力,」黄仁勋说道。
英伟达将于 2022 年投产的 NVIDIA 自动驾驶 汽车 计算系统级芯片——NVIDIA DRIVE Orin,旨在成为覆盖自动驾驶和智能车机的 汽车 中央电脑。搭载 Orin 的量产车现在还没法买到,但英伟达已经在为下一代,超过 L5 驾驶能力的计算系统作出计划了。
Atlan 是这家公司为 汽车 行业设计的下一代 SoC,其将采用 Grace 下一代 CPU 和下一代安培架构 GPU,同时也集成数据处理单元 (DPU)。如此一来,Atlan 可以达到每秒超过 1000 万亿次(TOPS)运算次数。如果一切顺利的话,2025 年新生产的车型将会搭载 Atlan 芯片。
与此同时,英伟达还展示了 Hyperion 8 自动驾驶 汽车 平台,业内算力最强的自动驾驶 汽车 模板——搭载了 3 套 Orin 中心计算机。
不知这些更强的芯片和系统,能否应付未来几年里人们对于算力无穷无尽的需求。在 GTC 2021 上,英伟达对于深度学习模型的指数增长图又更新了。「三年间,大规模预训练模型的参数量增加了 3000 倍。我们估计在 2023 年会出现 100 万亿参数的模型。」黄仁勋说道。
英伟达今天发布的一系列产品,让这家公司在几乎所有行业和领域都能为你提供最强大的机器学习算力。在黄仁勋的 Keynote 发表时,这家公司的股票一度突破了 600 美元大关。
「20 年前,这一切都只是科幻小说的情节;10 年前,它们只是梦想;今天,我们正在实现这些愿景。
英伟达每年在 GTC 大会上发布的新产品,已经成为了行业发展的风向。不知在 Grace 推出之后,未来我们的服务器和电脑是否会快速进入 Arm 时代。
Ⅲ 天玑9000解开行业最难题,联发科旗舰功成,做对了三件事
文丨壹观察 宿艺
联发科终于在全球移动旗舰处理器市场“扬眉吐气”。
新发布的天玑9000 “辩笑性能全开 冷静输出”,总结关键词就是: 性能拉满、全局能效、最高制程、优势突出 。
在主要竞争对手近年来不断“挤牙膏”的状态下,天玑9000 通过“全维度”地向前跨出一大步,不仅真正具备了与新骁龙8、甚至是苹果A15正面硬抗的实力与底气,也让其成为天玑芯片迈向“ 旗舰新世代 ”的重要节点。
还有两个关键信息:
一是天玑9000 的安兔兔跑到了1031504分,是全球首个“百万跑分”旗舰5G处理器,与随后发布的新骁龙8 跑分基本相差无几,并且超过了苹果A15。考虑到天玑9000如今还没有量产机型,因此其后期的优化与提升空间会更加明显。
二是天玑9000受到了余猜来自产业顶级合作伙伴的一致认可、热捧甚至是“抢发”。要知道这在之前几乎都是高通旗舰8系处理器的标准待遇,足以印证天玑9000这颗顶级5G旗舰处理器拥有的长足突破与行业影响力。OPPO副总裁、手机产品线总裁段要辉不仅宣布了OPPO下一代Find X旗舰系列首发天玑9000,还评价称其为“旗舰手机树立全新性能标杆”;vivo 高级副总裁、首席技术官施玉坚表示“vivo 将成为率先采用天玑 9000 旗舰芯片的终端厂商”;Redmi 品牌总经理卢伟冰认为天玑9000是“史无前例的一次性能飞跃”与“最先进的‘超旗舰’SoC之一”;荣耀产品线总裁方飞赞扬天玑9000具有“超强的性能和出色的能效表现”。
天玑9000的表现已经远超行业与用户的“最好期待”,这在芯片这种已经被认为是“长期规划+渐次进化”的行业来说非常难得,联发科又是如何做到这一点的?
从某种意义上来讲,芯片性能就是顶级移动处理器的主要衡量标准之一。
长期以来,联发科旗舰处理器相比行业竞品总感觉“还有距离”。以至于全球旗舰手机芯片性能经常出现苹果A系列 高通骁龙8系列 联发科 其他芯片的情况。
天玑9000的出现打破了这一“固定排列”,其CPU采用了面向未来十年的新一代Armv9架构,以及 1 超大核 + 3 大核 + 4 能效核心的三丛集架构。其中超大核用的是 ARM 最新最强的 X2 核心,频率达到 3.05GHz;3 枚 2.85GHz的 A710 大核,4 枚 1.8GHz 的 A510 能效核。
有趣的是,全新高通骁龙8也采用了高度相似的架构方案。但从1 x3.0GHz Cortex-X2超大核+3 x2.5GHz Cortex-A710大核+4 1.8GHz Cortex-A510小核的CPU组合对比来看,天玑9000除了超大核主频稍高,在关键的3个A710大核上,天玑9000皆高出了0.35GHz的频率(2.85GHz 相比 2.5GHz),这也是用户在日常大多数场景中高频调用的主频,由此直接提升了性能。
当然,CPU性能不能只看核的数量和主频,整体部件的联动也是关键。联发科给天玑 9000的CPU性能提升准备了一大 “利器”就是目前安卓旗舰SoC里最大的缓存设计,包括8MB L3 三级缓存、6MB SLC 系统缓存(新骁龙8 只有 6MB、4MB);各个子核心都配了L2 二级缓存,分别是超大核 X2 1MB、大核各 512KB,特别是四枚能效核心,每两枚能效核心共用 512KB 的 L2 二级缓存。
实际上,包括苹果的M1系列、AMD的Zen3都采取了增大缓存和增大内存带宽的设计,这也是被业界顶级芯片企业已经证明可以有效提升性能的方案趋势。缓存的作用在于优化高速数据传输带来的“拥堵”,提升CPU 与运存之间的通讯能力,加快读取速度。换句话说,天玑9000的多层大缓存优势可以保障更快的系统响应速度与协作效率,同时也可以节省功耗。
Geekbench的测试结果对比也再次验证了这一点,数据显示天玑9000多核领先新骁龙8约13 %,其中一方面来自大核主频优势,另一方面显然来自大缓存优势,尤其是一些子项目的压强测试中对缓竖灶型存的性能要求更加敏感。从另一角度来看,“安卓苦苹果CPU性能久矣”,A15的4000+曾一骑绝尘,这次天玑9000可以说是带领安卓手机来到了4300+,顺利进入苹果A15独霸的“4000分俱乐部”。
另一个“利器”是天玑 9000支持行业最新的 LPDDR5X 内存规格,传输速度可达7500Mbps,相比新骁龙8的 LPDDR5运存数据相比带宽性能提升36%、延迟降低20%,同时功耗降也低了约20%。这意味着CPU等待内存完成读写的时间更短,在计算量相同的情况下,CPU能更早地完成计算,可以更早把频率降下来,从而变相减少了需要持续高频运作的时间。
LPDDR5X虽然目前还没有量产,但天玑 9000和新骁龙8皆是“面向2022年的旗舰处理器”,并且美光已经携手联发科在天玑9000平台上完成了LPDDR5X的验证。如果明年旗舰机型搭载了LPDDR5X,天玑9000相比新骁龙8的性能优势还将进一步拉大。
由此来看, 在天玑 9000上联发科展现出了足够老练的经验、对全局的周详思考,以及对革新趋势的准确判断,可谓“剑法精准” 。
5G进入成熟阶段,用户对旗舰智能手机的要求除了性能,同样看重发热、续航、重量与手感。
寸土寸金的5G旗舰手机,内部堆叠已经接近极限。而安卓旗舰手机近两年显然被发热问题搞怕了,以至于近两年几乎所有安卓手机旗舰发布会,都会单独划出一部分时间讲散热材料和结构,而这也已经成为“固定环节”。但用户和业界依旧不满意,在新骁龙8发布会的媒体采访环节,中国媒体最关注的问题之一,依旧还是“发热”与“能耗”。
原因在于,无论是 游戏 、影像拍摄和视频剪辑这些用户日常的高频刚需,都需要调用大量的处理器算力。手机“发烫”不仅会影响芯片寿命和电池安全,更是会带来掉频、掉帧、应用卡顿等一些列问题。
相比之下,联发科精准“对症下药”,从天玑1000之后的天玑系列芯片,共同的显著特点之一,就是“能耗优势”。在此前的媒体沟通会上,联发科高管也多次强调称:在决定天玑9000每一个部件的具体规格的时候,基本都是以“实际应用中的能效比”作为第一出发点去考量。
在此基础上,联发科在天玑9000上宣布推出“ 全局能效优化技术 ”,简单来讲就是全方位覆盖不同IP模块,从全局的角度优化CPU、GPU、APU、ISP、基带等子单元的功耗。
也就是说,“局部见真章”,每一个细节都要扣功耗优化,之后又在“全局中见功力”,通过方案与技术整合实现全局优化,最终寻找到“ 性能与功耗的最优平衡点 ”。
除了CPU提升核心频率、增大缓存、提升所支持的内存规格之外,制程工艺也是影响芯片能耗比的一大关键因素。天玑9000所采用的是目前最先进的芯片制程工艺——台积电4nm,而新骁龙8则基于三星4nm工艺打造。根据媒体报道的信息来看,三星4nm工艺的晶体管密度约为1.67亿个/mm²,它未达到上一代台积电5nm工艺1.71亿个/mm²的水平。更先进的工艺制程能在同样的大小下塞入更多的晶体管,实现同尺寸性能更强,功耗更低,优质产业链资源和不惜成本来打造旗舰的选择同样也是天玑9000实现“功耗领先”的一大底气。
天玑 9000 的 GPU 图形处理器进步也非常明显,采用了Arm 最新的旗舰 Mali-G710 MC10 十核心 GPU。ARM最新GPU架构出了性能提升,另一大优势就是可以有效降低CPU参与协同计算时的负载,数据显示相比当今的安卓旗舰,性能提升高达35%,能效增强更是达到了60%。在针对GPU的GFXBenchAztec Ruin能耗比测试中,天玑9000达到了5.12fps/W,而新骁龙8为3.84fps/W。
针对 游戏 等传统处理器的“重负载”场景,联发科为天玑 9000提供了对应的“引擎”:
HyperEngine 5.0 游戏 引擎 中的智能调控引擎的职责就是提升性能、降低功耗,能依据场景、内容和系统等维度来降低运行功耗。例如天玑 9000 支持 AI-VRS 可变渲染技术,可以自动侦测画面场景特征,来动态调整局部渲染,官方公布最高可降低 15% 功耗;智能调控引擎还会对内容进行解构,拆分成多线程并优化,提升 CPU 多核效率,最高能得到 5% 的功耗优化;智能动态稳帧技术则通过全局的温度预测决策系统,来调配各部资源以稳定 游戏 帧率,能节省 9% 功率、降低约 2 发热量、提升8fps 平均帧率,以及降低 75% 抖动率。
ISP方面, 天玑9000带来了旗舰级的Imagiq 790 图像处理器, 其采用了3 枚18bit 的 ISP,支持同时处理 3 个18Bit 的 HDR 视频、3 个三重曝光画面。重要的是,Imagiq 790运算速度大幅超出了新骁龙8,前者处理速度可达 90 亿像素每秒,而后者只有 32 亿像素每秒,二者相差高达180%。天玑9000还内置了全新AI Video视频引擎,其特点是可以有效降低视频拍摄占用带宽,让预览拥有所现即所见的低延迟表现,同时进一步降低用户拍摄时的功耗。
AI同样是天玑系列的“传统优势”,天玑9000搭载了全新的第五代APU 590,它包含了四个性能核和两个通用核,采用高能效AI架构设计,对比上代性能提升400%,同时能效提升400%,可以为智能手机的拍照、视频、流媒体、 游戏 等使用场景提供更好的高能效AI协同算力。媒体公布的测试数据显示,天玑9000在 ETH 苏黎世 AIBenchmark 的Performance测试中获得 692.5K的全场高分,是第二名 Google Tensor 的2.7倍。从这个结果可以看出,为何联发科、苹果都采用了单独硬件NPU方案,其优势之一就是在坚持强性能的同时可以更好地协同优化功耗难题。
联发科甚至把功耗磕到了5G基带上:UltraSave 2.0 省电技术进一步降低 5G 通讯的功耗,相比上一代旗舰5G轻载功耗降低32%,5G重载功耗降低 27%。
在联发科几乎“掘地三尺”地能耗优化挖潜之下,“全局能效优化技术”展现出了非常显著的性能与功耗平衡优势:测试数据显示,在90fps帧率的 游戏 重度负载场景下,功耗降低了25%,温度最低降低了9度,将用户玩 游戏 的温度在35度左右,联发科也在发布会上特意强调了“天玑9000打 游戏 不发烫”;在用户日常浏览为代表的轻负载应用中(如微信、淘宝、浏览器、看小说等),天玑9000能比2021安卓旗舰可以节省少则5-38%不等的功耗。
由此来看, “ 全局能效优化技术”的最大作用就是可以根据用户不同使用场景和负载功耗,全方位地调动不同IP模块,在本已“功能挖潜”的基础上再次完成优化协同的异构计算,避免了CPU、GPU、ISP等各个模块各自为政的问题 ,从而达到性能最大化和功耗最小化的“超预期”表现。
毫无疑问, 天玑9000是联发科史上最强的SoC,也是当今安卓平台综合最强、能耗比最高的 5G SoC,没有之一。
谁最了解5G旗舰处理器的性能?在中国手机市场皆历经十年以上惨烈竞争的TOP手机品牌绝对都是“老司机”。
根据联发科公布的信息,采用天玑9000旗舰移动平台的终端将于2022年第一季度上市。
从目前来看,各主要TOP国产手机品牌的热情已经被点燃:
OPPO副总裁、手机产品线总裁段要辉评价天玑9000为“旗舰手机树立全新性能标杆”,并在第一时间宣布“下一代Find X旗舰系列将首发搭载天玑9000旗舰平台”。
vivo高级副总裁、首席技术官施玉坚表示:“vivo将成为率先采用天玑9000旗舰芯片的终端厂商,未来双方还将不断突破,为用户带来更多惊喜”。
Redmi 品牌总经理卢伟冰更是称赞天玑9000“是目前最先进的‘超旗舰’SoC之一”,也是“K50宇宙不可或缺的关键性能拼图”。
荣耀产品线总裁方飞则认为“天玑9000作为新一代旗舰5G移动平台,具有超强的性能和出色的能效表现”,“未来将跟荣耀的新产品进一步的深入合作,为消费者打造更加极致创新的体验”。
上述四大品牌市场份额占据了国内手机市场近80%,如此积极的表达与产品跟进策略足以印证了天玑9000接下来在中国高端旗舰市场的爆发冲击力。
从2019年底发布天玑1000至今,联发科用了两年时间的奔跑与创新终于如愿站上了“移动旗舰芯片之巅”。在这个过程中,联发科至少做对了三件事情,可谓是聚全力而破局,绝非偶然:
首先,是精准洞察大众用户需求,加强消费型品牌打造。 手机行业竞争到今天,芯片企业并非是传统的“ToB角色”,而是必须转变自身定位,从深度洞察大众用户需求与偏好,通过品牌互动影响大众用户,加速打造高端品牌势能,来反推合作伙伴的重视、支持与投入。
平心而论,过去十年在芯片品牌打造上最好的厂商是高通,骁龙品牌的高端形象已经深入大众手机用户,不仅手机厂商争抢首发,作为国内最大线上3C销售平台的京东甚至还推出了“骁龙专区”。而联发科在之前的多次磨砺之后,通过吸取经验教训如今终于建立了天玑品牌的高端化势能。京东在此次天玑9000发布会上也宣布与联发科共同开启京东“天玑旗舰店”。京东通讯事业部总经理潘海帆对此表示:“近三年来,我们携手手机品牌联合发布了近百款搭载天玑芯片的终端产品,让更多消费者体验到了天玑高端旗舰产品的强劲性能,这些产品也得到了消费者的认可喜爱”。
对于联发科而言,在性能“破局”同时,品牌高端化的“破局”同样至关重要。 芯片高端化这条路,决定权一定要掌握在自己手里 。
第二,是深入洞察客户需求 。这一点是联发科自3G以来就一直具备的显著优势,5G时代联发科推出了天玑5G开放架构,可以联合终端厂商通过深度协同合作,合力为用户带来更具差异化的智能手机体验,这一点在天玑1200上已经获得了合作伙伴的充分认可,并表现出了良好的拓展性。如今天玑9000被主要TOP手机合作伙伴热捧也再次印证了这一点。
值得关注的是,除了硬件企业,包括索尼半导体、三星图像传感器、腾讯 游戏 、抖音,以及Discovery 探索 传媒集团等核心产业链企业、互联网厂商和诸多跨界专业人士也参加了此次发布会,联发科的“顶级朋友圈”不断扩大,一方面可以更多维度去接触不同圈层的细分用户需求,另一方面也为产业合作伙伴的聚合创新提供了更多空间与可能性。如Discovery三位导演及专业摄影师将使用天玑芯片的5G手机,前往极端的环境,捕捉最难拍摄的瞬间,为全球用户阐述 科技 创新如何改变影像对生活与探险的记录方式。
第三,是努力了解运营商5G部署技术趋势与市场节奏,避免“踏错点 ”。关于这个问题,大多数芯片和手机企业都深有体会,也包括联发科,尤其是在4G部署中期的节奏误判导致了之后的一系列连锁反应。但从5G开始,联发科再次回归到“正确的节奏”与“熟悉的打法”。
中国信息通信研究院移动通信创新中心副主任徐菲对此表示:联发科是最早参与国内5G SA技术试验完整测试的芯片厂商之一,并在2021年推出全新一代3GPP R16版本的M80 5G Modem,成为中国5G技术和市场进一步升级的重要驱动力。三大运营商也派相关负责人参加了天玑9000发布会,中国移动终端公司副总经理汪恒江透露“联发科已是中国移动市场第一大5G芯片供应商”。
根据Counterpoint的数据显示,在2021年第三季度全球智能手机处理器市场(按出货量计算),联发科的市场份额达到了40%,远超第二名的高通(27%),已经连续五个季度站稳全球第一大智能手机芯片厂商位置。其中天玑系列5G手机芯片在中国市场的成功至关重要。数据显示,在2021年的中国智能手机芯片(4G+5G)市场联发科拿到了高达41%的市场份额,在中国的5G智能手机芯片市场也是拿到了高达40%的市场份额。
Counterpoint最新发布的报告中预测了三个数据:2022年全球智能手机市场5G渗透率将达到55%,预计出货量将达到8亿;2022年7nm及以下先进制程芯片的出货占比将达到57%,其中5/4nm芯片的份额将达到29%;到2023年配备独立AI核心的智能手机芯片占比将快速提升到75%, 消费者将“更关注AI与能效”,显然联发科旗舰功成,在这两项上也让行业看到了先进的技术实力和前瞻布局。
芯片是一个典型的长周期、重投入、节奏稳定的行业,这意味着持续踏准创新节奏与技术趋势、并建立引领实力的企业可以获得持续的行业引领力与市场红利。在5G长达十年的重要技术与市场重构周期,联发科已经奠定了这一优势,未来两年联发科在5G智能手机市场的份额将进一步提升,特别是旗舰芯片市场将会获得持续稳定突破,两者对于联发科的意义都非常重要。
《壹观察》认为,一个“更好的联发科”会使整个产业获益:对于手机厂商而言可以获得更多的产品组合与差异化体验打造选择,对于竞争对手而言也有助于摆脱其他芯片企业“挤牙膏”的习惯,共同为用户提供迭代速度更快、更加富有创造力的智能终端产品,从而加速整个产业走向焕新与创新的正向循环。
Ⅳ Arm发布CortexA715,以及具备硬件光追的Immortalis-G715
Arm发布了一系列新的芯片内核架构,包括了三款基于Armv9的CPU,以及三款GPU,其中包括Arm首个具有硬件光线追踪加速功能的旗舰GPU。Arm希望新的内核架构能提升设备的性能,以及延长电池续航时间。
Cortex-X3和Cortex-A715属于Cortex-X2和Cortex-A710的升级版本,都是64位核心。此外,Arm在Cortex-X3和Cortex-A715上都放弃了AArch32指令集,这意味着全面转向64位架构。如果客户仍需要兼容AArch32指令集,可选用Arm这次推出的A510 v2版来提供支持。
Cortex-X3相比Cortex-X2性宽消能提高了22%,IPC提升了11%;Cortex-A715与Cortex-A710,在相同的功率水平和制造工艺下,性能提高了5%,能效渗亩提高了20%;A510 v2版通过优化能效,使得同性能下功耗降低了5%,频率可提高5%。Arm表示,Cortex-A715已经达到了Cortex-X1的性能水平,与改进型的小核搭配,对于中端处理器而言会有较大的帮助。
这次Arm还推出了名为“Immortalis”的全新旗舰GPU,不再局限于Mali系列,后者是迄今为止全球出货量最大的GPU,已达到80亿个。Immortalis是专门为旗舰智能手机设计丛巧森的,设计核心就是为了提供卓越的 游戏 体验,其中一项关键功能就是加入了光线追踪。去年Arm已经在Mali-G710上提供了基于软件的光线追踪功能,而这次Immortalis-G715则是第一款在移动设备上提供基于硬件光线追踪功能的Arm GPU。据Arm介绍,Immortalis可以有10到16个内核,相比上一代产品会有15%的性能提升。
此外,Arm还推出了Mali-G715和Mali-G615,前者具有7到9个内核,后者内核数量则是6个或更少。Arm称,Immortalis-G715、Mali-G715和Mali-G615将构成其新的GPU产品线,推动下一代移动设备的性能提升。
我们最快在年底就能看到采用新内核的Arm芯片,应该会出现在下一代SoC上。
Ⅳ 深度解读ARM新架构:大核进取、小核摆烂
众所周知,对于如今的绝大多数的智能手机、平板电脑,以及部分笔记本电脑产品来说,ARM可以说是“一切的源头”。高通与三星的SoC近年来一直使用着ARM公版的CPU设计,而被公认“翻身”了的联发科,则靠的是ARM公版的CPU与GPU架构,甚至就连一向标榜“自研”的苹果,实际上也离不开ARM的基础指令集授权。
正因如此,当ARM方面在2022年6月28日晚间,毫无预兆地突然发布了全新一代的架构方案后,自然也值得我们去进行进一步的分析。
性能概况:大核更强、中核更省,GPU加入硬件光追
开门见山,我们先直接为大家带来ARM这一代新架构的性能相关信息。并且非常令人感叹的是,ARM此次在公布新老架构性能对比数据时居然不再“玩巧”,事实上,他们给出了可能是史上最详细的性能对比参数。
首先,是全新的Cortex-X3大核。在使用了完全相同半导体制程、主频和缓存码肆腊设计的前提下,Cortex-X3的性能比Cortex-X2可以提升11%。
在使用完全相同半导体制程,但主频和缓存设计按照新老架构的不同典型值做对比时,Cortex-X3的性能比Cortex-X2可提升22%。
如果再考虑到制程方面的因素,比如假设Cortex-X3采用新的台积电3nm工艺情况下,此时对比采用台积电4nm工艺、且主频与缓存采用现有设计的Cortex-X2时,那么新架构的性能领先幅度则会达到25%。
其次,是改进型的Cortex-A715中核,在使用相同半导体制程、相同主频和缓存设计的前提下,新的中核性能相比老设迟滑计仅有5%的提升,但请注意,此时的能效会比老架构高出20%。也就是说其实际功耗此时为Cortex-A710的87.5%,在性能略微提升的前提下省电了12.5%,算是比较明显的进步了。
相比于大核与中核的显著改进,新架构里Cortex-A510小核的改进就比较微妙了。一方面,正如其名称所示的那样,此次的新版小核还是叫做“Cortex-A510”,连名字都没变。但另一方面,要说它完全没改又不太对,因为新版的小核功耗比老版本下降了5%,同时更为重要的是,其此次加上了对32位应用的兼容性。
但请注意的是,这个兼容性功能是可选特性,并非标配。选配后是有可能会给性能带来负面影响的,但具体影响有多少,ARM方面并没有明确。
除了新版的CPU,ARM此次也同期发布了换代的GPU方案。这一次,新的GPU设计被分为了三档,分别是“顶配”的Immortalis(不朽)-G715、中配的Mali-G715,以及入门级的Mali-G615。
与本世代的Mali-G710和Mali-G610相比,新架构首先带来了15%的基础效率提升(而且是不考虑制程增益的情况下),其次还支持了VRS可变着色率技术,能够在部分高刷 游戏 中显著降低渲染负载、对于XR应用也有很大的意义。
不仅如此,作为ARM的全新旗舰GPU产品,Immortalis-G715更是首次引入了硬件光线追踪单元。根据ARM方面的说法,硬件光追单元在GPU核心中仅占据了4%的面积,但其相比Mali-G710采用的软件光追设计却能够带来300%以上的性能提升。考虑到真正支持Mali-G710光追效果的 游戏 至今尚未上市,所以ARM的这番表述属实是“背刺”自己了。
架构分析:大核更大、中核做减法,小核原地踏步
讲完了新架构的性能参数变化,接下来我们就进入按惯例的架构分析环节,来看看ARM到雹李底是如何实现这些改进的。
首先是全新的大核Cortex-X3,它的改动无疑是此次新架构中最大的。其包括了比前代大10倍的L0 BTB(分支目标缓冲区)和大50%的L1 BTB,这意味着大幅提高的分支预测性能。根据官方的说法,Cortex-X3的分支预测延迟降低了12.2%,预测错误率降低了6%,同时减少了3%的前段停顿。由于分支预测性能大为提升,因此Cortex-X3的mop(微操作)缓存现在可以做得更小,同时流水线长度也进一步下降。
这还没完,与Cortex-X2相比,Cortex-X3的指令缓存提取宽度现在从5增加到了6、算术逻辑单元从4个增加到了6个,同时乱序窗口也进一步增大。而在后端部分,新架构的加载/存储宽度也增加了50%,并增多了数据预取引擎的数量。
更强的分支预测性能,更宽的执行窗口、更短的流水线级别,更快的存取速度,有没有觉得很眼熟?没错,这个改进方向,其实就是多年前已被Intel从奔腾4到酷睿的革新时,所证明的有效路径,只不过ARM如今将其在RISC处理器上“复刻”了一遍。
相比于Cortex-X3的锐意进取,Cortex-A715与(新版)Cortex-A510的改变就相对没有那么大了。其中,Cortex-A715的改进主要来自于放弃对32位指令集的支持,从而大幅简化了指令解码器的设计,空出更多的晶体管位置来提高了缓存大小。而Cortex-A510的变化则更是语焉不详,现在只知道它具备了可选的32位支持、同时功耗略微下降而已。
与CPU部分(特别是大核心)的改动相比,ARM此次的新GPU变化显得就不是那么显著了。一方面,无论是Immortalis-G715、Mali-G715,还是Mali-G615,它们其实都是共享的相同架构设计(只是Immortalis-G715内部多了硬件光追电路),主要区别还是在于核心数量上做了明确限制。
另一方面,与现有的Mali-G710相比,新款GPU在基础架构上将FMA乘加单元的数量翻了一倍,设计了用于抗锯齿的新型FP16计算单元。同时根据ARM方面的说法,新的GPU“在重负载场景下”的三角形生成率为现有的3倍,纹理映射速度是现有的2倍。不过,暂时还并不清楚这个倍数是来自底层架构的改进,还是来自于核心数量或频率的提升,因此仅仅做个参考就好。真正的GPU性能提升幅度,还得等到实际产品上市后才能有定论。
市场分析:ARM笔记本或将兴起,入门手机也有望翻身
值得一提的是,在发布新一代产品线的同时,ARM还给自家的软硬件方案起了一个新的名字,叫做“Arm Total Compute Solutions(直译为ARM整体计算解决方案)2022”,缩写为ARM TCS22。同时,ARM方面也将去年发布的上代架构随之“整合”为ARM TCS21,并同时预告了明年(TCS23)和后年(TCS24)的产品命名。
这意味着什么呢?从这个举动中,我们至少可以挖掘出两条信息点。一是ARM似乎并不打算用新架构完全取代上一代的产品线,Cortex-X2、A710和A510得到“重命名”或意味着它们的授权还将继续。
但更进一步来说,ARM从TCS21到TCS22的变化,以及目前官方已经“剧透”的TCS23和TCS24不难发现,一方面ARM在TCS22(也就是这一代的新架构上)删除了中核(Cortex-A715)对32位计算的支持,同时为“新版的”Cortex-A510小核增加了“可选的”32位计算功能。
另一方面,在TCS23和TCS24的预告图里可以清楚地看到,接下来的两年里,ARM每年都会更新大核与中核设计,但小核却只会在2023年迎来一次换代,2024年则是不更新、直接沿用。
与此同时,在此次TCS22官方“样板设计”中,ARM不仅将新架构支持的最大核心数量从8核扩展到了12核,而且还给出了多个以大核、中核为主的组合方案,甚至出现了完全不采用A510小核,仅由大核与中核构成的“超高性能设计”。
这或许意味着,ARM“仗着”新架构,特别是大核(Cortex-X3)、中核(Cortex-A715)性能与能效比的显著改善,明显在有意将其往更高的市场定位上推。或许,未来我们就会看到更多基于ARM新架构的笔记本电脑SoC方案了。
其实回溯 历史 不难发现,此前的Cortex-A53架构用了四年(2014-2017)才换代,而Cortex-A55架构更是“坚挺”了至少五年(2018-2022)之久。相比之下,去年的“初版”Cortex-A510架构因为完全不兼容32位代码,其实并不适合入门级设备与其他低功耗设备使用。
如此一来,今年的“新版”Cortex-A510实际上才是ARM v9指令集下,第一款真正可以用于入门级设备的低功耗CPU架构设计。而最快到明年,它就将会被更新的架构所取代。
换句话来说,面对如今智能手机市场高端产品大放光彩、而入门级设备却销量萎缩的局面,ARM一方面通过新的大核、中核为新旗舰注入了体验继续进步的动力,另一方面也史无前例地针对低端市场进行了“补救”。
或许在不久后,我们就会看到基于(新版)Cortex-A510架构,体验明显更加靠谱的入门级主控,或是性能与能效比都大幅进步,总算能与苹果掰掰手腕的Android智能手表平台了。
Ⅵ 请问现在ARM架构的CPU和GPU相当于电脑什么等级的CPU和显卡有没有相当于512M显存的十分感谢!
ARM架构(过去称作进阶精简指令集机器(Advanced RISC Machine),更早称作Acorn RISC Machine)是一个32位元精简指令集(RISC) 中央处理器(processor)架构,其广泛地使用在许多嵌入式系统(embedded)设计。由于节能的特点,ARM处理器非吵饥仔常适用于移动通讯领域,符合其主要设计目标为低耗电的特性。
ARM架构 有很多型号的 特定的应用上面 都不一样的 具体要什么型号的才能 有具体升汪的参数
还有 显存只是显卡的肢前一个方面 不能只以显存 来衡量显卡
Ⅶ Arm现在的NPU能达到自动驾驶L3级别的算力吗
自动驾驶L3级别算力基本上主要以CPU+GPU/NPU为主, 一般来说CPU用Cortex A核去堆,8-16个,看系统有多大, 在这个部分可以提供200K以上的DMIPS。L3入门级芯片通过GPU/NPU提供额外几十TOPS左右的算力,向上通过堆叠GPU可以达到几百TOPS, 量产芯片这种架构较多,相对成熟。NPU方案,ARM方面可以通过周易NPU来堆叠,Arm还有ML IP,后续在车里也可能会应用。 量产的平台上还有用CPU加FPGA和ASIC电路等,有很多方案实现异构计算平台的。对L3系统来说硬件的算力也不是绝对的,需要和算法等搭配。
Ⅷ 怎么编程实现使用ARM处理器上的GPU进行工作
写@Comzyh邀请。
曾经对ARM板子铅乱厅上GPU计算有过一些调查,一般就分两种方式:
1. OpenCL:需要芯片的支持,以及制造商提供相应的SDK和驱动(可能较为困难)。
2. OpenGLES:将所需要的计算打包转换成shader渲染操作。
这两种方式上述回答都有提到。此外,不使用GPU的话槐隐,可以考虑使用陪拍ARM上的NEON指令集,根据实现姿势不同会有常数倍的速度提升。