A. 美国不遗余力限制我国算力发展,GPU国产替代如何才能突破
美国对华算力限制:挑战与机遇并存,国产替代之路如何破局?
在全球科技竞争的舞台上,美国对中国芯片特别是GPU领域的限制日益严峻。2022年和2023年的禁令瞄准高性能GPU,背后是对中国在人工智能领域追赶速度的深深忧虑。尽管国产GPU在游戏加速和渲染市场中的份额仅占可怜的2%,但芯动科技、摩尔线程科技等企业的产品性能正逐渐逼近国际巨头Nvidia和AMD的水准。
然而,面对AI加速卡市场的巨头垄断,国产企业在这一领域面临着巨大的挑战。NVIDIA凭借其深厚的技术积累和极高的市场份额占据主导地位。上海交通大学梁晓峣教授团队的存算一体AI芯片理念,为提升单芯片算力提供了新的可能,但数据传输瓶颈和资源利用率问题仍需系统集成来解决。亿铸科技提出的“存算一体超异构”构想,通过融合不同架构,兼顾高性能与通用性,有望成为未来技术发展的主流趋势,AMD也在系统级创新上展现出类似的战略眼光。
尽管面临技术壁垒,国内企业在存算一体和超异构计算技术上已积累了坚实的基础,这为国产GPU在AI领域的崛起增添了信心。面对英伟达新品受阻的市场现状,国内科技巨头如阿里、腾讯正在寻找国产替代方案,华为等企业则通过自主研发,推动国产GPU的替代进程渐入佳境。实际上,美国的出口管制反而是中国半导体产业国产化进程的催化剂,华为、寒武纪等企业正借此契机,积极寻求长期的技术突破。
总的来说,虽然美国的限制带来了压力,但国内企业在AI算力芯片领域正逐步走出一条独特的道路。未来,随着技术的不断进步和市场需求的增长,国产GPU的替代之路将愈发清晰,挑战与机遇并存,国产力量有望在激烈的竞争中崭露头角。
B. 郑纬民院士:人工智能算力基础设施的设计、评测与优化
2022年10月22日,由中国人工智能学会主办的“智行中国”系列论坛启动仪式暨第一期“迈向教育科学研究新范式”线上论坛成功举办,郑纬民院士应邀做主题报告。
报告以《人工智能算力基础设施的设计、评测与优化》为题,从“AI+系统”的视角,深入探讨了AI算力研究的现状与未来。报告被划分为五个主要部分:AI算力及其基础设施的重要性、AI算力基础设施的架构设计、AI算力评测方法和优化、百万亿参数超大规模预训练模型加速实例以及系统人才培养经验。
在阐述AI算力基础设施的重要性时,报告指出AI算力对于中美科技竞争的关键作用以及其在推动经济发展和科技创新中的重要地位。报告分析了AI算力在中美科技竞争背景下的地位,并通过中美两国在AI领域的优势对比,强调了构建AI算力基础设施的重要性。
随后,报告深入讨论了AI算力基础设施的架构和平衡设计。报告首先分析了现有HPC算力体系与AI算力需求的差异,从而阐述了构建AI算力体系的必要性。接着,报告提出设计AI算力系统时需要遵循的技术要素和系统平衡性原则,以确保系统设计能够满足AI算力的特殊需求。
关于AI算力的评测方法,报告强调了评测程序在AI领域的重要性及其与传统高性能计算测试结果的差异。报告提出了AI算力评测(AIPerf)机制的四个目标,包括实现统一分数、可变的问题规模、具有实际人工智能意义以及包含必要的多机通信。最后,报告通过设计完善的AIPerf机制,提供了AI算力评测的流程。
报告还以百万亿参数超大规模预训练模型的训练为例,深入探讨了AI算力基础设施的设计、构建、测试和优化。报告指出,随着模型规模的扩大,预训练模型的计算核心为Transformer模型,并强调了并行训练技术在加速训练过程中的重要性。报告还提出了在国产高性能计算机上训练超大规模预训练模型时面临的四个关键系统挑战,并提出了相应的解决方案。
此外,报告还分享了系统人才培养的经验和成果,指出人工智能算力是当前人工智能领域发展的关键,并强调了加快AI算力基础设施构建以及系统方面人才培养的重要性。
报告最后强调,构建AI算力基础设施对于推动社会发展和培养一流创新人才至关重要。报告由中国人工智能学会发布,旨在促进学术交流和思考。
报告的演讲者郑纬民院士,中国工程院院士,清华大学计算机系教授,长期从事高性能计算机体系结构、并行算法和系统研究。他曾在多项科研项目中获得重要成果,包括在存储系统扩展性理论与方法、高性能存储系统结构及轻量并行的扩展机制、高容错纠删码轻量编码方法及数据快速自愈模型等方面的研究。他参与的科研成果曾获得国家科技进步一等奖、二等奖以及国家技术发明二等奖等荣誉。
C. 清华大学集成电路学院院长吴华强教授:基于忆阻器存算一体芯片的研究进展
基于忆阻器的存算一体技术,成为学术界和产业界的焦点。清华大学集成电路学院院长吴华强教授在创新智能芯片,共筑未来航天学术会议上,以《基于忆阻器存算一体芯片的研究进展》为题,深入探讨了这一变革性技术。
吴华强教授指出,计算驱动集成电路技术的发展面临着三大难题:存储墙、功耗墙与面积墙。存算分离的传统架构导致了存储墙问题,进而引发了功耗墙与面积墙,这些问题限制了算力的持续增长。面对人工智能算法模型对计算芯片的巨大挑战,美国半导体行业协会 SIA 强调了当前计算耗能增长速度对全球总能量增长速度的限制,指出未来需要新的计算范式。
为突破高算力发展的瓶颈,未来集成电路将通过计算范式、芯片架构与集成方法的创新,克服存储墙、功耗墙与面积墙。吴华强教授提出,Chiplet 异质集成可以提高晶体管数量,存算一体技术可以提升每单位器件的算力,而可重构异构计算架构则能提高算力的扩展性。
忆阻器存算一体芯片开启高性能计算新范式。这种芯片由传统的冯诺依曼架构转向存算一体架构,以应对AI算法对算力需求的爆炸式增长。AI算法的算子集中性与忆阻器阵列契合度高,且AI算法中比特精确性与系统精确性的差异为忆阻器模拟计算提供了重要机遇。
近十年来,忆阻器存算一体技术研究从器件与阵列演示发展至原型芯片与系统,学术界与产业界对此高度关注。吴华强教授分享了清华大学在该领域的研究进展,包括国际首颗全系统集成的忆阻器存算一体芯片,以及国际首款多阵列忆阻器存算一体系统。此外,清华大学与斯坦福大学等合作,通过软硬件跨层次协同优化,实现了多核、可重构的忆阻器存算一体芯片。
总结与展望部分,吴华强教授强调,基于忆阻器的存算一体变革性技术将带来计算系统底层器件与编译器层面的改变,实现新计算机系统,同时显著提高能效与单芯片算力。这项技术的前景广阔,未来潜力巨大。
D. 魏少军:智能化助力半导体产业发展
半导体与计算机相伴,推动全球经济持续发展。
在2023年11月23日的中国临港国际半导体大会上,魏少军教授,中国半导体行业协会IC设计分会理事长、清华大学集成电路学院教授,发表了《智能化助力半导体产业发展》的主题演讲。
演讲分为四部分:人工智能延伸认知能力、计算技术推动产业成长、全球产业格局变化、智能化支持中国自立自强。
人工智能延伸认知能力
魏教授指出,人类经历了三轮智能化浪潮。第一次在1946年,通用计算装置出现,具备计算、数据存储与检索能力;第二次在1990年,通用推理装置出现,具备逻辑判断能力;第三次在2017年,机器学习装置出现,具有分类与识别能力。
在第三轮智能化浪潮中,研究取得重大突破,如谷歌的DeepMind在人脸识别、语音识别领域超越人类,错词率低至5.9%。人工智能在认知能力上超过人类。
人类正进入智能化时代,信息革命延伸感官能力,智能化革命延伸大脑能力。
人工神经网络
魏教授回顾了人工神经网络概念的提出。1943年,沃伦·麦卡洛克和沃尔特·皮茨合作,对大脑神经元建模,产生了影响世界的神经网络。后来,David Hubel发现人类视觉处理机制,激发了对于神经系统更深层次的思考。
魏教授表示,人工智能主要分为类脑计算与深度学习。类脑计算采用存内计算架构,提升深度学习算法效率。深度学习通过算法、数据与算力,逐层学习特征表达,实现对输入的更好表达。
深度神经网络与深度学习是人工智能的重要分支,开创者包括约书亚·本希奥、杰弗里·欣顿与杨立昆。
计算技术推动产业成长
过去几十年,人类经历了从科学计算、个人计算、移动计算、云计算到智能计算的时代。
智能计算时代与人工智能紧密相关,需要强大的计算引擎,具备适应各类应用、计算与存储密集型应用与高效处理边缘计算的特点。
人工智能芯片面临算法演进与统一算法挑战。英伟达GPU因其算力大与通用性受到欢迎。
高性能计算进入E级时代,超算速度与能耗成为关键问题。
魏教授提出,现有计算芯片架构难以适应下一代计算需求,呼唤新的计算芯片架构。
新的计算芯片架构
魏教授展示了硬件与软件可编程性的架构图,指出CPU等处理器位于第一象限,ASIC等专用集成电路在第三象限,FPGA等可编程逻辑器件在第四个象限。第二象限的新型架构需具备通用性、灵活性与先进工艺。
软件定义芯片技术是替代ASIC与FPGA的新型电路架构,有望为中国集成电路设计业实现技术路线的超越。
全球产业格局变化
半导体成为地缘政治博弈焦点。美国、欧盟、韩国、日本各自推动《芯片法案》,全球市场分割,产业化进程受阻。
智能化支持中国自立自强
中国在人工智能领域具有优势,5G与AI推动集成电路技术进步,满足全球经济发展需求。中国在半导体行业的发展将更好地满足人类需求。
E. 中国确立算力新里程碑
中国确立算力新里程碑介绍如下:
中国确立算力新里程碑是量子计算原型机“九章三号”问世。
“我们研制了基于光纤时间延迟环的超导纳米线探测器,首先把多光子态分束到不同空间模式,然后通过延时把空间转化为时间,实现了准光子数可分辨的单光子探测系统。”研究团队成员、中国科大教授陆朝阳说,这些创新使团队首次实现了对255个光子的操纵能力,极大提升计算的复杂度。
根据业界公开发表的最优经典精确采样算法,“九章三号”处理高斯玻色取样的速度比“九章二号”提升一百万倍,“九章三号”1微秒可算出的最复杂样本,当前全球最快的超级计算机“前沿”(Frontier)约需200亿年。
10月11日,国际知名学术期刊《物理评论快报》发表了该成果。
据悉,未来的通用型量子计算机可望在密码破译、天气预报、材料设计等领域发挥作用,目前的“九章三号”还只是具有潜在应用价值的“单项冠军”。
潘建伟团队表示,期待这次突破能激发科学界更多关于经典算法模拟的研究,解决各种科学和工程挑战,加快实现通用型量子计算机。