① 算力可贵,效率价高:智算中心凭啥是筑基新基建的最优解
在“新基建”浪潮下,人工智能正成为经济增长的新引擎,各行各业开启智能化升级转型。算力在其中扮演了重要角色,是国家未来竞争力的集中体现。但事实是,在发展的过程中,高速增长的海量数据与更加复杂的模型,正在为算力带来更大的挑战,主要体现为算力不足,效率不高。
算力诚可贵:数据、算法需要更多算力支撑
众所周知,在人工智能发展的三要素中,无论是数据还是算法,都离不开算力的支撑,算力已成为人工智能发展的关键要素。
IDC发布的《数据时代2025》报告显示,2018年全球产生的数据量为33ZB (1ZB=1万亿GB),到2025年将增长到175ZB,其中,中国将在2025年以48.6ZB的数据量及27.8%的占比成为全球最大的数据汇集地。
另据赛迪顾问数据显示,到2030年数据原生产业规模量占整体经济总量的15%,中国数据总量将超过4YB,占全球数据量30%。数据资源已成为关键生产要素,更多的产业通过利用物联网、工业互联网、电商等结构或非结构化数据资源来提取有价值信息,而海量数据的处理与分析对于算力的需求将十分庞大。
算法上,先进模型的参数量和复杂程度正呈现指数级的增长趋势。此前 Open AI 发表的一项研究就显示,每三到四个月,训练这些大型模型所需的计算资源就会翻一番(相比之下,摩尔定律有 18 个月的倍增周期)。2012 至 2018 年间,深度学习前沿研究所需的计算资源更是增加了 30 万倍。
到2020年,深度学习模型对算力的需求达到了每天百亿亿次的计算需求。2020年2月,微软发布了最新的智能感知计算模型Turing-NLG,参数量高达到175亿,使用125POPS AI计算力完成单次训练就需要一天以上。随后,OpenAI又提出了GPT-3模型,参数量更达到1750亿,对算力的消耗达到3640 PetaFLOPS/s-day。而距离GPT-3问世不到一年,更大更复杂的语言模型,即超过一万亿参数的语言模型SwitchTransformer即已问世。
由此可见,高速增长的海量数据与更加复杂的模型,正在给算力带来更大的挑战。如果算力不能快速增长,我们将不得不面临一个糟糕的局面:当规模庞大的数据用于人工智能的训练学习时,数据量将超出内存和处理器的承载上限,整个深度学习训练过程将变得无比漫长,甚至完全无法实现最基本的人工智能。
效率价更高:环境与实际成本高企,提升效率迫在眉睫
在计算工业行业,有个假设是“数字处理会变得越来越便宜”。但斯坦福人工智能研究所副所长克里斯托弗•曼宁表示,对于现有的AI应用来说却不是这样,特别是因为不断增加的研究复杂性和竞争性,使得最前沿模型的训练成本还在不断上升。
根据马萨诸塞大学阿默斯特校区研究人员公布的研究论文显示,以常见的几种大型 AI 模型的训练周期为例,发现该过程可排放超过 626000 磅二氧化碳,几乎是普通 汽车 寿命周期排放量的五倍(其中包括 汽车 本身的制造过程)。
例如自然语言处理中,研究人员研究了该领域中性能取得最大进步的四种模型:Transformer、ELMo、BERT和 GPT-2。研究人员在单个 GPU 上训练了至少一天,以测量其功耗。然后,使用模型原始论文中列出的几项指标来计算整个过程消耗的总能量。
结果显示,训练的计算环境成本与模型大小成正比,然后在使用附加的调整步骤以提高模型的最终精度时呈爆炸式增长,尤其是调整神经网络体系结构以尽可能完成详尽的试验,并优化模型的过程,相关成本非常高,几乎没有性能收益。BERT 模型的碳足迹约为1400 磅二氧化碳,这与一个人来回坐飞机穿越美洲的排放量相当。
此外,研究人员指出,这些数字仅仅是基础,因为培训单一模型所需要的工作还是比较少的,大部分研究人员实践中会从头开发新模型或者为现有模型更改数据集,这都需要更多时间培训和调整,换言之,这会产生更高的能耗。根据测算,构建和测试最终具有价值的模型至少需要在六个月的时间内训练 4789 个模型,换算成碳排放量,超过 78000 磅。而随着 AI 算力的提升,这一问题会更加严重。
另据 Synced 最近的一份报告,华盛顿大学的 Grover 专门用于生成和检测虚假新闻,训练较大的Grover Mega模型的总费用为2.5万美元;OpenAI 花费了1200万美元来训练它的 GPT-3语言模型;谷歌花费了大约6912美元来训练 BERT,而Facebook针对当前最大的模型进行一轮训练光是电费可能就耗费数百万美元。
对此,Facebook人工智能副总裁杰罗姆•佩森蒂在接受《连线》杂志采访时认为,AI科研成本的持续上涨,或导致我们在该领域的研究碰壁,现在已经到了一个需要从成本效益等方面考虑的地步,我们需要清楚如何从现有的计算力中获得最大的收益。
在我们看来,AI计算系统正在面临计算平台优化设计、复杂异构环境下计算效率、计算框架的高度并行与扩展、AI应用计算性能等挑战。算力的发展对整个计算需求所造成的挑战会变得更大,提高整个AI计算系统的效率迫在眉睫。
最优解:智算中心大势所趋,应从国家公共设施属性做起
正是基于上述算力需求不断增加及所面临的效率提升的需要,作为建设承载巨大AI计算需求的算力中心(数据中心)成为重中之重。
据市场调研机构Synergy Research Group的数据显示,截至到2020年第二季度末,全球超大规模数据中心的数量增长至541个,相比2015年同期增长一倍有余。另外,还有176个数据中心处于计划或建设阶段,但作为传统的数据中心,随之而来的就是能耗和成本的大幅增加。
这里我们仅以国内的数据中心建设为例,现在的数据中心已经有了惊人的耗电量。据《中国数据中心能耗现状白皮书》显示,在中国有 40 万个数据中心,每个数据中心平均耗电 25 万度,总体超过 1000 亿度,这相当于三峡和葛洲坝水电站 1 年发电量的总和。如果折算成碳排放则大概是 9600 万吨,这个数字接近目前中国民航年碳排放量的 3 倍。
但根据国家的标准,到2022年,数据中心平均能耗基本达到国际先进水平,新建大型、超大型数据中心的 PUE(电能使用效率值,越低代表越节能)达到 1.4 以下。而且北上广深等发达地区对于能耗指标控制还非常严格,这与一二线城市集中的数据中心需求形成矛盾,除了降低 PUE,同等计算能力提升服务器,尤其是数据中心的的计算效率应是正解。
但众所周知的事实是,面对前述庞大的AI计算需求和提升效率的挑战,传统数据中心已经越来越难以承载这样的需求,为此,AI服务器和智算中心应运而生。
与传统的服务器采用单一的CPU不同,AI服务器通常搭载GPU、FPGA、ASIC等加速芯片,利用CPU与加速芯片的组合可以满足高吞吐量互联的需求,为自然语言处理、计算机视觉、语音交互等人工智能应用场景提供强大的算力支持,已经成为人工智能发展的重要支撑力量。
值得一提的是,目前在AI服务器领域,我们已经处于领先的地位。
近日,IDC发布了2020HI《全球人工智能市场半年度追踪报告》,对2020年上半年全球人工智能服务器市场进行数据洞察显示,目前全球半年度人工智能服务器市场规模达55.9亿美元(约326.6亿人民币),其中浪潮以16.4%的市占率位居全球第一,成为全球AI服务器头号玩家,华为、联想也杀入前5(分别排在第四和第五)。
这里业内也许会好奇,缘何中国会在AI服务器方面领跑全球?
以浪潮为例,自1993年,浪潮成功研制出中国首台小型机服务器以来,经过30年的积累,浪潮已经攻克了高速互联芯片,关键应用主机、核心数据库、云数据中心操作系统等一系列核心技术,在全球服务器高端俱乐部里占有了重要一席。在AI服务器领域,从全球最高密度AGX-2到最高性能的AGX-5,浪潮不断刷新业界最强的人工智能超级服务器的纪录,这是为了满足行业用户对人工智能计算的高性能要求而创造的。浪潮一直认为,行业客户希望获得人工智能的能力,但需要掌握了人工智能落地能力的和技术的公司进行赋能,浪潮就可以很好地扮演这一角色。加快人工智能落地速度,帮助企业用户打开了人工智能应用的大门。
由此看,长期的技术创新积淀、核心技术的掌握以及对于产业和技术的准确判断、研发是领跑的根本。
至于智算中心,去年发布的《智能计算中心规划建设指南》公布了智能计算中心技术架构,基于最新人工智能理论,采用领先的人工智能计算架构,通过算力的生产、聚合、调度和释放四大作业环节,支撑和引领数字经济、智能产业、智慧城市和智慧 社会 应用与生态 健康 发展。
通俗地讲,智慧时代的智算中心就像工业时代的电厂一样,电厂是对外生产电力、配置电力、输送电力、使用电力;同理智算中心是在承载AI算力的生产、聚合、调度和释放过程,让数据进去让智慧出来,这就是智能计算中心的理想目标。
需要说明的是,与传统数据中心不同,“智算中心”不仅把算力高密度地集中在一起,而且要解决调度和有效利用计算资源、数据、算法等问题,更像是从计算器进化到了大脑。此外,其所具有的开放标准,集约高效、普适普惠的特征,不仅能够涵盖融合更多的软硬件技术和产品,而且也极大降低了产业AI化的进入和应用门槛,直至普惠所有人。
其实我们只要仔细观察就会发现,智算中心包含的算力的生产、聚合、调度和释放,可谓集AI能力之大成,具备全栈AI能力。
这里我们不妨再次以浪潮为例,看看何谓全栈AI能力?
比如在算力生产层面,浪潮打造了业内最强最全的AI计算产品阵列。其中,浪潮自研的新一代人工智能服务器NF5488A5在2020年一举打破MLPerf AI推理&训练基准测试19项世界纪录(保证充足的算力,解决了算力提升的需求);在算力调度层面,浪潮AIStation人工智能开发平台能够为AI模型开发训练与推理部署提供从底层资源到上层业务的全平台全流程管理支持,帮助企业提升资源使用率与开发效率90%以上,加快AI开发应用创新(解决了算力的效率问题);在聚合算力方面,浪潮持续打造更高效率更低延迟硬件加速设备与优化软件栈;在算力释放上,浪潮AutoML Suite为人工智能客户与开发者提供快速高效开发AI模型的能力,开启AI全自动建模新方式,加速产业化应用。
那么接下来的是,智算中心该遵循怎样的发展路径才能充分发挥它的作用,物尽其用?
IDC调研发现,超过九成的企业正在使用或计划在三年内使用人工智能,其中74.5%的企业期望在未来可以采用具备公用设施意义的人工智能专用基础设施平台,以降低创新成本,提升算力资源的可获得性。
由此看,智能计算中心建设的公共属性原则在当下和未来就显得尤为重要,即智能计算中心并非是盈利性的基础设施,而是应该是类似于水利系统、水务系统、电力系统的公共性、公益性的基础设施,其将承载智能化的居民生活服务、政务服务智能化。因此,在智能计算中心规划和建设过程中,要做好布局,它不应该通过市场竞争手段来实现,而要体现政府在推进整个 社会 智能化进程的规划、节奏、布局。
总结: 当下,算力成为推动数字经济的根基和我国“新基建“的底座已经成为共识,而如何理性看待其发展中遇到的挑战,在不断高升算力的前提下,提升效率,并采取最佳的发展策略和形式,找到最优解,将成为政府相关部门以及相关企业的重中之重。
② 投资40亿,商汤科技AI超算中心建筑形如“芯片”
近日,上海自贸区临港新片区“新基建”标杆项目——商汤 科技 上海新一代人工智能计算与赋能平台EPC项目(即“AI超算中心”)首节钢柱顺利开吊,建筑进入钢结构主体施工阶段。该项目是继商汤 科技 总部大厦之后,商汤 科技 在上海的又一“超级工程”。
项目占地面积58000平方米,建筑面积129850平方米,投资金额40亿元,位于上海临港重装备产业园区H34-07a地块。工程整建设内容有:A1-A6超算中心、运维中心、220kV变电站、柴油机发电机房、地下水池泵房及连廊等,建设周期预计从2020年9月至2021年10月。
项目的独一无二在于其空间结构和设计手法令建筑与景观融为一体。建筑由五个方形单元组成,以 科技 芯片为设计构思,富有 科技 的未来性美感。建筑群统一的整体风格与单体均衡的体量尺度相结合,配合穿插交错的道路网络以及空间布局,为使用者带来丰富独特的空间体验。
每个建筑组团的两内座庭院面向园区景观打开,成为贯穿建筑和景观的过渡空间。立面玻璃幕墙之间留有细长的白色横线设计,使建筑整体富有动感韵律。
据悉,项目计划于2021年底落成。
附:商汤 科技 总部大厦
由德国gmp建筑事务所设计的商汤 科技 总部大厦,位于上海漕河泾开发公园与中环路之间,整个大楼长170米,最宽处28米,高36米。
建筑体为一座横向的棱形玻璃大楼,坐落于两个锥形的清水混凝土基座之上,形如巨型“航母”。两个支座支撑起一座桥梁般的建筑,以最小的首层占地面积最大程度上实现了建筑东西侧空间上的联通。
大楼独特的设计,获得了德国设计委员会旗下的Iconic Award 2018(标志性设计奖)办公建筑类别Selection。
③ 打赢AI争夺战,要靠一张算力网
AI算力是未来国家、城市、企业的核心竞争力。
文丨华商韬略 陈必章
在人工智能时代,AI算力就是电,AI计算中心就是电厂。
电力时代,我们构建了一张“电网”,如今随着国内各地人工智能计算中心的相继落地,我们正在编织一张AI算力网络。
目前,人工智能的发展已提升到国家战略层面,加快人工智能产业发展,保障和提供充沛的AI算力,对于赢在AI时代的国家、城市和企业来说,已经是迫在眉睫的问题。
【没有算力 就像没有电】
最近这段时间,全国很多地方政府和企业领导最闹心的事情什么?
答案可能是两个字:缺电。
但这个闹心的事情还没解决,在全球各国,乃至一国之内的不同地区,又开始面临一个像电力一样,决定国计民生的关键要素。
这个关键要素就是AI算力。
AI算力,顾名思义,就是支撑AI的计算能力。 此处的计算不是加减乘除,而是对世界万物的计算,是万物互联、人工智能之下的高度复杂、无所不在的计算。
不同于传统算力,AI算力为了支撑AI模型的开发、训练和推理,对并行处理能力的要求特别高,也因此需要专门的AI芯片和框架。
比如, 具备强大浮点运算能力的AI芯片,才能够通过训练、持续迭代优化提供满足行业企业智能化转型的高质量AI模型。 复杂模型训练中,需对上千亿个浮点参数进行微调数十万步,需要精细的浮点表达能力。如果没有强大的训练芯片,则难以保障算法模型产出的效率。千亿级中文NLP(自然语言处理)大模型“鹏程·盘古”,面向生物医学领域的“鹏程·神农”平台的发布,都离不开AI芯片的支撑。
再比如,被视为“AI领域操作系统”的AI框架,90%的AI应用是基于AI框架层来开发。在该领域国内 科技 企业已取得重大成果: 业界领先的AI计算框架升思MindSpore,是一款支持端、边、云全场景的深度学习训练推理框架。 除具备自主可控的优势之外,一套框架即可支持AI+科学计算等多样性应用。当前升思MindSpore社区累计下载量超过60万,有超过100家高校选择升思MindSpore进行教学。
正是有了这些AI芯片和AI框架释放出的AI算力,我们才能加速进入万物互联和人工智能时代。
今天,从每个人手里的手机,到企业的云上平台,再到城市大脑……我们的生产和生活越来越依赖于AI,越来越深入向AI获取力量。
对中国来说,AI是从制造大国向制造强国转型升级的关键。 最近多年,众多城市都在努力争夺各种资源提升城市的发展力和竞争力,而AI算力就是未来发展最重要的“资源”。
在人工智能的世界,没有AI算力,就像没有电。
AI算力已渗入到我们生活和生产的方方面面,以大家较为熟悉的医院药房取药为例:
拿到处方药单,在药房前排队等候,由医务人员拿着处方照单分药,这种漫长的等待和焦虑,很多人都有切身体会。现在,已经有企业开发出利用人工智能技术进行全自动补发药品的机器人,用到了3D视觉定位、机器人智能抓取、智能视觉复核技术,能够确保100%补药准确率,而且效率也更高,发药速度可以达到每小时2500盒,8秒钟就可以处理一个订单。在药品发放过程中,系统可以自主调度搬运药品,不需要人工的干预。
它带来的最直观的改变,就是可以把药品分拣的时间从原来的50秒缩短到3秒,患者只需要一分钟就能取到药品。
这个过程中,怎么识别处方单,怎么准确分拣并发放药品?要实现这些功能就得看这个机器人使用的AI系统能算得有多快、多好、多准,这就是AI算力。
【要有电 就得有电厂和电网】
AI算力如此重要,但很多企业缺乏足够的资金来搭建自己的AI算力。那AI算力需求该如何被满足,国家、城市又该如何提供足够的AI算力支持,推动AI产业发展并赢得AI时代的竞争力呢?答案是, 要让AI算力成为公共资源,配套建立新型基础设施。
这种新型的算力基础设施就是人工智能计算中心,用回电气时代的比喻,那就是要建电厂和电网。
首先是,加快人工智能计算中心的建设。
人工智能计算中心,是以基于人工智能芯片构建的人工智能计算机集群为基础,涵盖了基建基础设施、硬件基础设施和软件基础设施的完整系统,其核心功能就是,提供从底层芯片算力释放到顶层应用使能的人工智能全栈能力,也就是输出AI算力。
人工智能计算中心除了是提供公共算力服务的平台,还同时应该是应用创新的孵化平台、产业聚合发展平台和科研创新人才培养平台。只有同时扮演好这些角色,才能打通“政产学研用”,集中最多的力量,形成产业汇聚力并提升AI竞争力。
目前,全世界都在加快人工智能计算中心建设。尤其是美国,它一方面千方百计地打压其它国家的发展,一方面则大手笔投入加强本国人工智能的发展,拜登政府更一度公布了3000亿美元的投资计划,捍卫美国在人工智能领域的领先地位,而其中很重要的投入,就是加强数据中心和智算中心的新基建。
中国当然不会轻易错过人工智能产业发展带来的机遇。早在2017年,国务院就发布了《新一代人工智能发展规划》,并强调要“建设高效能的计算基础设施”。去年疫情期间,中央进一步明确提出新基建战略,而加强数据中心和人工智能计算中心建设,则是整个新基建的重中之重。
因为,没有强大的算力,以数字化为着眼点的新基建七大领域几乎都无法实现其建设目标。
国家战略指引,市场前景召唤,甚至经济转型升级的压力下,诸多地方政府都已积极行动,牵头人工智能计算中心建设,并以此为基础提升本地算力水平,构筑数字时代的核心竞争力。
今年5月31日, 科技 部批复的15个国家人工智能创新发展试验区中,武汉的人工智能计算中心已率先竣工并投入运营;西安未来人工智能计算中心也已经上线,其它省市的人工智能计算中心建设也陆续规划中。
武汉人工智能计算中心投运以后,为武汉乃至湖北地区的经济发展、科研创新、企业转型等提供了算力支撑。
比如,武汉大学基于武汉人工智能计算中心打造了全球首个遥感专用框架武汉.LuojiaNet,针对“大幅面、多通道”遥感影像,在整图分析和数据集极简读取处理等方面实现了重大突破。
再比如,中科院自动化所利用该中心的算力支持,研发了全球首个视频生成多模态大模型——紫东.太初。作为业内首个千亿级三模态大模型,紫东.太初的视频理解与描述性能已做到全球第一,不仅具有多任务联合学习能力,还能通过学习实现AI化的图文搜索,以及音频、短视频、MV制作,极大缩短音视频的创造时间。
9月份,西北地区第一个人工智能计算中心落子西北重镇西安市,一期规划具备300P AI算力的西安未来人工智能计算中心,基于升腾AI基础软硬件平台建设,将提供精准可靠的模型训练及推理。
西安未来人工智能计算中心,已经签约了西安电子 科技 大学遥感项目、西北工业大学语音大模型项目、陕西师范大学“MindSpore研究室”多个项目,在支撑西安“6+5+6+1”现代产业体系发展的同时,也会强化西安乃至整个西北地区的人工智能产业集群,为西北地区人工智能产业的发展提供算力支持。
刚刚上线的西安未来人工智能计算中心,算力使用率已快接近满负荷状态。当地各行业企业、科研机构、高校对于算力的渴求可见一斑。
其次,高效利用人工智能计算中心的算力资源。
当越来越多人工智能计算中心建成、投运,如何让它们的算力更高效并服务到更多的行业和企业?如何避免各地算力分布不均衡、使用效率不一致的情况?如何让没有规划建设人工智能计算中心的地方,也能享受到AI算力的使能?人工智能计算中心之间的互联、协同、共享,成为需要各界考虑的一个问题。
这就需要人工智能算力网络了,就像电网之于电厂和用电对象。
有了算力网络,我们就能将分布在各地的人工智能计算中心节点连接起来,动态实时根据算力资源状态和需求,实现统筹分配和调度计算任务,构成全国范围内的感知、分配、调度人工智能中心的算力网络,然后在此基础上汇聚和共享算力、数据、算法资源。
最重要的是,有了这张网,更多的行业和企业,就能像现在用电一样使用AI算力了。
那么,算力网络这张网还会给整个人工智能行业有哪些作用呢?
首先是算力的汇聚, 就是把不同地区、不同城市的算力资源高速互联,实现跨节点之间的算力合理调度,资源弹性分配,这有利于提升各个人工智能计算中心的利用率,实现对于整体能耗的节省,后续可支持跨节点分布学习,为大模型的研究提供超级算力。
其次是数据的汇聚, 政府牵头与各行业企业合作,在达成人工智能领域的公共数据开放之后,可依托人工智能计算中心汇聚高质量的开源、开放的人工智能数据集,能够促进人工智能领域的算法开发和行业落地。
最后是生态的汇聚, 各个人工智能计算中心之间,统一互联标准、应用接口标准,实现网络内大模型能力开放与应用创新成果共享,强化跨区域科研和产业协作,为全国范围用户进行人工智能应用创新提供更多的资源选择和更便捷的合作方式,加速产业聚合,激活产业共融共生。
简单总结算力网络,就是汇聚大数据+大算力,使能大模型和重大科研创新,孵化新应用。进而实现算力网络化,降低算力成本,提升计算能效。
科技 部在三年行动规划中指出,要“布局若干人工智能计算中心,形成广域协同的人工智能平台”。在这一规划的指引下,人工智能计算中心陆续在许多城市落地。就在刚刚结束的HC2021上,20多个人工智能计算中心建设城市联合点亮了“人工智能算力网络”。
这张人工智能行业的算力网络,已经开始编织构建。
【AI算力建设 不是从长计议而是迫在眉睫】
2020年,麻省理工学院计算机科学家、并行计算先驱Charles Leiserson在《科学》杂志上撰文指出:
深度学习正逼近现有芯片的算力极限。
事实上,过去十年,人类最好的AI算法对算力的需求几乎增长了100万倍,平均每3.4个月翻一倍。
相比之下,全球AI算力的增长却十分有限。
需求与供给之间的巨大鸿沟,促使各国政府,尤其是中、美、欧、日等AI技术领先的地区大力建设AI算力。
没有强大AI算力,一个国家或地区必然在未来的 科技 竞争中处于劣势。
从当前算力基础设施建设进度来看,深圳、武汉、西安等城市均已建成人工智能计算中心并投入运营,成都、河南等城市正在建设中,北京、南京、上海等地的人工智能计算中心加速建设,也是蓄势待发。
未来,一旦人工智能计算中心全部建成,并组成人工智能算力网络,不但将为 社会 提供跨地域、源源不断的超级算力。而且,还能够实现跨区域的科研和产业协作,使能大模型和重大科研创新,为千行百业孵化新应用。
最终,使得人工智能赋能更多的行业和场景,让我们在未来国家之间的产业和 科技 竞争中立于不败之地。
——END——
版权所有,禁止私自转载!
④ “东数西算”的智慧大脑!26座城市抢建智算中心
智东西(公众号:dxcom)
作者 | 杨畅
编辑 | 李水青
智东西2月25日消息,近日,“东数西算”国家项目正式启动,为数据中心产业带来了重要利好信号。(《 历史 时刻!“东数西算”国家工程全面启动》)
作为数据中心中领域的一颗“明珠”,智算中心也引起行业关注。
一般认为,智算中心全称是人工智能计算中心,主要是为人工智能(AI)应用提供所需算力服务、数据服务和算法服务,由AI芯片和算力机组等设备组成,与云计算中心、超算中心有一定区别。企业和研究机构可以依托智算中心提供的强大算力,驱动AI模型进行数据深度加工,实现AI应用创新。
“东数西算”国家项目强调在京津冀、长三角、成渝等八大枢纽间建设算力网络,支持全国各地日益增长的算力需求。而沿着这张算力网络“地图”,我们发现智算中心已经“遍地开花”。
细数过来,从2021年到2022年开年,全国有不下20座城市建成或正在建智算中心,智算中心数量达到27个,而其中位于八大枢纽的就有12个,接近50%。
“东数西算”工程国家算力枢纽节点范围内的智算中心
那么具体有哪些城市在建设或者规划建设智算中心?“东数西算”工程会对智算中心带来什么样的影响?各地智算中心项目建设进度如何?可能会对当地AI产业有何影响?
智东西通过调查2021年以来各地规划、建设和建成的智算中心,并与业内人士交流,来与大家一起探讨这些问题。
据智东西统计,从2021年1月1日到2022年2月15日,全国共有至少26个城市在推动或刚刚完成当地智算中心的建设,这些城市中既有省会城市,例如南京、西安,也有非省会城市,像许昌、青岛。
其中,不少城市已经在本地建设了像大数据中心、云计算中心、国家超算中心等信息基础设施。不过这些中心并不能替代智算中心,它们之间的功能存在差异——像云计算中心,主要是提供云服务,超算中心主要为科学研究提供超算服务,智算中心则主要是为企业和科研院所提供普惠AI算力服务。
此外,中信所《人工智能计算中心发展白皮书(2021)》中指出,智算中心借鉴了超级计算(高性能计算)中心和云计算数据中心大规模并行计算和数据处理的技术架构,但它是以AI专用芯片为计算算力底座的。上述三类中心的软件和业务架构不一样,不过云数据中心和超算中心也可以通过延展建设,来对外提供智能算力。
据我们统计,2021年,全国建成并投入运营或试运营的智算中心有8个,分别是武汉人工智能计算中心、合肥先进计算中心、南京智能计算中心、中国电信京津冀大数据智能算力中心、浙江(长三角)新一代全功能智能超算中心、西安未来人工智能计算中心、中原人工智能计算中心、哈尔滨人工智能先进计算中心,投运时间分别是5月、6月、7月、8月、9月、9月、10月和12月。这些智算中心中大部分都有二期建设规划。
截至目前,2021年和2022年各地投入运营的智算中心情况
一些智算中心并没有直接用“智算中心”或“人工智能计算中心”命名,而是采用“先进计算中心”或“智能超算中心”的命名方式,但它们也提供智能算力,所以也可以算作智算中心,例如合肥先进计算中心和浙江(长三角)新一代全功能智能超算中心。
不同智算中心的测算算力时采用的算力测试基准有所差别,使用算力单位略有不同,但是无论是“1 P OpS”、“1 PFLOPS FP16”、“1 Petaflops”还是“1 P”,都相当于每秒可进行一千万亿次运算。
2022年开年以来,国内已经有一个新投运的智算中心,是位于上海的商汤 科技 人工智能计算中心。
很多城市是正在建设智算中心,从2021年1月1日到2022年2月15日,全国共有至少18个城市签约、开工、招标、计划建设智算中心项目,其中已经宣布开工建设的至少有6个城市,分别是合肥、庆阳、大连、沈阳、深圳、长沙。
截至目前,2021年和2022年各地规划或已经开始建设的智算中心情况
对比2021年之前的各地智算中心建设情况来看,2020年之前的智算中心项目更少一些。不过,部分2021年开工建成的智算中心其实在2020年就已经立项招标和预研规划,比如武汉人工智能计算中心项目。
智算中心并不是2021年才有的新类型数据中心,我国较早建成的智算中心还有深圳鹏城云脑、旷视芜湖AI超算中心等。2018年,鹏城云脑I初步建成并上线运行,算力达到100 PFLOPS(1 PFLOPS相当于每秒运算能力为一千万亿次)。
从全国智算中心的地理位置分布来看,目前,东部、中部和西部都有省市在部署智算中心。作为数据中心的一种,各地的智算中心建设规划难免会受到“东数西算”政策的影响。
特别是国家发改委等部门在《全国一体化大数据中心协同创新体系算力枢纽实施方案》等文件中指出:“原则上,对于在国家枢纽节点之外新建的数据中心,地方政府不得给予土地、财税等方面的优惠政策。”智算中心作为各地政府主导的项目,极有可能受到影响,但是并不一定会大批向西部地区迁移。因为智算中心主要面向AI相关产业,这些业务对于网络通信的要求也比较高,在这方面,东部地区略有优势。
中科曙光高级副总裁任京暘告诉智东西,“东数西算”工程会促进智算中心的发展,预计在全国一体化算力网络国家枢纽节点建设中,规划的数据中心项目会配置一定规模的智能算力,有些项目还可能是直接以智算中心的形态出现。
另外,从这些智算中心公布的算力规模情况来看, 100P算力是很多智算中心的起步目标 。
一般认为,100P大约相当于5万台高性能电脑的算力。拿科研场景为例,天文学家在20万颗天体的星空图中要定位某种特征星体,如果算力不够,耗时可能要超100天,如果拥有100P算力,定位星体所需时间仅为100秒。
任京暘说,一般智算中心提到的100P是指FP16或INT16,即半精度算力,就现阶段而言,以100P起步,能实现比较大的规模效益。
从需求角度看,智算中心作为城市级公共算力平台,要满足区域内政府、企业、高校等各类用户的算力需求,起步规模不宜过小,否则无法支撑类似大模型训练等大算力需求,也不足以发挥集约共享的规模效益。
任京暘补充道,从投资角度看,智算中心发展尚处于初期阶段,建设、运营、应用与生态建设等投入较大,需要结合地方财政承受能力做出合理评估,根据实际需求进行适度的超前部署。
大部分智算中心都是分期建设的,建成一期,就可以投入运营一期,后期再根据运行情况和产业发展需求进行二期、三期建设。
例如武汉人工智能计算中心,该智算中心在2021年5月完成了一期项目建设工作,并开始为企业提供AI算力,但很快饱和了。于是,武汉人工智能计算中心又进行了二期项目扩容工作,将算力规模从100P扩容到200P。武汉人工智能计算中心相关负责人在接受媒体采访时说,现在二期算力也接近饱和,随着准备进行进一步的算力扩容工作。
武汉人工智能计算中心
根据各智算中心的数据,至少数百家企业已经签约智算中心,例如武汉人工智能计算中心已经为多家高校和科研院所、100多家企业提供算力,南京智能计算中心已经吸引超40家产学研机构入驻。
一个智算中心可以同时支撑的产业场景很多,例如自动驾驶、智慧医疗、智慧城市、智慧交通、智慧矿山、智能制造等等,主要看当地的需求,一般都是为了支撑当地的优势产业更好发展。比如,青岛靠近海域,其人工智能计算中心招标文件就有提到青岛人工智能计算中心要支撑青岛优势产业集群,比如智能家居、智能制造等产业智能化持续领先,并着重强调支撑当地智慧海洋经济的发展。
上述智算中心都并不局限于支撑单一产业。不过,也有一些城市选择建设针对性更强的智算中心,像山西晋城建设了专门面向煤炭行业的智算中心(智能矿山创新实验室创新成果&计算中心)。该智算中心由华为、晋能控股等企业参与建设,主要是为推动山西煤矿智能化建设。
智能矿山创新实验室创新成果&计算中心
在智算中心建设过程中,市政和建筑设计企业背后的AI和ICT企业是重要角色,例如曙光、华为、浪潮、腾讯、商汤 科技 等企业。
在 探索 智算中心过程中,作为计算领域的头部玩家曙光提出了“5A级”智算中心建设方案,从开放、融合、绿色、普惠、服务五个方面,进行智算中心相关的实践和 探索 。目前,曙光5A级智算中心已在广东珠海、安徽合肥、浙江桐乡等地陆续落成,其江苏昆山等地的智算中心也进入建设阶段。
合肥先进计算中心
曙光智算中心会采用兼容多种芯片、算法、模型等的多元协作方式以实现多元算力提供。例如曙光参建的合肥先进计算中心不仅能提供智能算力,还能提供高性能计算所需算力。在降低智算中心、数据中心能耗方面,曙光研发有浸没式相变液冷技术,可使智算中心的PUE值降至1.04到1.05。
华为应该是比较早尝试智算中心的企业,而且也是参与各地智算中心建设最多的企业之一。华为升腾计算业务总裁许映童曾在2021世界人工智能大会期间透露,华为希望在2021年内启动超20个智算中心建设。
包括“鹏城云脑II”、“武汉人工智能计算中心”在内的几个华为承建的智算中心项目几乎都是使用华为的Atlas 900 AI集群架构,来实现AI算力供给的。Atlas 900 AI集群架构是由数千颗升腾910 AI处理器构成,其总算力达到256P 1024 PFLOPS FP16。
鹏城云脑
浪潮在智算中心方面也有多年的研究,无论是智算中心运行过程中算力生产、算力聚合、算力调度还是算力释放环节,浪潮都分别有相应的技术和软硬件支撑。南京智能计算中心就是采用了浪潮AI服务器算力机组和寒武纪思元270和思元290智能芯片及加速卡。
南京智能计算中心
作为数据中心行业的重要玩家,腾讯将其在数据中心方面的 探索 应用在了智算中心建设中,像腾讯智慧产业长三角(合肥)智算中心建设中就用到了腾讯第四代T-Block等高端模块化技术,支持项目快速交付。腾讯第四代T-Block等高端模块化技术就是将IT、空调等数据中心的各个功能模块化,以实现按需灵活配置。
商汤 科技 是从2018年开始进行人工智能计算中心预研工作的,2020年7月开始商汤 科技 人工智能计算中心建设工作。2022年1月24日,商汤 科技 人工智能计算中心启动运营。商汤 科技 人工智能计算中心的峰值算力高达3740 Petaflops,这背后包含了商汤 科技 的多种技术突破,包括高性能计算、分布式调度、硬件/软件协同设计等。
商汤 科技 人工智能计算中心
我们通过调查2021年以来建设和建成的智算中心,发现越来越多的城市已经开始了智算中心建设。这体现了各地对于AI产业的重视。从一些现有的智算中心建设工期来看,一般一期建设大概时间在半年到一年不等,今年可能会有更多在建的智算中心建成并投运。另外,“东数西算”工程也会对新的智算中心的规划、建设产生多重影响。
目前参与智算中心建设的企业相对有限,随着各地对智算中心建设需求的增加以及一些新玩家加入,智算中心领域玩家可能会面临更激烈的竞争。
⑤ 信息化建设项目初步设计需要设计图吗
你好,是需要设计图的。初步设计是工程建设前期工作的重要环
节,是对审批通过的可行性研究报告的完善和
细化,是下一阶段进行施工图设计的重要依据。近年来,我国政务信息化迈入了创新发展的新阶段,本文就政务信息化工程的初步设计说明、初步设计图纸、初步设计概算的要点进行了分析闸述。
⑥ 深圳之后“第二城”:华为布局西安,剑指“每秒百亿亿次”
由华为参与建设, 规划算力比肩深圳「鹏城云脑」的人工智能计算中心 ,落户西安。
科技 发展到当下,“人工智能”已是新一轮 科技 革命和产业变革的重要驱动力量,并成为新的国家发展战略之一。西安, 也是“国家新一代人工智能创新发展试验区”。
这个堪称“最强大脑”,它给我们带来什么?
落地: 全球领先的算力中心
综合相关报道: 西安,是深圳鹏城云脑外全国第二大人工智能计算中心 。
公开新闻显示,「未来人工智能计算中心」定位极高: “立足西安,依托秦创原,面向西北, 领先全球的新一代人工智能计算平台 。”建成后:
“将用于自动驾驶、智慧医疗、智慧城市、智慧交通、智慧矿山等多种应用场景,支撑 国家战略任务落地、促进经济与产业发展 融合。”
该中心分两期建设实施,这个 新一代人工智能计算平台 核心 算力 如何?
一期,为算力为 300PFLOPS FP16 (每秒30亿亿次) 人工智能计算中心;二期,为高层产业研发中心。2025年,目标算力规模达 1000PFLOPS FP16 (每秒100亿亿次) 。
作为专业术语的“算力”,可能很多人并不了解。 如果进行对比,深圳鹏城云脑II已成为世界最强的AI算力中心。
华为升腾计算业务总裁许映童表示:华为将 助力西安打造人工智能“一中心四平台”整体框架 ,通过建设集约化、统一化的人工智能计算中心,实现政、产、学、研、用五位一体,通过算力集群,赋能产业集群, 推动陕西人工智能产业数字化与智能化加速发展。
在已有各类超算中心情况下,“AI计算”能量在哪?
要知道,人工智能 (AI ) 应用场景不断扩展,几乎涵盖了人类 社会 每个领域。 由华为与深圳鹏城实验室共建的“鹏城云脑”,走在世界的前列 。
发展: 它究竟多惊人?
那么,“鹏城云脑II”究竟有多强?
2020年10月运行的当年,已初展身手:接连夺得 IO500总排行榜、10节点排行榜两项冠军 和 AIPerf500的世界冠军 ,“冲击高性能计算领域最权威的全球性榜单”成为现实。
2021年7月1日,国际超级计算新一期排行榜中: “鹏城云脑II”再次刷新世界纪录,蝉联全系统输入输出和10节点规模系统两项世界冠军 。
“鹏城云脑II”,已成为 全球计算密度最高,训练速度最快的AI基础设施 。
尽管,传统超算和AI超算有所不同。但是,“鹏城云脑II”1000P的AI算力—— 每秒百亿亿次 ,也几乎堪称世界最强大的超级计算。
西安「未来人工智能计算中心」2025年算力规划,将比肩深圳“鹏城云脑II” ——相当于50万台高性能PC算力之和:
24小时内,能处理 100亿 张图像,
或 1千万小时 语音 (40万天)
或 1万天 (27年) 自动驾驶数据等;
面对有 20万颗 星星的星空图,
一位天文学家,定位需耗费 169天 ,
这里可缩短至10秒。
那么, “鹏城云脑-II”可以做什么 ?
主要提供人工智能研究必须的计算力资源、存储资源、网络资源、数据资源和研究环境,覆盖人工智能基础研究、重大应用、操作系统、数据资源共享、产业服务等专门研究实验领域。
它向深圳卫生 健康 、公安交警、巴士交通等提供服务,并服务于国家重大战略需求、大规模挑战性科学计算等关键领域。
所以,它不仅是深圳的,它更是国家的国之重器。 毫不夸张,“鹏城云脑-II”是国家科研类新基建工程,将推进我国自主核心技术的发展,提升粤港澳大湾区乃至全国AI产业国际竞争力。
时代: 迎接一个新的开始
对西安来说,在回归制造业的同时,要通过科研和创新实现产业升级和迭代。
目前西安,相对优势愈加明显——强大学府资源、科研实力和创新基底。同时, 随着经济的实质性增强以及产业结构的变化,省市两级推动西安“国家综合性科学中心”建设 。
比如“秦创原”,举全省之力推动。在2020年3月9日, 科技 部网站公布 “支持西安建设国家新一代人工智能创新发展试验区”。
这,既是对西安人工智能产业的期许,也是对西安人工智能实力的认可。
截至2020年,西安有人工智能企业150余家,年产值约120亿。西安规划提出到2022年,实现人工智能总体发展水平全国领先,打造5-7个产业聚集区, 产业规模超过200亿,相关产业规模突破1000亿。
2021年《全球AI最具创新力城市榜单》中: 西安名列中国第7名,全球第60名。 华为共建的「未来人工智能计算中心」,无疑“锦上添花”。
结合深圳“鹏城云脑”经验, 西安「未来人工智能计算中心」除拥有世界最强算力外,可能会实现:
“将进一步推动了制度创新、政策创新,有助于加快实现人工智能对经济 社会 发展的带动和支撑作用,加快形成国家新一代人工智能试验区的西安方案。”
可以说,它将成为中国科研类新基建工程。对大力当下发展的西安而言,更值得期待。
对于“人工智能(AI)”,学界有不少说法,包括
《时间简史》作者“斯蒂芬·霍金”表示:
“完全人工智能的发展,可能意味着人类的终结。一旦人类开发出人工智能,它就会自行起飞并以越来越快的速度重新设计自己。受缓慢生物进化限制的人类,无法竞争并会被取代。”
⑦ 想问一下智算中心的建设是怎样的包含了哪些方面
智算中心的建设主要包括四个方面的要点:
一、全方位提升AI算力生产供应,而且智算中心是以新型硬件架构和人工智能算法为模型,必须要保证长期发展需求以及规划建设的技术领先性;
二、促进数据开放共享,汇聚各行业领域数据资源,通过海量数据开放共享,全面提升AI算法训练数据质量,使沉淀的数据资源在各个应用场景中实现价值最大化;
三、培育区域智能生态,以智能算力生态聚合带动多层级产业生态体系的形成,助推数字经济与传统产业深度融合,加速孵化新业态;
四、推动AI产业创新聚集,在政府主导下,科创企业、科研机构和传统企业发挥各自在AI方面的技术优势、加速AI应用场景落地,助力传统产业转型升级,催生经济新业态新模式,优化公共服务供给。
⑧ 什么是人工智能计算中心 一中心四平台
1、2020年10月11日,在武汉市国家新一代人工智能创新发展试验区启动仪式上,中国科学技术信息研究所、华为技术有限公司联合发布《人工智能计算中心发展白皮书》,共4个章节,分别介绍了人工智能计算中心的概念、发展现状、总体架构和关键技术以及加快发展我国人工智能计算中心的建议。
2、会上,武汉人工智能计算中心项目正式启动建设。计算中心将围绕武汉市国家新一代人工智能创新发展试验区,重点打造一中心四平台,以人工智能计算中心为主体,提供公共算力服务平台、应用创新孵化平台、产业聚合发展平台和科研创新人才培养平台,助力武汉市智能制造、智慧医疗、智能数字设计与建造、智能网联汽车产业发展。
3、“不要盲目地重复建设和盲目地去抢占计算中心这样的基础资源,未来整体的全球经济可能不会迅速走出低谷,在财力有限的情况下,我们要聚集有限的资源和财力,打造支撑人工智能产业和生态发展的基础设施。”赵志耘说:人工智能技术仍在不断演进和变化,人工智能计算中心在建设过程中也会不断面临新的形势和挑战。我国人工智能计算中心的重点工作是解决“自主化”的问题,让关键技术安全、可靠。
4、赵志耘表示,我国已经批复的人工智能试验区有13个,未来还将批复其他的人工智能试验区。选择第一个计算中心开工建设的实验区发布“白皮书”,具有标志性的意义,它将引领未来实验区的建设。