智算集群

智算集群是一个复杂工程系统,而不是简单的软硬件的堆砌,它要求“3+1”算力体系,即算、存、运和服务的紧密协同。
来源 | 人民邮电报(转载请注明来源)
9月20日,中国工程院院士倪光南在2024华为全联接大会期间,发表了“要用复杂工程系统思维统筹规划我国智算集群建设,以标准引领智算集群高质量发展”的主题演讲。 以下为演讲全文: 要用复杂工程系统思维统筹规划我国智算集群建设,以标准引领智算集群高质量发展 科学技术的迅猛发展,带来了新一轮的科技革命和产业变革。数据爆发式增长、算力不断跃迁、算法的持续演进带领我们即将进入一个万物重构和万物智联的新时代。智算集群是引领这一时代发展的主要新质生产力,是支撑数字中国建设和数字经济运行的重要基础设施。我们要实现“极致集群算力、协同系统优化、长稳可靠训练、灵活算力供给、绿色低碳节能”的高质量智算集群的建设标准。为此,在大力发展算力、存力、运力的同时还要注重加强智算集群的服务体系建设。 智算集群建设是复杂的工程系统 系统是由若干要素组成的具有独特结构和功能的整体,系统要实现不断优化和进化就必须重视整体性及要素的关联性、耦合性和协同性。1989年底,我国著名科学家钱学森发表的“一个科学新领域——开放的复杂巨系统及其方法论”,标志着复杂工程系统理论的建立。党的二十届三中全会《决定》提出要坚持系统观念这个重大原则,强化系统集成,加强整体谋划、系统布局,使各方面改革相互配合、协同高效,发挥系统整体性1+1>2的优势。 智算集群建设就好比构建一个足球冠军团队,不仅需要有各个优秀球员,还需要球员之间的协同和配合以达到最高效能。智算集群是一个复杂工程系统,而不是简单的软硬件的堆砌,它要求“3+1”算力体系,即算、存、运和服务的紧密协同。也正是基于复杂工程系统思维,智算集群在算力规模、算力利用率、集群可靠性等关键指标上,可以持续“挑战”和“对抗”源于单模块、单机、单系统的各种物理极限和物理失效问题。 以国内刚刚建成的某运营商超大规模集群为例,它共含近2万张算卡,2千多台智算设备,近8万根线缆互联,7百多台RoCE高速交换机,以及800多台通算、存储设备,10万+光模块占用1千多个机柜。数量巨大的这些设备之间相互交织互联,任何一个关键点出现问题都可能影响训练任务中断,一卡断,万卡停。一个典型的超大规模集群一年的运营成本超过亿元,假设由于各种单点故障导致了训练时间上5%的浪费,都会带来上千万元的直接经济损失。 由此,我们可以看到智算集群建设除了具备系统性(或整体性)、规模性等特征之外,还呈现出多层次性、动态性、不确定性等典型特征,归结如下: 第一,多层次性:智算集群具有复杂多层次结构,各核心技术构成全栈系统的不同层次的子系统和更小的子系统,他们在水平和垂直层面的集成组合会表现出不同的系统效能。 第二,动态性:在时间维度上,随着不同的子系统的状态变化,智算集群的复杂度出现非线性增长的特征。要在近万条业务路径上快速定位与排除故障点是一个巨大挑战。
