视频 | 首批万卡集群成了!上海这群青年为算力自由打样

东方新闻眼
看看新闻Knews记者 谢丹青 高原
2026-04-06 19:23:05
算力是人工智能的底座,而算力集群好比AI世界的“发电机”,其高效调度与稳定运维,直接决定了大模型等产业的发展速度。在上海仪电,一支平均年龄仅32岁的智算科技万卡集群青年突击队,从零起步、边干边学,不仅建成了国内第一批万卡集群,更实现了集群99.99%的高可用性,在算力这一全新领域跑出了属于自己的速度。
最近一段时间,万卡集群团队一直在“养”一只“龙虾”,这只“龙虾”并非OpenClaw,而是他们自主开发、面向技术领域工业场景的智能体。这一智能体将服务于企业的智算运维平台,使其能更高效地应对故障。
上海智算科技系统平台部负责人翟雨佳指解释,芯片具有高附加值,一分钟甚至一小时的故障都可能造成数百万元的损失,这一成本对任何企业而言都难以承受,因此他们的任务就是确保有限的资源发挥出最大的效能。
走进上海仪电智算中心的机房,数万张GPU设备整齐排列,高速网线交织运行。每张芯片每秒执行67万亿次运算,它们汇聚的能量相当于三峡水电站一台机组一小时的发电量。团队的主要任务,就是调度这些芯片,让一万张不同架构、不同代际、不同技术参数的GPU精确协同。其难度好比让上万架无人机在密集的空域中高速穿梭。更难的是,这一万张卡组成的集群必须全天不间断提供服务,因为在大模型训练过程中,哪怕仅一分钟的故障中断,都可能导致数十小时的训练成果付诸东流。
上海智算科技系统工程中心总监、万卡集群攻坚团队负责人胡宝群表示,他们的客户主要是上海知名的AI企业以及一些科研机构,而他们是这些客户的基座,只有自己做好了,客户才能在此基础上进行科研突破。为此,团队成员常常连续两三个月泡在机房里不断调试,不断寻找最优解。
在团队的努力下,目前万卡集群已实现99.99%的高可用性,相当于全年总故障时间缩短到1小时以内。这有力支撑了多模态大模型保持全球领先的训练进度,保障了自动驾驶模型每天100万公里的虚拟路测数据进化,以及气象大模型提前7天预警极端降雨。
仪电集团人工智能产业发展部副总经理、智算科技董事长孙跃介绍,除了打造更高效率的基础设施,他们还将构建一个更加弹性、更加灵活的智算云平台,从而更好地赋能千行百业。
作为一家平台型链主企业,团队还在生态建设上持续发力,希望牵引产业链上下游,共同构建自主可控的算力生态。
| 编辑: | 张蕴昆 |
| 责编: | 周缇 |
版权声明:本文系看看新闻Knews独家稿件,未经授权,不得转载
暂无列表
全部评论