“大装置”团队为AI打造“新质生产力”

2024-04-01 20:10:28来源:市场导刊
字号:
  2022年,作为SenseCore商汤大装置重要载体的人工智能计算中心(AIDC)正式投入运营,成为亚洲最大人工智能计算中心之一。这背后有一支...

  2022年,作为SenseCore商汤大装置重要载体的人工智能计算中心(AIDC)正式投入运营,成为亚洲最大人工智能计算中心之一。这背后有一支上海团队作出了重要贡献,他们就是上海商汤智能科技公司“大装置”团队。

  三重维度攻坚克难 打造内AIDC建设“样板间”

  “大装置是国内训练大模型最为先进的基础设施,在2023年实现了对万亿参数大模型的生产支持,还在互联规模、加速效率和稳定性上保持业界领先水平。”商汤科技董秘办董事总经理盛世伟告诉记者。

  上海新一代人工智能计算与赋能平台——商汤科技人工智能计算中心是服务上海建设“具有全球影响力的科创中心”战略目标的标杆项目。目前,商汤临港AIDC已经是国内AIDC建设的“样板间”。

  然而,要打造如此出色的“样板间”,却是一项极其不易的任务。

  在商汤科技大装置事业群智算中心技术总监宋祎寓看来,应用端层面的挑战最为显著。在这一层面,需要紧密结合每个研发项目和客户的具体案例,在短时间内整合各类团队,以满足客户的最终需求。

  集群搭建的挑战同样不容小觑。由于园区在2022年1月正式试运行,团队在那一年的时间内面临着巨大的压力,需要搭建和测试大量的既有集群和设备。这一过程中,团队成员需要将从各地运输回来的资产进行集成,最终完成整个集群的搭建。那一年,整个团队规模庞大,接受了极大的挑战。

  在集群搭建之前,整个园区必须完成建设。从2020年下半年开始,园区建设正式启动,最终在2021年年底基本完成,为2022年的测试运行奠定了基础。其中,2021年9月12日是园区建设过程中的一个关键节点。

  “那次是整个园区最大的挑战,我们在2021年9月12日那天,要把整个园区的能源供给给连上,不然我运再多的服务器集群过来也没用。”宋祎寓记忆尤深。

  尽管面临诸多不确定性,但在团队、政府及国网的大力支持下,他们成功地完成了这一任务。这一天的成功对整个项目的顺利进行具有重要意义。

  “我们后面回头来看,心里非常的感动。”回顾整个过程,宋祎寓深感团队在克服重重困难时所展现出的坚韧与毅力。

  400余名成员携手 跨界思维碰撞灵感迸发

  新质生产力具有高科技、高效能、高质量特征,以全要素生产率大幅提升为核心标志。算力、算法是AI和核心要素。SenseCore商汤大装置通过重构算力、算法的供给或服务模式,实现了AI生产要素的创新性配置,大幅提高了AI技术的生产效率和质量,为AI发展打造“新质生产力”。

  据了解,“大装置”团队由400余名多领域人才所组成,不乏身怀艺术细胞、音乐天赋,但又拥有对学术执着的科学家,他们能够以独特的视角和无尽的激情,为商汤大装置的发展注入了源源不断的创新活力。这种跨界的思维碰撞与灵感迸发,正是商汤“大装置”团队在AI基础设施领域实现持续领先的关键所在。

  SenseCore商汤大装置的首席科学家为林达华教授,他在深度学习和神经网络领域具有很高的学术地位和成就。林达华师从汤晓鸥教授,也是商汤联合创始人,香港中文大学信息工程硕士、美国麻省理工学院计算机科学博士。林达华教授在AI开源社区有显著贡献,主导了商汤的多个开源项目,同时也是大模型研发的牵头人。

  在“大装置”团队的齐心协力下,目前,商汤大装置已最大实现了万卡的超大集群互联,并保持90%的加速效率。在训练稳定性上,商汤实现了超30天稳定训练不间断的能力,而出现训练间断时的诊断恢复时长也优化到了半小时。

  来源:青年报

责编:雅君

  • 路过