中国高校最大云上科研智算平台上线,由复旦大学与阿里云共建 观热点

2023-06-28 10:17:29 来源:澎湃新闻

记者 承天蒙

首个基于CFFF平台训练的科学大模型,是复旦大学人工智能创新与产业研究院李昊团队研发的45亿参数量的中短期天气预报大模型,目前训练成果已正式发布,并达到国际先进水平。在CFFF平台上,45亿参数量一天之内就能训练完毕。


(相关资料图)

CFFF平台还将持续扩大其算力规模,并向复旦校外的科研机构、高校、医院、高科技企业等开放。

部署在复旦校内的“近思”一号和托管在1500公里外阿里云乌兰察布数据中心的“切问”一号连成了一台真正意义上的“超级计算机”。

6月27日,中国高校最大的云上科研智算平台CFFF(Computing for the Future at Fudan)在复旦大学正式上线。

澎湃科技(www.thepaper.cn)了解到,CFFF是为发现和解决复杂科学问题而建设的科研“超级计算机”,由面向多学科融合创新的AI for Science(人工智能用于科研)智能计算集群“切问”一号和面向高精尖研究的专用高性能计算集群“近思”一号两部分组成,二者的名称来源于复旦大学校训“博学而笃志,切问而近思”。据介绍,CFFF由复旦大学与阿里云、中国电信共同打造,以先进的公共云模式提供超千卡并行智能计算,并支持千亿参数的大模型训练,这在国内高校中属于首例。

平台启动仪式上,中国工程院院士、阿里云创始人王坚回忆起2008年刚创办阿里云时在高校的演讲,他表示,自己最初投身云计算的初心,就是“让每一位学生都能用得起超算,让计算发挥出它的价值。”15年后CFFF平台上线,让王坚感慨自己当年的愿望成真。

复旦大学校长、中国科学院院士金力表示,一方面,CFFF作为国内高校第一的大规模异构智算平台,希望它能够为复旦的基础科学研究提供更强大更稳定、更加灵活高效低成本的算力支持。另一方面,希望基于CFFF平台能够建成一批具有世界级影响力的科学大模型,例如生命科学大模型、大气科学大模型、材料科学大模型、集成电路大模型等。

45亿参数量一天内训练完毕

目前,CFFF平台上的第一个科研成果已经诞生,是复旦大学人工智能创新与产业研究院李昊团队近期发布了45亿参数量的中短期天气预报大模型,预测效果在公开数据集上首次达到业界公认的ECMWF(欧洲中期天气预报中心)集合平均水平,并将预测速度从原来的小时级缩短到了3秒内。据介绍,这个45亿参数量的大模型只用一天就完成了训练。

李昊在接受澎湃科技等媒体的采访时介绍,“第一,我们把它的预报时长延长到了15天;第二,我们做到了欧洲的中期天气预报中心的集合平均水平;第三,模型采用的相对数值模式的推理速度是分钟级甚至秒级,这也是这个人工智能模型本身的优势。”

“基于CFFF平台的千卡并行智能计算,这样一个规模的大模型只用一天就完成了训练。传统的计算平台是很难做到的。”李昊说。

不过李昊也表示,目前大模型取得的成绩更多还是统计意义上的结果,天气预报是一个复杂的过程,对于台风等极端天气的预报还需要在更多实际场景中去验证模型,也需要跟产业界更多单位和专家进行合作。

金力表示,未来CFFF平台还将持续扩大其算力规模,并向复旦校外的科研机构、高校、医院、高科技企业等开放。

金力认为,在数据和智能技术驱动的“大科学时代”,如何在日新月异的科技创新环境中赢得主动,在关键领域取得创新突破,是时代给予高校的命题。以CFFF平台为代表的智算平台作为一种新兴的科研超算架构,将成为科研的重要支撑力量,极大提升科研效率、降低科研成本,加速科学原理发现和技术突破,并有力推动科学大模型的落地。

据复旦大学介绍,CFFF平台从开始建设的第一天起,就收到了来自复旦不同院系的多种研究需求,不仅涵盖生命科学、大气科学、材料科学领域,也包括金融系统分析等社会科学研究。平台上的云原生与低代码工程化AI开发平台,进一步降低了AI与科研融合的门槛。

27日,面向全球科研人员的首届“世界科学智能大赛”也宣布正式启动,大赛设置生命科学、量子化学等五大赛道,CFFF平台将为参赛队伍提供免费训练算力,并以更普惠的算力长期支持部分科研项目。

复旦四校区所有实验设备都能高速接入

在具体技术层面,部署在复旦校内的“近思”一号和托管在1500公里外阿里云乌兰察布数据中心的“切问”一号连成了一台真正意义上的“超级计算机”。百G高速数据传输网和阿里云的大规模异构算力融合调度技术、分级存储技术、AI与大数据一体化技术,让复旦四校区的所有实验设备都能高速接入,做到异构算力统一管理,计算任务统一调度,满足不同应用场景下的科学智能研究与应用需求。位于“东数西算”节点上的阿里云乌兰察布数据中心,以公共云模式为复旦校内多学院的多个科研项目提供更高性能、更具弹性、更低成本和更绿色的智能计算服务。

复旦大学浩清教授、人工智能创新与产业研究院院长漆远表示,有赖于公共云模式,跑在CFFF平台上的项目可享受到超千卡并行的智能算力,千卡并行的有效算力达到行业领先的92%,可拓展性达到万卡,万卡并行有效算力也可达90%。

另外,据复旦大学方面介绍,CFFF平台还拥有国内高校最大规模的多级数据冷热分层存储集群,解决了海量科研数据无法长期备份的痛点,并支持云上高速传输。以往PB级科研数据从复旦校内传到西部数据中心需要两周,如今当天就能完成,真正实现了“东数西算”。

高校与企业如何合作?

启动仪式之后,金力和王坚一道接受了媒体采访。谈到此次阿里云与复旦大学的合作,王坚和金力均表示,企业与高校的合作不应仅仅局限于产学研科技成果转化的范畴,而应将其看作企业与高校联合创新并联合培养人才的活动。

王坚表示,高校和企业的合作不仅是高校把研究成果转化到企业这样一个简单的关系,而是可以创造出更多东西。回溯历史,IBM和哥伦比亚大学的合作诞生了计算机专业,MIT和贝尔实验室的合作诞生了通讯专业,而此次阿里云与复旦大学的合作也可以在未来创造更多新的机会。王坚还提到,用GPU(图形处理器)来做AI计算的方法是高校老师和学生首先使用的,但产业界后来将这种方法做成了规模化,这让高校和产业界在创新上有了更好的联动。

金力表示,科技飞速发展为高校如何培养学生造成了很大挑战,一方面是跨学科的融合,另一方面是新技术不断地产生,为此产教融合非常重要,“这种产教融合不是一个单纯的技术转移的格局,而是创新上和人才培养上高校和企业密切的互动。创新不是简单地为企业解决一个技术,而是能在国际竞争当中处于优势地位,在人才培养上企业能更多看到社会的进步,因此也能让高校的人才培养看到目标和方向。”

金力还从复旦大学的角度对新一代工程师的培养提出了新的观点,他表示:“中国发展到现在,培养工程师除了量的角度,还有一个质的角度,也就是我们不仅要培养更多的工程师,还要培养卓越的工程师。”

“很多人觉得复旦大学文科好,后来发现我们理科也不错,但是复旦大学的工科没有形成优势。”金力坦言,“原来传统的工科更多强调用成熟的技术和材料去做工程上的实现,总是强调高端、前端,但从产业角度来说这些东西是没用的。现在我们强调把原创的东西去做工程化的实现,希望把没用的东西变成有用,这就是传统工科和新工科的区别。”

标签: