中国工程院院士刘韵洁:国产算力要通过GPU集群补短板

中国工程院院士刘韵洁:国产算力要通过GPU集群补短板

文章图片

中国工程院院士刘韵洁:国产算力要通过GPU集群补短板

本文由半导体产业纵横(ID:ICVIEWS)转载自新京报
弥补短板的可能办法是建设算力网络“把整个算力练起来” , 发挥GPU集群效果 。
【中国工程院院士刘韵洁:国产算力要通过GPU集群补短板】
AI(人工智能)时代同样也是算力的时代 。 国内外的科技企业、电信运营商纷纷“卷”起了万卡乃至超万卡 , 但生态兼容、异构计算等难题也成为行业必须翻越的高山 。
9月28日 , 在2024中国算力大会开幕式期间 , 中国工程院院士刘韵洁接受新京报贝壳财经等媒体采访时表示 , 短时间内国内端点GPU仍无法与国外竞争 。 弥补短板的可能办法是建设算力网络“把整个算力练起来” , 发挥GPU集群效果 。
另外 , 他指出 , 不能简单判断哪类企业建设算力网络更有优势 , 主要还得通过技术评判 。 “看你的技术能不能使用、怎么发展 , 看你的创新、走的路径是不是符合需要 。 ”对于算力成本问题 , 他仍强调“要用新技术解决” 。
目前 , 刘韵洁研究的确定性网络技术能节省60%到70%的成本 , 他联合其他机构推出的算网调度项目 , 能够实现多个异地训练达到单点训练80%的效率 。

中国工程院院士刘韵洁
建议走行业大模型赛道 , 要解决数据流通和算力利用率问题“中国要走行业大模型这条路 。 ”刘韵洁在主旨演讲中强调 。 他认为 , 国内通用大模型短期内跟美国相比可能差距较大 , 并且追赶起来具有一定难度 。
他提出 , 国内模型企业如果能够在通用大模型基础上 , 把行业数据训练好、做好行业大模型 , “完全可以走出中国道路” 。 他看好这一技术方向是因为他认为“中国行业数据最完整、全面” 。
同时他表示 , 发展行业大模型需要政府、企业、资本一起努力 。 他向贝壳财经记者表示 , 当前 , 国内数据的共享、流通程度仍有待加强 , 这对训练行业大模型产生了影响 , “大家还在摸索”哪类赛道更有前景 。
2024中国算力大会披露的数据显示 , 全国算力总规模达246 EFLOPS 。 据刘韵洁观察 , 国产算力已具备一定规模 , 但利用率不算十分理想 。
“算力想要服务实体经济 , 得几方都说好 。 ”刘韵洁认为 , 首先算力和网络提供方要说好 , “(因为)它们通过这些服务获得了效益” 。 另外政府要说好 , “(因为)政府解决了问题” 。 最后企业要说好 , “(因为)企业通过使用算力、网络提升了自身效率” 。
他强调 , 只是“一方说好”的效果并不持久 , 这代表行业没有建立起算力生态 。 “不解决生态问题 , 大家也用不起来(算力) 。 ”
确定性网络是未来算力网基础技术之一 , 将节省60%-70%成本“大模型训练要求数据无损传输 , 对丢包、抖动和时延等网络指标提出要求 。 ”刘韵洁说 。 他以国际数据标准为例解释称 , 丢包率达千分之五 , 传输效率将下降50% 。
他进一步解释道 , 这就像在利用整条100G带宽传输数据时 , 只有50G的带宽有用 。 “当下降到1%时 , 它的效率约等于0 , 这就没办法训练、推理 。 ”
网络不丢包需要采用RDMA(远程直接内存访问)协议 。 该技术使计算机能够直接访问远程计算机的内存 , 在内存层面进行数据传输而无需CPU频繁介入 , 减少数据传输过程中收发端的处理延迟及资源消耗 。
如何达到大模型训练、推理的数据传输标准?刘韵洁认为 , 确定性网络技术相对符合要求 , 他判断它是“将来算力网的一项基础技术” 。 刘韵洁透露 , 2022年他带领团队在35个城市开通了确定性网络 , 目前城市数量已增至39个 , 能做到端到端的时延、抖动小于50微秒 , 实现零丢包 。
在研发确定性网络技术过程中 , 刘韵洁认为最重要的技术突破是光电融合 , 它带来带宽利用率、电网成本能耗等方面的突破 。
其中在成本方面 , 他以某一自动驾驶企业为例解释称 , 该企业在全国4个地方20辆车每天产生的自动驾驶数据 , 先传回上海再传到贵阳训练 , 大概需要两条10G和一条1G的电路 , 一年花费一千万元左右 。
用不起怎么办?改用硬盘收集数据 , 在两个城市间运输 , 考虑数据丢失、硬盘损害等情况 , 一年需要190万元左右 。 而利用确定性网络 , 通过切片提供服务 , “一年12万元就可以” 。
刘韵洁强调 , 这种程度的降本通过网络共享实现 。 他在主旨演讲中展示的数据显示:已在试验网上运行三个月以上 , 参数效率达95%以上 , 成本节省60%到70% 。
发挥GPU集群效果弥补国产算力短板算力网络可能成为未来国产算力超越国外算力的方向吗?刘韵洁表示 , 更准确的理解是“弥补短板” 。 他认为 , 短时间内 , 我们端点GPU仍无法与国外竞争 。 “可能我在单个方面比不过你 , 但发挥群体力量后有可能比得上 。 ”他进一步强调 , 发挥GPU集群效果需要建设网络“把整个算力练起来” 。
他认为 , 大模型可以走协同训练、分布式训练的路子 , “10万张卡在一个地方训练 , 电力会吃不消 。 ”他透露 , 他的团队与中国科学院、国家超级计算无锡中心等机构联合推出的全国算力网络调度项目 , 能够达到分钟级解决排队问题的效果 , 多个异地训练达到单点训练80%的效率 。 “基本上 , 分布式训练、协同训练是可行的 。 ”
当谈及如何协调算力硬件与软件发展关系时 , 刘韵洁提出 , 软硬件要结合、融合发展 。
他表示 , 硬件生产消耗地球物理资源 。 “(每)消耗一点 , 资源就少一点 。 ”而软件相对灵活 , 可以修改 , 对物理资源消耗较少 , “这是一个很重要的社会发展理念” 。 另外 , 刘韵洁认为 , 软件开发消耗一定的人力资源 , 但应用AI后 , 开发效率有所加快 。 他继而提出 , 凡是能用软件代替的部分 , 尽量发展软件 。
“但软件不是万能的 , 必须满足算力所要求的硬件条件 。 ”他认为 , 软件无法承担的部分要与硬件结合发展 。
如何打造共享的算力网络生态?刘韵洁建议 , 有关政府部门要把它协同、管理起来 , 企业和科研机构等要密切配合 。 “这是一个整体工程 , 但目前大家都是自己闷头干自己的 。 ”
*声明:本文系原作者创作 。 文章内容系其个人观点 , 我方转载仅为分享与讨论 , 不代表我方赞成或认同 , 如有异议 , 请联系后台 。

    推荐阅读