近日,在上海仪电集团的组织下,无问芯穹联合天数智芯在千卡集群的训练优化中取得了突破性的性能提升,结合无问芯穹自研大模型训练框架能力,双方在天数智芯天垓150千卡集群上成功将70B LLaMA模型训练性能提升至国际领先水平,并将一个千亿级参数的MoE模型性能提升了53.5%。同时,双方在由512张天数卡与512张另一自主算力卡构成的异构千卡集群训练过程中,借助异构混训并行策略的优化,大幅提升了混训效率,使整体异构混训集群效率飙升至97.5%,这是无问芯穹继刷新国际主流算力与自主可控算力混合训练效率纪录后,又一次成功突破了自主算力混训集群效能的极限。
01 无问芯穹大模型训练引擎 与天垓150合力实现千卡集群性能飞跃
天垓150是天数智芯的通用GPU训练产品,适配各类主流芯片或服务器厂商,能够支持国内外主流AI生态和各种深度学习框架,并通过标准化的软硬件生态接口为行业解决产品使用难、开发平台迁移成本大等痛点,大幅缩短适配验证周期,使客户业务可以几乎无感知的使用天垓产品。
面对大规模模型训练的复杂场景,通常需要综合考虑模型规模、场景特征、现有资源限制等因素以选择合适的并行方案,不仅耗时且试错成本高。无问芯穹大模型训练引擎中的自研训练框架,能够通过自动并行和性能预测工具为用户挑选出最佳并行策略,用户无需忧心资源规格与数量,最大程度节约试错成本与测试时间,提升训练效率。同时还支持主流模型结构,兼容多元硬件集群,具备迁移便利、优化快速等优势。

本次训练调优合作,双方基于天垓150千卡集群,深度融合无问芯穹自研训练框架能力,充分发挥天数智芯在高性能通用GPU自主研发领域的优势,协力实现了集群训练性能的快速优化,成功在天数天垓150千卡集群上将70B LLaMA模型训练性能提升至国际领先水平,并将一个千亿级参数的MoE大语言模型训练性能提升53.5%。
在天数天垓150千卡集群的训练中,无问芯穹自研训练框架提供的自动并行训练方案,精准契合了复杂的训练需求,大幅节省了训练前期决策成本。经联合调优,现该集群可以更高质量服务支持客户进行各种模型微调、参数微调,克服开发平台迁移成本高等痛点,大幅缩短适配验证周期,实现业务系统的无缝切换使用,解决大模型训练高端算力紧缺的瓶颈问题,从算力底层支持国内大模型创新发展。
02 自主算力间千卡异构混训 聚力突破集群效能极限
智能算力基础设施是人工智能时代算力基础设施的核心载体,随着大模型的发展和应用场景突破,智能算力正在为产业赋能带来实质性推进,为企业智能化改造和数字化转型提供有力支撑,助力数字技术与实体经济深度融合、壮大算力作为新质生产力的重要引擎。随着自主异构算力在新建智算集群中的不断渗透,如何有效利用这些算力资源,已成为中国大模型产业继续发展的关键问题。
无问芯穹依托多元异构、软硬协同的技术优势,构建起能够连接“M种模型”和“N种芯片”的“MxN”AI基础设施新范式,实现各种大模型算法在多元算力上的高效协同部署与运行,为突破这一瓶颈提供了切实可行的解决方案。不久之前,无问芯穹作为核心贡献者,在由512张天数卡与512张另一自主算力卡构成的异构千卡集群训练中,使用自研的异构芯片互联通信技术打通芯片间通信壁垒,并借助无问芯穹大模型训练引擎与独特的异构混训并行策略,使整体异构混训集群效率飙升至97.5%,成功突破了自主算力混训集群效能的极限。
无问芯穹大模型训练引擎中的自研训练框架在异构算力混训中,能够针对不同芯片的算力自动进行任务的非均匀切分和并行策略挑选,大幅提升异构混训的效率。在这一核心能力的加持下,无问芯穹的异构算力混训方案可在更大范围内连接不同模型和芯片,并在推动异构算力的有效利用方面发挥重要作用。
03 持续开拓异构混训“无人区” 以实践出真知、见真章
无问芯穹曾发布了全球首个支持单任务千卡规模异构芯片混合训练的平台——Infini-AI异构云平台,实现了天数智芯天垓产品等六种芯片间的“4+2”式两两混训,算力利用率最高可达97.6%,在这一系列混训工作中,无问芯穹大模型训练引擎克服了不同芯片架构之间协同工作的技术挑战,有效提升了国际主流算力与自主可控算力间混合训练的效率与稳定性。
而在本次天数智芯天垓150相关千卡集群训练与异构训练中,所涉及到相关算子、并行编排策略优化,现都已并入无问芯穹的自研训练框架。这些从大规模训练实践中所获得的经验,将反哺无问芯穹大模型训练能力的继续提升,并被封装到训练产品中赋能各行业场景客户。
无问芯穹的Infini-AI异构云平台为开发者与客户提供了充沛的异构算力与灵活易用的大模型服务,向大模型开发者提供极致性价比的高性能算力和原生工具链,更有顶尖的推理加速能力加持,为大模型从开发到部署的全生命流程降本增效,且已在多个人工智能领域头部客户的使用中得到充分的算力基础设施能力验证。此前,Infini-AI异构云平台已与天数智芯联合完成了智铠100GPU 的百卡推理集群测试、上线并正式对外提供大模型服务。所有用户均可以灵活调用该集群,支持包括对话问答、数据标注、内容理解与分析、信息抽取在内的多种主流任务场景。未来,无问芯穹和天数智芯将继续深化合作,持续构筑更开放的大模型产业异构算力底座,共建自主可控的算力生态,为各行各业的大模型训练与推理提供更优质的算力服务。

