
招商银行有一支专门与算力“较劲”的团队。他们只有218人,却通过一系列技术创新,为大规模推广国产异构算力卡扫清了技术障碍,更向开源社区贡献了超过200个关键特性,成为国内银行业中唯一同时担任主流开源推理框架vLLM-Ascend和训练框架MS-Swift项目维护者的企业。
最初在招行率先布局国产异构算力卡时,产品兼容性差、性能短板明显,商用云底座迭代缓慢,难以满足金融级高可用性的要求。是等,还是勉强使用?招行架构管理团队选择了一条更难的路——自研。
他们从零搭建“AI原生”智算云底座、自研的高效异构算力虚拟化与调度框架,在金融行业首次实现5种异构卡的池化管理和分钟级调度;自主打造的高速组网方案让跨机柜低效调度概率降低30%;全链路监控体系更把模型服务可用性稳稳托举到金融级高可用的99.999%。
让国产算力行业跑起来只是第一步,跑得快、跑得省更是难得的硬功夫。招行架构管理团队自研推理加速框架,落地集群化推理能力,使全场景综合推理性能大幅跃升,多项成果均为业界首创:统一并行投机推理和零气泡调度方案,使推理性能提升100%以上;KV Cache Offload方案,在Agent长上下文场景时延降低30%以上;超低时延的Serverless算力卡方案,冷启动时间从10分钟缩短到1秒至3秒。
训练领域的成果同样硬核。招行架构管理团队联合开源社区发布的新一代训练框架Twinkle,首创“训练即服务”模式,实测可支持多达8个用户在同一个基座模型上同时微调,算力资源大幅节省87.5%;通过“四维并行”等突破,使面对百亿级参数模型的单步训练效率提升近40%,长序列场景下模型显存占用骤降45%;首次落地的前缀缓存分组复用算法,在保证训练精度的前提下单步训练耗时大幅缩短,最高加速比达到27%。他们把国产芯片的潜力一点点“挤”了出来。
技术不能停在机房,需要走到一线。面对行内AI应用需求爆发式增长,为了降低业务人员参与AI应用开发的门槛,招行架构管理团队又一次开启了应用侧自主可控的攻坚。仅用2个月,团队便完成了一站式可视化、配置化AI应用开发平台的研发上线,让业务人员无需深厚技术背景即可快速上手。
从智算底座的自主突围,到训推全栈突破,再到AI赋能一线,招行架构管理团队用一行行代码和一次次的攻坚,证明了国产算力不仅能撑住金融关键业务,还能跑出创新加速度。成绩背后,是他们始终秉持的信念:让每一份算力都转化为真实的生产力,让前沿技术迭代不再受制于工程与成本瓶颈。