4月30日,智谱发布技术博客《Scaling Pain:超大规模Coding Agent推理实践》,首次系统披露GLM-5系列模型在超大规模Coding Agent调用场景下的底层推理技术突破。报告显示,经底层工程优化,GLM-5系列在Coding Agent场景下的系统吞吐量最高提升132%,系统异常输出率从万分之十几下降至万分之三以下。目前,智谱工程团队已将修复方案通过Pull Request #22811提交给了主流开源推理框架SGLang社区。