智谱 GLM-5.1 高速版 AI 模型发布,跑出全球最快速度 400 tokens/s
智谱联合TileRT推出GLM-5.1高速版,推理速度高达400 tokens/s,并已在华为昇腾算力上实现生产级部署。
IT之家 5 月 22 日消息,智谱今日宣布面向部分企业客户提供 GLM-5.1 高速版 API“GLM-5.1-highspeed” 。 该模型输出速度达到 400 tokens/s ,刷新当前全球大模型厂商 API 的速度上限。 更重要的是,在过去,“快”往往意味着“小”,高速模型几乎总是轻量级…