LLM API Test 性能测试工具

选 LLM API 供应商,只看官方宣传页可不行。首令牌延迟差 200ms,用户体验就天差地别;输出速度低 20 tok/s,批量处理成本直接翻倍。问题来了:怎么在签约之前,用真实场景跑一遍各家 API 的实际表现?

LLM API Test 就是干这个的——MIT 协议开源,一个 Web 界面同时测多家 API 的首令牌延迟、吞吐速度、成功率和响应质量,数据说话,不靠嘴说。

LLM API Test 是什么?

LLM API Test 是一款专注于 大模型 API 性能基准测试 的开源 Web 工具,核心能力:

  • 首令牌延迟(TTFT):衡量用户感知的响应速度,毫秒级精度
  • 输出吞吐(tok/s):统计每秒 Token 输出量,直接影响批量任务耗时
  • 成功率:连续调用统计可靠性,筛掉”偶尔翻车”的供应商
  • 质量比对:同一 Prompt 多模型并排输出,肉眼对比响应质量

支持 7 种界面语言(含中文),可接入任意兼容 OpenAI 协议的自定义端点,不锁定任何供应商。

支持哪些 API?

内置适配两大主流协议:

  • OpenAI 协议:GPT-3.5 / GPT-4 / GPT-4o / GPT-4 Turbo 全系列
  • Google Gemini 协议:Gemini Pro / Gemini Pro Vision
  • 自定义端点:任何兼容 OpenAI API 格式的供应商(Claude、DeepSeek、智谱、通义等)

这意味着你不仅能在 GPT-4 和 Gemini 之间做对比,还能把团队在用的所有 API 端点拉通测试

为什么需要独立的性能基准?

三个现实理由:

  1. 同一家供应商,不同机房延迟差 3-5 倍。社区排行榜 lmspeed.net 实时数据表明,同一 API 从上海和硅谷发起请求,TTFT 差距可达 400ms。
  2. 毫秒级响应已成关键指标。GPT-4.1 nano 发布后,低延迟商用模型把行业基准压到了新水平,选型必须实测。
  3. 行业标准正在建立。NVIDIA 推出 GenAI-Perf、MLCommons 发布 MLPerf Client 1.0,说明性能基准已从”加分项”变成”必答题”。

快速上手(3 步)

第一步:部署

git clone https://github.com/qjr87/llm-api-test
cd llm-api-test
npm install && npm start

浏览器打开 http://localhost:8000 即可使用。也支持 Vercel / Netlify / GitHub Pages 静态部署,官方提供 Dockerfile。

第二步:配置 API

在「配置」面板选择协议(OpenAI / Gemini / 自定义),填入 API URL 和密钥,按需列出要测的模型名。

第三步:运行测试

设置测试轮次、并发度、自定义 Prompt,点击 Start Test,实时图表会展示各家 API 的延迟曲线和吞吐对比。

典型使用场景

供应商选型:GPT-4 Turbo vs Gemini Pro vs Claude 3.5,谁快谁稳谁便宜,一张图看清。

成本-性能优化:TechRadar 2025 指南指出,开发者需在吞吐、质量和价格之间找平衡,性能测试是前期必做功课。

长期监控:历史记录持久化功能让团队可以跟踪模型迭代前后的性能变化——供应商说”升级了”,数据验证。

不适合谁?

不建议以下场景使用:

  • 只想偶尔测一条 API → 直接用 Postman / curl 更省事
  • 没有技术背景 → 界面虽然友好,但需要自己管理 API Key
  • 需要测模型智力 → 这是性能测试,不是 quality benchmark,要用 MMLU / HumanEval 类工具

相关资源

免责声明:本文基于项目公开页面与文档整理,LLM API Test 为 MIT 开源工具,测试结果受网络环境和供应商服务状态影响,数据仅供参考,选型决策请结合业务实际验证。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。