LLM API Test 评测：7 种语言开源工具，1 站测遍 GPT-4 / Gemini / Claude API 速度与可靠性

选 LLM API 供应商，只看官方宣传页可不行。首令牌延迟差 200ms，用户体验就天差地别；输出速度低 20 tok/s，批量处理成本直接翻倍。问题来了：怎么在签约之前，用真实场景跑一遍各家 API 的实际表现？

LLM API Test 就是干这个的——MIT 协议开源，一个 Web 界面同时测多家 API 的首令牌延迟、吞吐速度、成功率和响应质量，数据说话，不靠嘴说。

LLM API Test 是什么？

LLM API Test 是一款专注于 大模型 API 性能基准测试 的开源 Web 工具，核心能力：

首令牌延迟（TTFT）：衡量用户感知的响应速度，毫秒级精度
输出吞吐（tok/s）：统计每秒 Token 输出量，直接影响批量任务耗时
成功率：连续调用统计可靠性，筛掉”偶尔翻车”的供应商
质量比对：同一 Prompt 多模型并排输出，肉眼对比响应质量

支持 7 种界面语言（含中文），可接入任意兼容 OpenAI 协议的自定义端点，不锁定任何供应商。

支持哪些 API？

内置适配两大主流协议：

OpenAI 协议：GPT-3.5 / GPT-4 / GPT-4o / GPT-4 Turbo 全系列
Google Gemini 协议：Gemini Pro / Gemini Pro Vision
自定义端点：任何兼容 OpenAI API 格式的供应商（Claude、DeepSeek、智谱、通义等）

这意味着你不仅能在 GPT-4 和 Gemini 之间做对比，还能把团队在用的所有 API 端点拉通测试。

为什么需要独立的性能基准？

三个现实理由：

同一家供应商，不同机房延迟差 3-5 倍。社区排行榜 lmspeed.net 实时数据表明，同一 API 从上海和硅谷发起请求，TTFT 差距可达 400ms。
毫秒级响应已成关键指标。GPT-4.1 nano 发布后，低延迟商用模型把行业基准压到了新水平，选型必须实测。
行业标准正在建立。NVIDIA 推出 GenAI-Perf、MLCommons 发布 MLPerf Client 1.0，说明性能基准已从”加分项”变成”必答题”。

快速上手（3 步）

第一步：部署

git clone https://github.com/qjr87/llm-api-test
cd llm-api-test
npm install && npm start

浏览器打开 http://localhost:8000 即可使用。也支持 Vercel / Netlify / GitHub Pages 静态部署，官方提供 Dockerfile。

第二步：配置 API

在「配置」面板选择协议（OpenAI / Gemini / 自定义），填入 API URL 和密钥，按需列出要测的模型名。

第三步：运行测试

设置测试轮次、并发度、自定义 Prompt，点击 Start Test，实时图表会展示各家 API 的延迟曲线和吞吐对比。

典型使用场景

供应商选型：GPT-4 Turbo vs Gemini Pro vs Claude 3.5，谁快谁稳谁便宜，一张图看清。

成本-性能优化：TechRadar 2025 指南指出，开发者需在吞吐、质量和价格之间找平衡，性能测试是前期必做功课。

长期监控：历史记录持久化功能让团队可以跟踪模型迭代前后的性能变化——供应商说”升级了”，数据验证。

不适合谁？

不建议以下场景使用：

只想偶尔测一条 API → 直接用 Postman / curl 更省事
没有技术背景 → 界面虽然友好，但需要自己管理 API Key
需要测模型智力 → 这是性能测试，不是 quality benchmark，要用 MMLU / HumanEval 类工具

LLM API Test 评测：7 种语言开源工具，1 站测遍 GPT-4 / Gemini / Claude API 速度与可靠性

LLM API Test 是什么？

支持哪些 API？

为什么需要独立的性能基准？

快速上手（3 步）

典型使用场景

不适合谁？

相关资源

近期文章

诗境：AI匹配诗句，创意分享卡片，文艺氛围轻松营造

一键AI口播助手

MotionSites：225+ AI 建站模板库，复制提示词即生成落地页

Imagefree：免费 AI 文生图工具，无需注册无限生成高清图片

Inkora：扫描PDF智能OCR转换工具，公式表格复杂排版全搞定

FiNews：AI Agent 自动整理美股盘后日报，告别多站切换

LLM API Test 评测：7 种语言开源工具，1 站测遍 GPT-4 / Gemini / Claude API 速度与可靠性

LLM API Test 是什么？

支持哪些 API？

为什么需要独立的性能基准？

快速上手（3 步）

典型使用场景

不适合谁？

相关资源

相关文章

近期文章

标签云