v2.0 发布 — 语义缓存 & 自动 Fallback 已上线

全球统一 LLM API
交易平台

查看文档
注册即送额度 不绑定信用卡 30 秒跑通第一个请求 兼容 OpenAI SDK
termiio — 实时请求流
在线 0 req/s
14:32:01 POST /v1/chat/completions gpt-4o 200 1.2s 847 tok $0.0089
14:32:03 POST /v1/chat/completions claude-sonnet-4 200 0.9s 1,203 tok $0.0214
14:32:05 POST /v1/chat/completions deepseek-v3 200 0.6s 562 tok $0.0003
14:32:06 POST /v1/chat/completions gemini-2.5-pro 200 1.8s 2,041 tok $0.0231
14:32:08 等待下一个请求...

已接入全球主流 AI 供应商

不只是代理转发
是完整的模型运维层

把「对接模型」这件事从业务代码里彻底剥离出来

协议归一化

OpenAI、Anthropic、Gemini 各有各的请求格式。Termiio 在网关层做协议翻译,你只需要写一种格式。

零迁移成本

故障自愈路由

主模型超时 → 自动切到备选 → 再不行换供应商。整个过程对调用方透明。

成本 X 光机

每笔请求花费精确到小数点后四位。按团队、项目、模型三维拆账,支持预算告警。

多租户 Key 体系

主 Key 派生子 Key,限定模型、RPM、预算上限。适合 SaaS 平台分发能力。

输入输出防火墙

Prompt 注入扫描、PII 自动脱敏、自定义规则引擎,让合规团队睡个好觉。

流量整形器

令牌桶排队 + 请求整形,把突发尖峰削平,避免 429 错误打断业务流。

Prompt 版本控制

控制台管理 Prompt 模板,支持灰度发布和 A/B 对比,改 Prompt 不用重新部署。

Tool Use 协议桥

Function Calling / Tool Use / Gemini 工具调用,网关做协议转换,Agent 代码写一次就够。

私有化部署

Docker 镜像拉下来就能跑。数据留在你自己的网络内,满足金融、医疗、政务场景。

三步接入,即刻上线

01

拿到你的 Key

注册后控制台会生成一个 sk-termiio-* 格式的 Key。把你已有的供应商 Key 录入进来,或者直接用 Termiio 的共享资源池。

02

换掉一行 URL

把代码里的 api.openai.com 换成 api.termiio.dev,其他什么都不用动。Python、Node、Go、Java、cURL 全部适用。

03

看数据,调策略

Dashboard 里每笔请求的模型、耗时、花费一清二楚。觉得某个模型太贵?配一条路由规则,下次自动走更便宜的。

Playground — 即刻体验

选个模型,输入 Prompt,点击发送。不用写代码,直接感受 Termiio 的能力

0.7
延迟
Tokens
花费
缓存
系统

选择模型,输入消息,点击发送开始对话。

语义缓存命中演示
请求 A
"帮我解释什么是 Transformer"
MISS · 1.3s · $0.012
请求 B
"Transformer 架构是什么意思?"
HIT · 12ms · $0.000
请求 C
"能讲讲 Transformer 的原理吗"
HIT · 8ms · $0.000
💰 本轮节省 $0.024,命中率 66.7%

语义缓存
相似问题不重复付费

不是简单的字符串匹配。Termiio 用向量相似度识别语义相近的请求,命中缓存后直接返回结果——延迟从秒级降到毫秒级,Token 费用直接归零。

  • 基于 Embedding 的语义匹配,非精确字符串比对
  • 可配置相似度阈值(0.85 ~ 0.99)
  • 按模型、按 Key 独立缓存空间
  • 支持 TTL 过期和手动清除

你的 AI 支出,一屏看透

不是事后对账单,是每一笔请求的实时流水

今日请求
14,328
↑ 12.4%
今日花费
$127.45
↓ 8.2%
缓存命中率
34.7%
节省 $67
P99 延迟
2.1s
稳定
过去 24 小时请求量 & 成本趋势
00
02
04
06
08
10
12
14
16
18
20
22
时间模型状态延迟Tokens花费
16:42:03gpt-4o2001.3s847$0.0089
16:42:01deepseek-v32000.4s562$0.0003
16:41:58claude-sonnet-42000.9s1,203$0.0214
16:41:55gpt-4o429$0.0000
16:41:52gemini-2.5-pro2001.8s2,041$0.0231
16:41:49deepseek-r12002.1s3,204$0.0041
GPT-4o
1.2s avg$0.012/req
Claude Sonnet 4
0.9s avg$0.021/req
DeepSeek-V3
0.5s avg$0.0003/req
Gemini 2.5 Pro
1.6s avg$0.018/req
🔔月度预算超过 $500 时通知已启用
⚠️单模型错误率 > 5% 时告警已启用
📊P99 延迟 > 5s 时通知未启用
💰单次请求花费 > $0.10 时告警已启用

你的代码改动量:
一行

如果你已经在用 OpenAI 的 SDK,把 base_url 指向 Termiio 就行了。不需要装新依赖,不需要改调用逻辑。

  • OpenAI / Anthropic / Vercel AI SDK 直接可用
  • 每笔请求自动打上成本、延迟、Token 标签
  • Streaming / SSE 流式输出原生支持
  • Function Calling 跨模型协议自动转换
  • 图片、音频等多模态输入透传
  • JSON Mode / Structured Output 开箱即用
import openai

client = openai.OpenAI(
    api_key="sk-termiio-xxxxxxxx",
    base_url="https://api.termiio.dev/v1"
)

# 随时切换模型,无需修改其他代码
response = client.chat.completions.create(
    model="gpt-4o",  # 或 claude-sonnet-4, deepseek-v3...
    messages=[
        {"role": "system", "content": "你是一个有帮助的助手"},
        {"role": "user", "content": "用 Python 写一个快速排序"}
    ],
    stream=True
)

for chunk in response:
    print(chunk.choices[0].delta.content, end="")

模型超市,按需取用

不用注册十个平台拿十把 Key。在这里挑模型,像挑商品一样直观

OpenAI热门

GPT-4o

输入$2.50 / 1M tok
输出$10.00 / 1M tok
128K多模态Tool Use
OpenAI

GPT-4.1

输入$2.00 / 1M tok
输出$8.00 / 1M tok
1M多模态Tool Use
Anthropic热门

Claude Sonnet 4

输入$3.00 / 1M tok
输出$15.00 / 1M tok
200KTool UseVision
Google

Gemini 2.5 Pro

输入$1.25 / 1M tok
输出$10.00 / 1M tok
1M多模态代码
DeepSeek超值

DeepSeek-V3

输入$0.27 / 1M tok
输出$1.10 / 1M tok
128K高性价比中文优化
DeepSeek超值

DeepSeek-R1

输入$0.55 / 1M tok
输出$2.19 / 1M tok
128K推理思维链
Meta

Llama 4 Maverick

输入$0.20 / 1M tok
输出$0.60 / 1M tok
1M开源多模态
Mistral

Mistral Large

输入$2.00 / 1M tok
输出$6.00 / 1M tok
128K多语言代码
0
+
可用模型
0
+
AI 供应商
0
%
可用性 SLA
<50
ms
网关附加延迟

他们用 Termiio 在做这些事

💬

客服机器人分级调度

简单寒暄走 DeepSeek 省钱,涉及退款投诉自动升级到 Claude 处理。一条路由规则搞定。

🤖

多模型 Agent 编排

规划步骤用推理模型,执行工具调用用快模型,总结输出用便宜模型。切换模型像换参数一样简单。

📝

批量内容工厂

一次要生成 5000 篇商品描述?Termiio 把请求分散到多个供应商,吞吐量翻倍。

🔍

RAG 检索增强生成

Embedding 和 Chat 走同一个端点。用 text-embedding-3 做向量化,用 GPT-4o 做生成。

直连 vs 走 Termiio

直连各供应商 API通过 Termiio
接入新模型注册账号 → 申请 Key → 读文档 → 写适配代码改一个 model 参数
故障切换自己写重试逻辑和 Fallback 链网关自动处理,调用方无感
成本追踪登录 N 个后台分别查账单一个 Dashboard 看所有花费
Tool Use 格式每家格式不同,逐个适配统一格式,网关做协议翻译
请求缓存自己搭 Redis + 写匹配逻辑内置语义缓存,开箱即用
安全合规每个供应商单独配置统一防火墙 + PII 脱敏

开发者们怎么说

★★★★★

"之前每接一个新模型就要写一套适配代码,现在改个 model 字符串就行了。上线第一周就靠语义缓存省了 40% 的 Token 费。"

陈工
全栈工程师 · AI 客服创业团队
★★★★★

"我们的 Agent 需要同时调 GPT-4o 做规划、DeepSeek 做执行。以前要维护两套 SDK,现在一个端点全搞定。"

李明
技术负责人 · 某 SaaS 公司
★★★★★

"成本看板太好用了。之前月底才知道花了多少钱,现在实时能看到每个项目、每个模型的花费。"

王磊
CTO · 内容生成平台

花多少算多少,没有套路

模型调用费用透传,Termiio 只收网关服务费。免费版够你跑通 MVP

月付 年付 省 20%
免费版
¥0/月

适合个人开发者探索和原型验证

  • 每月 500K tokens 免费额度
  • 所有模型可用
  • 基础用量分析
  • 社区 Discord 支持
  • 3 个 API Key
  • 无 SLA 保障
  • 无自定义路由
企业版
定制

适合大规模部署和定制化需求

  • 无限 tokens 用量
  • 私有化部署 / 混合云
  • 专属技术客户经理
  • 自定义 SLA (99.99%)
  • SSO / SAML / OIDC
  • 审计日志 & 合规报告
  • 自定义安全护栏规则
  • 专属 Slack 频道支持
联系销售

FAQ

Termiio 是一个 API 网关层,兼容 OpenAI 格式。你通过 Termiio 可以用同一套代码访问 200+ 模型,同时获得统一的成本监控、智能路由、容灾切换、安全护栏等生产级能力。

网关层附加延迟 < 50ms(全球边缘节点)。相比 LLM 本身动辄数百毫秒到数秒的响应时间,几乎可以忽略不计。

所有供应商 API Key 使用 AES-256 加密存储,传输全程 TLS 1.3。我们不存储任何请求/响应内容。企业版支持私有化部署。

完全兼容 OpenAI API 格式,任何支持 OpenAI SDK 的语言都可以直接使用——Python、Node.js、Go、Java、Rust、Ruby、PHP 等。

免费版每月包含 500K tokens。超出后按各模型的标准价格计费。专业版包含 10M tokens,超出部分享受 9 折优惠。所有费用在 Dashboard 实时可见。

30 秒后你就能发出第一个请求

注册 → 拿 Key → 改 URL → 跑通。就这么简单。500K tokens 免费额度已经在等你了。

查看文档