v2.0 发布 — 语义缓存 & 自动 Fallback 已上线

全球统一 LLM API
交易平台

查看文档

✓ 注册即送额度 ✓ 不绑定信用卡 ✓ 30 秒跑通第一个请求 ✓ 兼容 OpenAI SDK

termiio — 实时请求流

在线 0 req/s

14:32:01 POST /v1/chat/completions gpt-4o 200 1.2s 847 tok $0.0089

14:32:03 POST /v1/chat/completions claude-sonnet-4 200 0.9s 1,203 tok $0.0214

14:32:05 POST /v1/chat/completions deepseek-v3 200 0.6s 562 tok $0.0003

14:32:06 POST /v1/chat/completions gemini-2.5-pro 200 1.8s 2,041 tok $0.0231

14:32:08 等待下一个请求...

核心能力

不只是代理转发
是完整的模型运维层

把「对接模型」这件事从业务代码里彻底剥离出来

协议归一化

OpenAI、Anthropic、Gemini 各有各的请求格式。Termiio 在网关层做协议翻译，你只需要写一种格式。

零迁移成本

故障自愈路由

主模型超时 → 自动切到备选 → 再不行换供应商。整个过程对调用方透明。

成本 X 光机

每笔请求花费精确到小数点后四位。按团队、项目、模型三维拆账，支持预算告警。

多租户 Key 体系

主 Key 派生子 Key，限定模型、RPM、预算上限。适合 SaaS 平台分发能力。

输入输出防火墙

Prompt 注入扫描、PII 自动脱敏、自定义规则引擎，让合规团队睡个好觉。

流量整形器

令牌桶排队 + 请求整形，把突发尖峰削平，避免 429 错误打断业务流。

Prompt 版本控制

控制台管理 Prompt 模板，支持灰度发布和 A/B 对比，改 Prompt 不用重新部署。

Tool Use 协议桥

Function Calling / Tool Use / Gemini 工具调用，网关做协议转换，Agent 代码写一次就够。

私有化部署

Docker 镜像拉下来就能跑。数据留在你自己的网络内，满足金融、医疗、政务场景。

工作原理

三步接入，即刻上线

拿到你的 Key

注册后控制台会生成一个 sk-termiio-* 格式的 Key。把你已有的供应商 Key 录入进来，或者直接用 Termiio 的共享资源池。

→

换掉一行 URL

把代码里的 api.openai.com 换成 api.termiio.dev，其他什么都不用动。Python、Node、Go、Java、cURL 全部适用。

→

看数据，调策略

Dashboard 里每笔请求的模型、耗时、花费一清二楚。觉得某个模型太贵？配一条路由规则，下次自动走更便宜的。

语义缓存命中演示

请求 A

"帮我解释什么是 Transformer"

MISS · 1.3s · $0.012

请求 B

"Transformer 架构是什么意思？"

HIT · 12ms · $0.000

请求 C

"能讲讲 Transformer 的原理吗"

HIT · 8ms · $0.000

💰 本轮节省 $0.024，命中率 66.7%

独家能力

语义缓存
相似问题不重复付费

不是简单的字符串匹配。Termiio 用向量相似度识别语义相近的请求，命中缓存后直接返回结果——延迟从秒级降到毫秒级，Token 费用直接归零。

✓ 基于 Embedding 的语义匹配，非精确字符串比对
✓ 可配置相似度阈值（0.85 ~ 0.99）
✓ 按模型、按 Key 独立缓存空间
✓ 支持 TTL 过期和手动清除

可观测性

你的 AI 支出，一屏看透

不是事后对账单，是每一笔请求的实时流水

今日请求

14,328

↑ 12.4%

今日花费

$127.45

↓ 8.2%

缓存命中率

34.7%

节省 $67

P99 延迟

2.1s

稳定

过去 24 小时请求量 & 成本趋势

时间模型状态延迟Tokens花费

16:42:03gpt-4o2001.3s847$0.0089

16:42:01deepseek-v32000.4s562$0.0003

16:41:58claude-sonnet-42000.9s1,203$0.0214

16:41:55gpt-4o429——$0.0000

16:41:52gemini-2.5-pro2001.8s2,041$0.0231

16:41:49deepseek-r12002.1s3,204$0.0041

GPT-4o

1.2s avg$0.012/req

Claude Sonnet 4

0.9s avg$0.021/req

DeepSeek-V3

0.5s avg$0.0003/req

Gemini 2.5 Pro

1.6s avg$0.018/req

🔔月度预算超过 $500 时通知已启用

⚠️单模型错误率 > 5% 时告警已启用

📊P99 延迟 > 5s 时通知未启用

💰单次请求花费 > $0.10 时告警已启用

极简集成

你的代码改动量：
一行

如果你已经在用 OpenAI 的 SDK，把 base_url 指向 Termiio 就行了。不需要装新依赖，不需要改调用逻辑。

✓ OpenAI / Anthropic / Vercel AI SDK 直接可用
✓ 每笔请求自动打上成本、延迟、Token 标签
✓ Streaming / SSE 流式输出原生支持
✓ Function Calling 跨模型协议自动转换
✓ 图片、音频等多模态输入透传
✓ JSON Mode / Structured Output 开箱即用

import openai

client = openai.OpenAI(
    api_key="sk-termiio-xxxxxxxx",
    base_url="https://api.termiio.dev/v1"
)

# 随时切换模型，无需修改其他代码
response = client.chat.completions.create(
    model="gpt-4o",  # 或 claude-sonnet-4, deepseek-v3...
    messages=[
        {"role": "system", "content": "你是一个有帮助的助手"},
        {"role": "user", "content": "用 Python 写一个快速排序"}
    ],
    stream=True
)

for chunk in response:
    print(chunk.choices[0].delta.content, end="")

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: "sk-termiio-xxxxxxxx",
  baseURL: "https://api.termiio.dev/v1",
});

const stream = await client.chat.completions.create({
  model: "claude-sonnet-4",
  messages: [
    { role: "user", content: "用 TypeScript 实现一个 LRU Cache" }
  ],
  stream: true,
});

for await (const chunk of stream) {
  process.stdout.write(chunk.choices[0]?.delta?.content || "");
}

# 标准 OpenAI 兼容格式
curl https://api.termiio.dev/v1/chat/completions \
  -H "Authorization: Bearer sk-termiio-xxxxxxxx" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-v3",
    "messages": [
      {"role": "user", "content": "解释一下 Transformer 架构"}
    ],
    "stream": true
  }'

package main

import (
    "context"
    "fmt"
    openai "github.com/sashabaranov/go-openai"
)

func main() {
    config := openai.DefaultConfig("sk-termiio-xxxxxxxx")
    config.BaseURL = "https://api.termiio.dev/v1"
    client := openai.NewClientWithConfig(config)

    resp, _ := client.CreateChatCompletion(
        context.Background(),
        openai.ChatCompletionRequest{
            Model: "gemini-2.5-pro",
            Messages: []openai.ChatCompletionMessage{
                {Role: "user", Content: "你好"},
            },
        },
    )
    fmt.Println(resp.Choices[0].Message.Content)
}

模型市场

模型超市，按需取用

不用注册十个平台拿十把 Key。在这里挑模型，像挑商品一样直观

OpenAI热门

GPT-4o

输入$2.50 / 1M tok

输出$10.00 / 1M tok

128K多模态Tool Use

OpenAI新

GPT-4.1

输入$2.00 / 1M tok

输出$8.00 / 1M tok

1M多模态Tool Use

Anthropic热门

Claude Sonnet 4

输入$3.00 / 1M tok

输出$15.00 / 1M tok

200KTool UseVision

Google

Gemini 2.5 Pro

输入$1.25 / 1M tok

输出$10.00 / 1M tok

1M多模态代码

DeepSeek超值

DeepSeek-V3

输入$0.27 / 1M tok

输出$1.10 / 1M tok

128K高性价比中文优化

DeepSeek超值

DeepSeek-R1

输入$0.55 / 1M tok

输出$2.19 / 1M tok

128K推理思维链

Llama 4 Maverick

输入$0.20 / 1M tok

输出$0.60 / 1M tok

1M开源多模态

Mistral

Mistral Large

输入$2.00 / 1M tok

输出$6.00 / 1M tok

128K多语言代码

查看全部 200+ 模型 →

应用场景

他们用 Termiio 在做这些事

💬

客服机器人分级调度

简单寒暄走 DeepSeek 省钱，涉及退款投诉自动升级到 Claude 处理。一条路由规则搞定。

🤖

多模型 Agent 编排

规划步骤用推理模型，执行工具调用用快模型，总结输出用便宜模型。切换模型像换参数一样简单。

📝

批量内容工厂

一次要生成 5000 篇商品描述？Termiio 把请求分散到多个供应商，吞吐量翻倍。

🔍

RAG 检索增强生成

Embedding 和 Chat 走同一个端点。用 text-embedding-3 做向量化，用 GPT-4o 做生成。

	直连各供应商 API	通过 Termiio
接入新模型	注册账号 → 申请 Key → 读文档 → 写适配代码	改一个 model 参数
故障切换	自己写重试逻辑和 Fallback 链	网关自动处理，调用方无感
成本追踪	登录 N 个后台分别查账单	一个 Dashboard 看所有花费
Tool Use 格式	每家格式不同，逐个适配	统一格式，网关做协议翻译
请求缓存	自己搭 Redis + 写匹配逻辑	内置语义缓存，开箱即用
安全合规	每个供应商单独配置	统一防火墙 + PII 脱敏

用户反馈

开发者们怎么说

★★★★★

"之前每接一个新模型就要写一套适配代码，现在改个 model 字符串就行了。上线第一周就靠语义缓存省了 40% 的 Token 费。"

陈

陈工

全栈工程师 · AI 客服创业团队

★★★★★

"我们的 Agent 需要同时调 GPT-4o 做规划、DeepSeek 做执行。以前要维护两套 SDK，现在一个端点全搞定。"

李

李明

技术负责人 · 某 SaaS 公司

★★★★★

"成本看板太好用了。之前月底才知道花了多少钱，现在实时能看到每个项目、每个模型的花费。"

王

王磊

CTO · 内容生成平台

价格方案

花多少算多少，没有套路

模型调用费用透传，Termiio 只收网关服务费。免费版够你跑通 MVP

月付年付省 20%

免费版

¥0/月

适合个人开发者探索和原型验证

✓ 每月 500K tokens 免费额度
✓ 所有模型可用
✓ 基础用量分析
✓ 社区 Discord 支持
✓ 3 个 API Key
✗ 无 SLA 保障
✗ 无自定义路由

最受欢迎

专业版

¥99/月

适合成长中的团队和正式产品

✓ 每月 10M tokens 包含
✓ 所有模型 + 优先路由
✓ 高级分析看板 & 告警
✓ 邮件 + 工单支持
✓ 99.9% SLA
✓ 团队协作 (10 人)
✓ 自定义路由策略
✓ Prompt 管理

企业版

定制

适合大规模部署和定制化需求

✓ 无限 tokens 用量
✓ 私有化部署 / 混合云
✓ 专属技术客户经理
✓ 自定义 SLA (99.99%)
✓ SSO / SAML / OIDC
✓ 审计日志 & 合规报告
✓ 自定义安全护栏规则
✓ 专属 Slack 频道支持

联系销售

常见问题

FAQ

Termiio 是一个 API 网关层，兼容 OpenAI 格式。你通过 Termiio 可以用同一套代码访问 200+ 模型，同时获得统一的成本监控、智能路由、容灾切换、安全护栏等生产级能力。

网关层附加延迟 < 50ms（全球边缘节点）。相比 LLM 本身动辄数百毫秒到数秒的响应时间，几乎可以忽略不计。

所有供应商 API Key 使用 AES-256 加密存储，传输全程 TLS 1.3。我们不存储任何请求/响应内容。企业版支持私有化部署。

完全兼容 OpenAI API 格式，任何支持 OpenAI SDK 的语言都可以直接使用——Python、Node.js、Go、Java、Rust、Ruby、PHP 等。

免费版每月包含 500K tokens。超出后按各模型的标准价格计费。专业版包含 10M tokens，超出部分享受 9 折优惠。所有费用在 Dashboard 实时可见。

全球统一 LLM API
交易平台

不只是代理转发
是完整的模型运维层

协议归一化

故障自愈路由

成本 X 光机

多租户 Key 体系

输入输出防火墙

流量整形器

Prompt 版本控制

Tool Use 协议桥

私有化部署

三步接入，即刻上线

拿到你的 Key

换掉一行 URL

看数据，调策略

Playground — 即刻体验

语义缓存
相似问题不重复付费

你的 AI 支出，一屏看透

你的代码改动量：
一行

模型超市，按需取用

GPT-4o

GPT-4.1

Claude Sonnet 4

Gemini 2.5 Pro

DeepSeek-V3

DeepSeek-R1

Llama 4 Maverick

Mistral Large

他们用 Termiio 在做这些事

客服机器人分级调度

多模型 Agent 编排

批量内容工厂

RAG 检索增强生成

直连 vs 走 Termiio

开发者们怎么说

花多少算多少，没有套路

FAQ

30 秒后你就能发出第一个请求

注册成功

全球统一 LLM API 交易平台

不只是代理转发是完整的模型运维层

协议归一化

故障自愈路由

成本 X 光机

多租户 Key 体系

输入输出防火墙

流量整形器

Prompt 版本控制

Tool Use 协议桥

私有化部署

三步接入，即刻上线

拿到你的 Key

换掉一行 URL

看数据，调策略

Playground — 即刻体验

语义缓存相似问题不重复付费

你的 AI 支出，一屏看透

你的代码改动量：一行

模型超市，按需取用

GPT-4o

GPT-4.1

Claude Sonnet 4

Gemini 2.5 Pro

DeepSeek-V3

DeepSeek-R1

Llama 4 Maverick

Mistral Large

他们用 Termiio 在做这些事

客服机器人分级调度

多模型 Agent 编排

批量内容工厂

RAG 检索增强生成

直连 vs 走 Termiio

开发者们怎么说

花多少算多少，没有套路

FAQ

30 秒后你就能发出第一个请求

全球统一 LLM API
交易平台

不只是代理转发
是完整的模型运维层

语义缓存
相似问题不重复付费

你的代码改动量：
一行