logo

多模态

多模态能力取决于选中的模型。请通过 GET /v1/models 或控制台价格页确认当前可用的多模态模型。

图像

OpenAI 风格图像生成:

curl https://llmoxy.com/v1/images/generations \
  -H "Authorization: Bearer <LLMOXY_API_KEY>" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "dall-e-3",
    "prompt": "A clean product icon for an LLM gateway",
    "size": "1024x1024",
    "response_format": "url"
  }'

LLMoxy 也会转发模型特有的图像参数,只要所选模型支持它们。

图像编辑路由:

POST /v1/images/edits
POST /v1/edits

音频

文本转语音:

curl https://llmoxy.com/v1/audio/speech \
  -H "Authorization: Bearer <LLMOXY_API_KEY>" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tts-1",
    "input": "Hello from LLMoxy.",
    "voice": "alloy",
    "response_format": "mp3"
  }' \
  --output speech.mp3

音频转录和翻译使用 multipart 表单上传:

POST /v1/audio/transcriptions
POST /v1/audio/translations

视频

OpenAI 兼容视频生成:

curl https://llmoxy.com/v1/videos \
  -H "Authorization: Bearer <LLMOXY_API_KEY>" \
  -F model=sora-2 \
  -F prompt="cute cat dance" \
  -F seconds=8

查询状态:

curl "https://llmoxy.com/v1/videos/$TASK_ID" \
  -H "Authorization: Bearer <LLMOXY_API_KEY>"

下载内容:

curl "https://llmoxy.com/v1/videos/$TASK_ID/content" \
  -H "Authorization: Bearer <LLMOXY_API_KEY>" \
  --output output.mp4

LLMoxy 也支持 POST /v1/video/generations 的 JSON 视频生成接口,以及 Kling、Jimeng 等厂商风格路由。具体支持的模型请查看控制台模型列表。

Realtime

Realtime 使用 WebSocket 端点:

wss://llmoxy.com/v1/realtime?model=gpt-4o-realtime-preview

服务端客户端可在握手时使用标准认证头;浏览器客户端可使用 OpenAI 风格子协议密钥格式。