多模态能力取决于选中的模型。请通过 GET /v1/models 或控制台价格页确认当前可用的多模态模型。
图像
OpenAI 风格图像生成:
curl https://llmoxy.com/v1/images/generations \
-H "Authorization: Bearer <LLMOXY_API_KEY>" \
-H "Content-Type: application/json" \
-d '{
"model": "dall-e-3",
"prompt": "A clean product icon for an LLM gateway",
"size": "1024x1024",
"response_format": "url"
}'
LLMoxy 也会转发模型特有的图像参数,只要所选模型支持它们。
图像编辑路由:
POST /v1/images/edits
POST /v1/edits
音频
文本转语音:
curl https://llmoxy.com/v1/audio/speech \
-H "Authorization: Bearer <LLMOXY_API_KEY>" \
-H "Content-Type: application/json" \
-d '{
"model": "tts-1",
"input": "Hello from LLMoxy.",
"voice": "alloy",
"response_format": "mp3"
}' \
--output speech.mp3
音频转录和翻译使用 multipart 表单上传:
POST /v1/audio/transcriptions
POST /v1/audio/translations
视频
OpenAI 兼容视频生成:
curl https://llmoxy.com/v1/videos \
-H "Authorization: Bearer <LLMOXY_API_KEY>" \
-F model=sora-2 \
-F prompt="cute cat dance" \
-F seconds=8
查询状态:
curl "https://llmoxy.com/v1/videos/$TASK_ID" \
-H "Authorization: Bearer <LLMOXY_API_KEY>"
下载内容:
curl "https://llmoxy.com/v1/videos/$TASK_ID/content" \
-H "Authorization: Bearer <LLMOXY_API_KEY>" \
--output output.mp4
LLMoxy 也支持 POST /v1/video/generations 的 JSON 视频生成接口,以及 Kling、Jimeng 等厂商风格路由。具体支持的模型请查看控制台模型列表。
Realtime
Realtime 使用 WebSocket 端点:
wss://llmoxy.com/v1/realtime?model=gpt-4o-realtime-preview
服务端客户端可在握手时使用标准认证头;浏览器客户端可使用 OpenAI 风格子协议密钥格式。
