tags:
- 大模型API中转站
- 4SAPI
- 多模态
- 图片理解
- Embedding
- TTS description: "按4SAPI文档中的OpenAI兼容接口,拆解文本生成、图片理解、函数调用、Embedding、TTS、PDF分析、联网搜索等能力该怎么选。"
很多人以为大模型API只有聊天接口,其实4SAPI文档里已经列出了文本生成、上下文阅读、图片理解、图片生成、函数调用、Embedding、TTS、语音转文本、内容审核、PDF文件分析、深度研究、联网搜索、结构化输出等多类接口。选对接口,比单纯换模型更重要。
这篇按实际业务场景拆一下:什么时候用chat/completions,什么时候用embeddings,什么时候该走TTS或PDF分析。
1. 文本生成:默认入口
最常用的是:
POST https://4sapi.com/v1/chat/completions
适合:
- 问答聊天。
- 摘要改写。
- 文案生成。
- 代码解释。
- 分类判断。
- 简单信息抽取。
4SAPI文档中说明,中转里的模型已适配/v1/chat/completions,只需要把模型名称完整复制到model参数即可使用。
最小请求:
{
"model": "claude-sonnet-4-5-20250929",
"messages": [
{
"role": "user",
"content": "用三句话总结这段材料。"
}
]
}
1.1 文本生成不只是聊天
文本生成接口经常被叫做“聊天接口”,但真实业务里它能做很多事:
- 分类:把用户反馈分成投诉、咨询、退款、其他。
- 抽取:从邮件里提取姓名、公司、预算、需求。
- 改写:把口语内容改成正式公告。
- 摘要:把会议记录压缩成待办事项。
- 判断:判断一段内容是否符合规则。
- 解释:解释代码、合同条款或错误日志。
这类任务最好不要都写成开放式问答。比如分类任务应该限制输出枚举,抽取任务应该要求JSON,摘要任务应该限制字数。接口相同,但提示词和参数设计会决定稳定性。
1.2 什么时候要用结构化输出
如果模型回答要给人看,自由文本可以接受;如果模型回答要给程序继续处理,就应该优先考虑结构化输出。OpenAI官方文档把Structured Outputs单独作为指南,就是因为业务系统需要确定字段,而不是一段“看起来像JSON”的文本。
适合结构化输出的场景:
- 工单分类。
- 简历信息提取。
- 发票字段识别。
- 评论情绪分析。
- 风险标签判断。
- 工作流下一步路由。
示例要求:
只返回JSON,不要Markdown。
字段包括 category、confidence、reason。
category只能是 refund、bug、consult、other。
confidence是0到1的小数。
2. 图片理解:让模型看图
图片理解也通常走OpenAI兼容聊天接口:
POST https://4sapi.com/v1/chat/completions
适合:
- 截图识别。
- 表格截图转文字。
- 商品图描述。
- UI走查。
- 图片内容审核前的粗分。
使用时要确认所选模型支持视觉输入。不要把纯文本模型拿来做图片理解,否则要么报错,要么忽略图片。
2.1 图片理解的输入质量很重要
很多图片理解效果差,不是模型差,而是输入图像不适合:
- 截图太糊。
- 字体太小。
- 图片被压缩过度。
- 表格跨页。
- 关键信息被裁掉。
- 多张图顺序不清楚。
如果你要做截图识别或表格提取,建议先对图片做预处理:裁掉无关区域,提高分辨率,按顺序编号,必要时把多张图拆成多次请求。
2.2 图片理解适合“辅助判断”,不适合无校验入库
比如让模型识别发票、合同截图、商品参数图时,输出结果最好再经过规则校验:
- 日期格式是否合法。
- 金额是否为数字。
- 必填字段是否齐全。
- 识别结果是否和已有系统数据冲突。
不要让图片理解结果直接写入财务、订单或合同系统。模型可以辅助提取,最终入库要有校验。
3. 函数调用 tools:让模型输出可执行意图
函数调用适合需要模型“决定调用哪个工具”的场景,比如:
- 天气查询。
- 订单查询。
- 数据库检索。
- 外部API调用。
- 智能体工具编排。
请求仍然常见于:
POST https://4sapi.com/v1/chat/completions
区别是你会传入tools参数,让模型返回工具调用意图。生产中要注意:模型只负责生成调用意图,真正执行工具前必须做权限校验和参数校验。
3.1 工具调用的正确边界
函数调用不是让模型真的去执行数据库查询或发邮件,而是让模型输出“它想调用哪个工具,以及参数是什么”。真正执行工具的是你的程序。
安全边界应该是:
模型提出工具调用 -> 程序校验工具名 -> 程序校验参数 -> 程序检查权限 -> 执行工具 -> 把结果返回模型
比如模型想调用refund_order,程序要检查订单是否属于当前用户、金额是否允许自动退款、是否需要人工审批。不要因为模型说“应该退款”就直接执行。
3.2 工具调用适合和结构化输出一起用
复杂Agent里可以把工具调用和结构化输出结合起来:
- 工具调用负责获取事实。
- 结构化输出负责给下游系统稳定字段。
- 普通文本负责给用户解释。
这能把“模型自由发挥”的部分限制在可控范围内。
4. Embedding:知识库和相似度检索
Embedding接口是:
POST https://4sapi.com/v1/embeddings
适合:
- 知识库向量化。
- 文档相似度检索。
- FAQ召回。
- 推荐系统粗排。
- 去重和聚类。
Embedding不是聊天模型。它的输出是向量,不是自然语言回答。Dify、LangChain、LlamaIndex等知识库框架里,Embedding模型通常要单独配置。
4.1 Embedding的核心是“先召回,再生成”
知识库问答通常不是把所有文档丢给聊天模型,而是:
文档切分 -> 生成Embedding -> 存入向量库
用户提问 -> 问题Embedding -> 相似度检索 -> 召回片段 -> 聊天模型回答
OpenAI官方Embedding文档也强调向量可用于搜索、聚类、推荐、异常检测等任务。它更像“语义索引”,不是回答引擎。
4.2 影响知识库效果的不是只有模型
知识库效果由多因素决定:
- 文档质量。
- 切分粒度。
- Embedding模型。
- 向量库召回参数。
- 是否重排。
- Prompt如何引用资料。
- 回答时是否要求给出处。
如果知识库答得不好,不要第一时间换聊天模型。先检查召回片段是否正确。
5. TTS与语音转文本
4SAPI文档里列出了文本转语音和语音转文本接口,例如:
POST https://4sapi.com/v1/audio/speech
适合:
- 语音播报。
- AI客服朗读。
- 课程音频生成。
- 会议录音转写。
- 视频字幕生成。
音频任务通常不是按普通聊天逻辑计费和处理,接入前要先看模型价格和任务限制。长音频建议分段处理,避免超时和失败后重跑成本过高。
5.1 TTS要关注的不只是声音好不好听
文本转语音上线时要看:
- 语速是否适合场景。
- 数字、英文、日期是否读对。
- 长文本是否支持分段。
- 音频格式是否适合前端播放。
- 是否需要缓存生成结果。
- 是否允许商业场景使用。
如果是客服播报,建议短句生成;如果是课程音频,建议按段落生成并缓存。重复生成同一段音频会浪费成本。
5.2 语音转文本要处理噪声和分段
会议录音、访谈、客服录音都可能有噪声、多人说话和停顿。建议:
- 长音频先切段。
- 保留时间戳。
- 转写后再让文本模型摘要。
- 对人名、品牌名、专业词做人工复核。
语音转文本不是最终答案,只是把音频变成可处理文本。后续摘要、分类、质检还要走文本生成或结构化输出。
6. 内容审核与安全前置
内容审核接口常见路径是:
POST https://4sapi.com/v1/moderations
适合:
- 用户输入审核。
- 生成内容发布前检查。
- 社区评论初筛。
- 企业知识库入库前过滤。
如果你的产品面向真实用户,建议把审核放在链路前后两端:
用户输入审核 -> 模型生成 -> 输出审核 -> 展示/发布
这不是为了增加复杂度,而是为了减少合规和品牌风险。
6.1 审核不是只审用户输入
真实产品里至少有三类内容要审:
- 用户输入:防止用户提交违规、攻击性或敏感内容。
- 模型输出:防止模型生成不适合展示的内容。
- 入库资料:防止企业知识库或公开社区混入敏感信息。
OpenAI官方也把Moderation作为独立能力介绍。它不是为了替代业务规则,而是作为安全链路的一部分。
6.2 审核结果要和业务策略结合
审核接口给出风险信号后,业务可以有不同动作:
低风险:正常进入模型
中风险:提示用户修改或进入人工审核
高风险:拒绝处理并记录安全日志
不要把审核做成“一刀切”,否则会误伤正常用户;也不要完全忽略审核,否则风险会累积到发布环节。
7. PDF分析与联网搜索
4SAPI文档中还列出了PDF文件分析、deep-research和Web search等能力。其中联网搜索相关能力可能使用Responses接口:
POST https://4sapi.com/v1/responses
适合:
- 文档问答。
- 资料归纳。
- 市场调研。
- 带来源的检索问答。
- 长材料总结。
这类任务更要注意数据隐私。不要把合同、身份证、医疗记录、客户名单等敏感材料直接上传到公共链路;确实要用时,先做脱敏,并确认团队的合规要求。
7.1 PDF处理要先判断“文档类型”
PDF大致分三类:
- 文本型PDF:可以直接提取文本。
- 扫描型PDF:需要OCR或视觉模型。
- 混合型PDF:文字、表格、图片都有。
如果是文本型PDF,先用程序提取文字再交给模型,通常更省成本;如果是扫描件,才需要视觉或PDF分析能力。不要所有PDF都直接丢给多模态模型。
7.2 PDF问答建议保留引用位置
企业文档问答最怕“答得像真的,但找不到出处”。建议在处理PDF时保留:
- 文件名。
- 页码。
- 章节标题。
- 段落编号。
- 原文片段。
生成回答时要求模型附上来源位置。这样用户能回到原文核对,也方便审计。
8. 接口选择表
可以按这张表快速判断:
普通问答/写作/代码解释 -> /v1/chat/completions
看图/截图理解 -> /v1/chat/completions + 视觉模型
工具调用/Agent -> /v1/chat/completions + tools
知识库向量化 -> /v1/embeddings
文本转语音 -> /v1/audio/speech
内容审核 -> /v1/moderations
联网搜索/深度研究 -> /v1/responses 或对应文档接口
选接口前,先问自己:我要的是自然语言回答、向量、音频、审核结果,还是工具调用意图?答案不同,接口就不同。
9. 一个多模态客服质检方案
把这些接口组合起来,可以做一个客服质检流程:
客服录音 -> 语音转文本
聊天截图 -> 图片理解
对话文本 -> 内容审核
质检规则 -> 文本生成/结构化输出
违规片段 -> 人工复核
质检报告 -> TTS播报或工单归档
这里没有一个模型包打天下。不同接口处理不同环节,中转站负责统一调用入口和成本记录。
10. 总结
4SAPI这类大模型API中转站的价值,不只是把Claude、GPT、Gemini、DeepSeek等模型放到一个入口里,更在于让文本、图片、音频、PDF、搜索、Embedding等能力可以用统一思路接入。对开发者来说,真正高效的方式是先按任务选接口,再按成本和效果选模型。
下一篇可以继续拆“联网搜索与Deep Research”,专门讲怎么做可追溯的资料调研型应用。
参考资料:
- 文本生成接口:https://4sapi.apifox.cn/359534973e0
- 图片理解接口:https://4sapi.apifox.cn/359534975e0
- 函数调用接口:https://4sapi.apifox.cn/359534979e0
- Embedding接口:https://4sapi.apifox.cn/359534981e0
- TTS接口:https://4sapi.apifox.cn/359534983e0
- 内容审核接口:https://4sapi.apifox.cn/359534990e0
- PDF文件分析:https://4sapi.apifox.cn/359534991e0
- 联网搜索接口:https://4sapi.apifox.cn/359534993e0
- OpenAI函数调用文档:https://platform.openai.com/docs/guides/function-calling
- OpenAI结构化输出文档:https://platform.openai.com/docs/guides/structured-outputs
- OpenAI Embeddings文档:https://platform.openai.com/docs/guides/embeddings
- OpenAI文本转语音文档:https://platform.openai.com/docs/guides/text-to-speech
- OpenAI语音转文本文档:https://platform.openai.com/docs/guides/speech-to-text
- OpenAI内容审核文档:https://platform.openai.com/docs/guides/moderation