出门问问API不支持端到端语音指令,需手动串联录音上传、ASR转文本、语义解析与控制执行三步;音频须为PCM WAV格式,调用需Bearer token,转写结果需清洗后匹配规则或送入LLM。

出门问问 API 不支持直接语音指令调用
出门问问(Mobvoi)官方开放平台目前只提供文本接口,audio_to_text 是单向语音转文本服务,text_to_response 是纯文本问答或意图识别,**没有“发语音→自动识别+理解+执行控制”的端到端语音指令通道**。所谓“发语音指令调模型执行控制”,实际需拆成三步:录音上传 → 语音转文本 → 文本送入大模型或规则引擎执行动作。
PHP 实现语音指令闭环的三步链路
需自行串联:前端录音(Web Audio API 或移动端 SDK)→ PHP 后端接收音频文件 → 调用出门问问 asr 接口转文本 → 解析语义(关键词 or 调用 llm_chat)→ 执行本地控制逻辑(如开关灯、查状态)。
- 音频格式必须是
WAV(PCM 编码,16bit,单声道,16kHz),出门问问 ASR 不接受 MP3、AMR、M4A - 调用
/v1/asr需携带Authorization: Bearer {access_token},token 从开发者后台申请,有效期 2 小时,需缓存并自动刷新 - 转写结果返回在
result.text字段,可能含标点和语气词(如“打开空调。”、“那个…调高两度”),需做清洗再匹配 - 若走 LLM 理解,别直接把原始转写文本喂给
/v1/llm/chat;先截取核心动宾结构(例如用正则/打开|关闭|调高|调低|查询/+空调|灯光|窗帘),否则 token 浪费且响应慢
file_put_contents('/tmp/audio.wav', file_get_contents('php://input'));
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, 'https://api.mobvoi.com/v1/asr');
curl_setopt($ch, CURLOPT_POST, 1);
curl_setopt($ch, CURLOPT_POSTFIELDS, [
'file' => new CURLFile('/tmp/audio.wav', 'audio/wav'),
'language' => 'zh-CN'
]);
curl_setopt($ch, CURLOPT_HTTPHEADER, [
'Authorization: Bearer eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9...'
]);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
$response = json_decode(curl_exec($ch), true);
$text = $response['result']['text'] ?? '';
// 清洗:去空格、句号、语气词
$text = preg_replace('/[。!?,、/s]+/', ' ', trim($text));
$text = preg_replace('/那个|呃|啊|嗯/', '', $text);
常见失败原因与绕过方式
调试时 90% 的问题卡在请求层,不是模型不理解,而是根本没送进去。
-
400 Bad Request:多数因CURLFile路径不存在或权限不足;用is_readable()先校验 -
401 Unauthorized:token 过期或拼错前缀(必须是Bearer,注意空格) -
415 Unsupported Media Type:没传Content-Type: multipart/form-data,但 cURL 自动加,真正原因是CURLFile构造失败退化为字符串,改用curl_file_create()更稳 - 转写结果为空:确认 WAV 是 PCM 格式,可用
ffprobe /tmp/audio.wav检查,非 PCM 用ffmpeg -i in.mp3 -ar 16000 -ac 1 -f wav out.wav转换
执行控制环节不能依赖出门问问模型做动作
出门问问 llm_chat 返回的是自然语言回复,不是结构化指令。它不会返回 {"action": "light", "state": "on"},而可能是“好的,已帮你打开客厅灯光”。你得自己写规则或微调小模型做 slot-filling,或者接 Intent Classification API(如 Dialogflow)做二次解析。
立即学习“PHP免费学习笔记(深入)”;
- 简单场景:用关键词 + 正则硬匹配,例如
preg_match('/(打开|关闭) (灯光|空调)/', $text, $m) - 中等场景:训练轻量级分类器(FastText),输入清洗后文本,输出
light_on/ac_off - 别把设备控制逻辑写在 PHP 接口里直连硬件——用消息队列(Redis Pub/Sub 或 RabbitMQ)解耦,PHP 只发指令,由独立服务处理 GPIO、MQTT 或 HTTP 设备 API
真正的难点不在调通 API,而在语音噪声、方言、语序混乱导致的转写偏差,以及用户说“它太热了”这种隐含指令——这些没法靠换 SDK 解决,得在语义层补规则或引入领域 NLU。
