PHP怎样集成出门问问AI_发语音指令调模型执行控制【秘籍】

出门问问API不支持端到端语音指令,需手动串联录音上传、ASR转文本、语义解析与控制执行三步;音频须为PCM WAV格式,调用需Bearer token,转写结果需清洗后匹配规则或送入LLM。

php怎样集成出门问问ai_发语音指令调模型执行控制【秘籍】

出门问问 API 不支持直接语音指令调用

出门问问(Mobvoi)官方开放平台目前只提供文本接口,audio_to_text 是单向语音转文本服务,text_to_response 是纯文本问答或意图识别,**没有“发语音→自动识别+理解+执行控制”的端到端语音指令通道**。所谓“发语音指令调模型执行控制”,实际需拆成三步:录音上传 → 语音转文本 → 文本送入大模型或规则引擎执行动作。

PHP 实现语音指令闭环的三步链路

需自行串联:前端录音(Web Audio API 或移动端 SDK)→ PHP 后端接收音频文件 → 调用出门问问 asr 接口转文本 → 解析语义(关键词 or 调用 llm_chat)→ 执行本地控制逻辑(如开关灯、查状态)。

  • 音频格式必须是 WAV(PCM 编码,16bit,单声道,16kHz),出门问问 ASR 不接受 MP3、AMR、M4A
  • 调用 /v1/asr 需携带 Authorization: Bearer {access_token},token 从开发者后台申请,有效期 2 小时,需缓存并自动刷新
  • 转写结果返回在 result.text 字段,可能含标点和语气词(如“打开空调。”、“那个…调高两度”),需做清洗再匹配
  • 若走 LLM 理解,别直接把原始转写文本喂给 /v1/llm/chat;先截取核心动宾结构(例如用正则 /打开|关闭|调高|调低|查询/ + 空调|灯光|窗帘),否则 token 浪费且响应慢
file_put_contents('/tmp/audio.wav', file_get_contents('php://input'));
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, 'https://api.mobvoi.com/v1/asr');
curl_setopt($ch, CURLOPT_POST, 1);
curl_setopt($ch, CURLOPT_POSTFIELDS, [
    'file' => new CURLFile('/tmp/audio.wav', 'audio/wav'),
    'language' => 'zh-CN'
]);
curl_setopt($ch, CURLOPT_HTTPHEADER, [
    'Authorization: Bearer eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9...'
]);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
$response = json_decode(curl_exec($ch), true);
$text = $response['result']['text'] ?? '';
// 清洗:去空格、句号、语气词
$text = preg_replace('/[。!?,、/s]+/', ' ', trim($text));
$text = preg_replace('/那个|呃|啊|嗯/', '', $text);

常见失败原因与绕过方式

调试时 90% 的问题卡在请求层,不是模型不理解,而是根本没送进去。

  • 400 Bad Request:多数因 CURLFile 路径不存在或权限不足;用 is_readable() 先校验
  • 401 Unauthorized:token 过期或拼错前缀(必须是 Bearer ,注意空格)
  • 415 Unsupported Media Type:没传 Content-Type: multipart/form-data,但 cURL 自动加,真正原因是 CURLFile 构造失败退化为字符串,改用 curl_file_create() 更稳
  • 转写结果为空:确认 WAV 是 PCM 格式,可用 ffprobe /tmp/audio.wav 检查,非 PCM 用 ffmpeg -i in.mp3 -ar 16000 -ac 1 -f wav out.wav 转换

执行控制环节不能依赖出门问问模型做动作

出门问问 llm_chat 返回的是自然语言回复,不是结构化指令。它不会返回 {"action": "light", "state": "on"},而可能是“好的,已帮你打开客厅灯光”。你得自己写规则或微调小模型做 slot-filling,或者接 Intent Classification API(如 Dialogflow)做二次解析。

怪兽AI数字人

怪兽AI数字人

数字人短视频创作,数字人直播,实时驱动数字人

下载

立即学习PHP免费学习笔记(深入)”;

  • 简单场景:用关键词 + 正则硬匹配,例如 preg_match('/(打开|关闭) (灯光|空调)/', $text, $m)
  • 中等场景:训练轻量级分类器(FastText),输入清洗后文本,输出 light_on / ac_off
  • 别把设备控制逻辑写在 PHP 接口里直连硬件——用消息队列(Redis Pub/Sub 或 RabbitMQ)解耦,PHP 只发指令,由独立服务处理 GPIO、MQTT 或 HTTP 设备 API

真正的难点不在调通 API,而在语音噪声、方言、语序混乱导致的转写偏差,以及用户说“它太热了”这种隐含指令——这些没法靠换 SDK 解决,得在语义层补规则或引入领域 NLU。

https://www.php.cn/faq/1974874.html

发表回复

Your email address will not be published. Required fields are marked *