南京昱声科技

商场导购机器人复盘:麦克风阵列把多轮对话做稳了

客户需求与现场声学画像(商场导购机器人)

我们团队在项目启动第1周对目标门店完成声学画像:商场中庭与过道在10:00–21:00期间日间等效声级LAeq为65–78 dBA,周末午后峰值可达80 dBA,偶发器械搬运与广播切换瞬态峰值最高记录90 dBA(1 s快响应)。混响测试采用1 kHz段TSP声源,实测RT60在0.8–1.1 s之间,靠近玻璃幕墙与中庭中心差异约0.3 s;C50在中频段-7.8至-2.1 dB,反映中远场清晰度偏低。用户交互距离集中在0.5–3.0 m,P90为2.6 m,方位角0–360°均可能,要求麦克风阵列在全向覆盖和远场语音拾取下仍保持方位稳定。机器人底盘直径390 mm,头部可用安装口径110 mm,高度限制1.25 m以内,为阵列机械布局与腔体耦合留出≤12 mm边距。

业务侧提出日均5000+轮对话(P95峰值时段每小时800轮)的处理能力,语料覆盖120+商品类目与98条意图,期望在P90交互路径下首次响应≤600 ms。网络为5G与高速Wi‑Fi双链路,单向时延P95在30–60 ms,抖动<10 ms,丢包率P99<0.5%。在此约束下,我们给出前端算法延迟预算≤40 ms、端到端P95控制在420–450 ms。项目实施以两阶段推进:T0+21天完成试点(2台设备),T0+56天完成门店全域上线(8台设备),每阶段各准备≥20小时场景实录数据校验。硬件预算单台音频BOM不超过60元,整机功耗预算交互峰值≤1.8 W,维护周期按30天/次做远程参数热更新。

技术选型:麦克风阵列拓扑与芯片对比

候选拓扑包括4麦线性(孔距总长L=120 mm)、6麦环形(直径D=80 mm)与8麦环形(直径D=100 mm)。前端统一采用数字MEMS PDM麦克风,单颗SNR典型值65 dB(A)、自噪声29 dBA SPL、AOP 120 dB SPL;阵列前端采样48 kHz/24 bit,ASR侧降采到16 kHz。我们在1–3 m、背景65–75 dBA条件下完成方向估计与语音增强比对,8麦环形的DOA实测RMS误差为4.2°,较6麦方案(6.0°)提升1.8°,对多说话人切换的稳定时间常数缩短至<80 ms。功耗方面,前端DSP+8路PDM总功耗约320 mW,比6麦方案增加约50 mW;BOM增加8–12元/台,但远场唤醒率实测提升3–5%。

基于阵列间距、空间约束与360°覆盖需求,我们最终选用8麦环形D=100 mm拓扑,并将阵列中心上移至离地1.05 m以降低脚步噪声耦合。该方案在70 dBA背景下MVDR波束形成的SNR平均增益达到+8.9 dB(P50),最差工况保持+6.2 dB(P10)。在语音增强后,流式ASR的WER由13.6%下降至7.8%,多轮NLU实体抽取F1达到0.91。下表给出三种拓扑在同一硬件与算法栈下的对比,包含DOA误差、功耗与成本数据,用于决策复盘与后续规模化复制。

拓扑 阵列尺寸 通道数 DOA RMS误差 波束形成SNR增益 远场唤醒提升 前端功耗 音频BOM
4麦线性 L=120 mm 4 9.8°(1–3 m) +5.2 dB(70 dBA) +1.1%(3 m) ≈210 mW ≈30 元
6麦环形 D=80 mm 6 6.0°(1–3 m) +7.6 dB(70 dBA) +2.1%(3 m) ≈270 mW ≈42 元
8麦环形(选用) D=100 mm 8 4.2°(1–3 m) +8.9 dB(70 dBA) +4.4%(3 m) ≈320 mW ≈50–54 元

方案架构:麦克风阵列前端 + 对话理解后端

前端链路按“VAD(启动≤20 ms)+AEC(尾长256 ms)+MVDR波束形成(2.5 ms)+WPE去混响(帧长32 ms、步长8 ms)”串接,前端累计延迟P95为38 ms。双喇叭回参考通道2路(48 kHz),AEC滤波器长度设4096 taps并启用双讲检测(门限-35 dBFS),在TTS 70 dB播放时残余回声抑制至-40 dB以下。声源定位采用SRP‑PHAT+粒子滤波跟踪,方位更新周期20 ms,平滑时间常数80 ms;在转身与用户绕行(角速度60–90°/s)时跟踪丢失率低于1.2%。链路CPU占用在4xA55@1.8 GHz主控上为28%(P95),音频DSP预算400+MFLOPS,内存峰值占用约96 MB,设备功耗交互峰值1.8 W。

后端采用16 kHz流式ASR(CTC/Transducer混合),商超域定制语言模型覆盖120意图与3级商品层级,NLU上下文窗口5轮,实体抽取F1=0.91。部署在边缘节点上时,ASR解码首token时延P95为240–270 ms;结合网络P95 30–60 ms与前端38 ms,端到端交互延迟P95为420–450 ms。TTS合成采用神经声码器,P95合成120–150 ms,插播打断响应<50 ms;多轮对话策略参考面向商场与工厂的机器人对话系统:痛点、方案与实战数据,在定位、推荐、导航三大场景下将无效轮次降低14–19%。系统通过gRPC流控与回退策略保障在P99网络抖动>12 ms时仍维持语义完整输出。

实施关键节点与现场调优(操作步骤)

现场实施分为测、校、调三阶段,单店用时10–12天(2人),首日完成12点位噪声与混响采集,第2–3天完成阵列标定,第4–7天完成算法阈值与模型自适应训练,第8–10天进行A/B对照与验收。关键步骤如下(编号为落地顺序,每步包含明确数值与合格门限):

  1. 12个点位LAeq测量:65–78 dBA,记录峰值与1/3倍频程(100 Hz–8 kHz)。
  2. TSP扫频:1 kHz段RT60 0.8–1.1 s,C50>-4 dB为目标;网格0.5 m×0.5 m共24点。
  3. 安装定位:阵列中心高1.05 m,垂直偏差≤±5 mm,环形D=100 mm。
  4. 阵列幅相校准:幅度一致性≤±0.5 dB,相位偏差≤±3°;噪声底<30 dBA。
  5. AEC路径测量:最远1.2 m,对应3.5 ms;滤波器4096 taps,步长μ=1e‑3。
  6. 噪声建模:3类噪声各≥30 min;目标SNR提升≥8 dB,门限自适应Δ=2 dB。
  7. VAD参数:能量阈值-42 dBFS,起始判定≤20 ms,hangover=200 ms。
  8. MVDR窗口:协方差窗长256 ms,更新周期20 ms,白化ε=1e‑3。
  9. WPE去混响:帧32 ms/步8 ms,预测阶数K=10,延迟L=3帧。
  10. 唤醒门限:阈值-1.5(归一化分数),3 m处召回≥95%,误唤≤0.3%/h。
  11. TTS Ducking:播放时-18 dB衰减,恢复斜率6 dB/100 ms。
  12. 48小时回归:对话≥1000轮/天,指标达成后固化配置v1.3.2。

在AEC环节,我们参考了实践笔记回声消除算法选型指南:麦阵拓扑、芯片与降噪怎么选,将双讲保护门限与自适应步长联动,现场把残留回声从-32 dB进一步压到-40 dB,TTS打断成功率由93.2%拉升到96.1%。每次参数热更新控制在<5分钟内完成,回滚版本保留最近3版以应对突发演出与促销噪声场景。

核心算法指标:从拾音到识别的量化结果

在1–3 m、背景70 dBA条件下,MVDR波束形成的SNR提升P50为+8.9 dB,P10最低+6.2 dB;配合WPE去混响后,C50由-7.8 dB提升至-2.4 dB(中频1 kHz),语音清晰度显著改善。DOA定位在360°均匀采样(步进5°、共72个方位)下RMS误差4.2°,方位跟踪稳定时间常数<80 ms;当用户以约80°/s绕行时,方位丢失率1.1%,恢复时间约120 ms。AEC在70 dB TTS播放下,ERLE P50达到26 dB,峰值29 dB;双讲检测成功率97.8%,平均收敛时间180 ms,回声尾长覆盖256 ms(4096 taps@16 kHz)。

在唤醒与打断能力上,3 m处65 dBA背景的唤醒召回率95.4%,误唤醒率≤0.3%/小时;TTS播放70 dB时用户打断成功率96.1%,打断响应时间P95<50 ms。识别方面,现场WER为7.4%(中文商超域、20小时评测,语句均长8.7字),相较无阵列前端基线(14.1%)相对下降47.5%;OOV(未登录词)替换率由2.7%降至1.5%。在90 dBA突发噪声窗口(持续<1 s)内,VAD漏检上升至1.9%但在200 ms内恢复,整体对话成功率下降不超过2.2%。这些指标在8台设备连日运行(7×11小时/天)期间稳定,P95波动控制在±0.6个百分点之内。

交付结果与客户反馈(含多轮对话数据)

系统上线后,日均对话规模在5000–6800轮之间,节假日峰值>9000轮;多轮对话占比62%,中位轮数3轮(P95为7轮)。在定位、推荐、导航三大场景,任务成功率达到88.3%,其中导航类(楼层与店铺)成功率最高为91.2%,推荐类受背景音乐影响略低为86.5%。首次响应时间在600 ms内的占比P90,整体端到端P95维持在420–450 ms;遇网络切换(5G↔Wi‑Fi)时延抬升约40–70 ms,通过本地缓存与后退策略将失败对话率控制在<0.7%。

用户满意度基于现场问卷(n=312)与App内评价(n=1,204)综合为92%,差评主要集中在音乐高峰时段(占差评61%),我们在版本v1.3.2加入带噪门限自适应与动态降噪上限(最高-18 dB),差评率由8.0%降至5.1%。稳定性方面,系统月可用性99.5%,语音前端故障工单率<0.3%/千小时;远程参数热更新在4分36秒(P50)内完成、P95<5分钟。运营侧反馈在促销日(每月2–3天)流量抬升时,设备CPU占用峰值提升至41%但仍未触发降级,功耗峰值维持1.8 W,外壳温升<12°C(室温25°C、8小时连续工作)。

可靠性与硬件参数验证(量产前测试)

量产前我们对16台试产样机进行环境与电磁可靠性验证。温湿度老化在0–45°C、10–90%RH(无凝露)下连续168小时运行,数字MEMS麦克风SNR衰减≤0.6 dB,幅相一致性漂移在±0.2 dB/±0.8°以内。ESD按IEC 61000‑4‑2执行:空气放电±8 kV、接触±4 kV无功能异常;EMI按3 m法在10 V/m场强下扫频80–1000 MHz,波束形成偏差<1.5°,ASR字错率抬升≤0.3个百分点。机械可靠性方面,1.0 m六面跌落(木板)通过,IEC 60068随机振动5–500 Hz,0.5 g RMS 1小时无断线与接插件松动。

功耗与热设计验证在三种负载下进行:语音待机1.2 W、普通交互1.6 W、峰值1.8 W;在25°C室温下连续8小时运行,外壳温升<12°C,阵列腔体内温升<8°C。电源噪声耦合测试中,5 V→3.3 V DCDC纹波100 mVpp时,对噪底影响<0.4 dB;PDM时钟抖动5 ns内,时基偏差导致DOA误差<0.2°。寿命预估按日均11小时、年工作天数300天计算,设计寿命3年(>9,900小时),关键器件MTBF>50,000小时,年度维保按每台≤80元预算,主要为防尘网更换与固件更新。

经验复盘与可复用资产(与NVH经验的迁移)

跨项目复用方面,我们将工业NVH噪声模型中的频带掩蔽先验(中心频段1–4 kHz)迁移到语音增强,在不额外增加推理算力的前提下,使语音带宽内噪声抑制提升约1.1 dB,远场词尾被掩蔽现象下降8–10%。阵列规模敏感性测试显示,从6麦增至8麦,SNR提升+1.3 dB、DOA RMS改善2.0°,但音频BOM增加约8–12元/台;在500台规模化量产中,以每台日均5000轮交互估算,额外成本在100天内即可被成功率提升(+2.7个百分点)所带来的有效对话增加抵消。我们也将工厂项目的麦位偏差校正方法(机械孔位误差≤±0.2 mm)引入本项目,使出厂标定时间缩短到每台<6分钟。

数据资产方面,累计沉淀112小时真实商场噪声与对话对齐数据,覆盖15类噪声场景(背景音乐、客流、广播、促销、小孩尖叫等),已用于另两类零售场景的预训练。下一步迭代计划引入48 kHz自监督前端与自适应波束forming,在保持前端P95延迟≤40 ms的前提下再降WER 10–15%。更多阵列拓扑与芯片权衡可参考选对声学方案:麦克风阵列、芯片与算法一站式选型指南;项目交流可见南京昱声科技页面。作为本次案例的收尾,我们确认在商场导购机器人场景中,规范的标定流程、稳定的AEC与MVDR策略、以及针对性的数据回放,是发挥麦克风阵列价值的三把“钥匙”。

常见问题解答

商场场景做远场语音,麦克风阵列用6麦还是8麦更合适?
在D=100 mm环形下,8麦DOA误差≈±5°、SNR约+9 dB;6麦约±7°/+7.5 dB。实测8麦在嘈杂商场唤醒率高3–5%,多轮更稳。代价是BOM多8–12元、功耗略增。若成本敏感且环境较安静用6麦可行;70–80 dBA噪声更建议8麦。
麦克风阵列采样率选16 kHz还是48 kHz,对识别和延迟影响多大?
前端以48 kHz采样有利于AEC与波束形成,带来约+0.5–1 dB的SNR提升;ASR侧在前端处理后下采到16 kHz。虽然分帧与FFT规模变大,计算量增加,但新增时延通常<5 ms,对实际识别与交互流畅度影响很小。
在70–80 dBA噪声下,如何降低误唤醒率?
建议采用多通道唤醒并做方位一致性校验:仅当关键词触发与DOA稳定指向一致时才通过;VAD门限自适应噪声地板,叠加双阈值策略(短窗保召回、长窗控误报)。可将误唤醒降至≤0.3%/小时,同时保持召回率≥95%。
如何量化麦克风阵列的DOA精度与覆盖?
按360°每5°采样,在1–3 m距离统计RMS与P95误差,并绘制极坐标热图评估盲区。项目实测RMS=4.2°、P95<8°,0–360°全向覆盖。建议分噪声与混响条件分层测试,验证随距离与SNR变化的鲁棒性。
强回声下的TTS打断怎么做,AEC尾长需要多大?
先测量扬声器到麦克风的最大声学路径,样机约1.2 m,对应首径回声≈3.5 ms。为覆盖多次反射与尾音,AEC建议配置4096 taps(约256 ms尾长),并启用双讲保护。实测强回声下打断成功率≥96%,残留回声可控。
阵列在机器人移动时坐标变化会影响波束吗?
移动会改变麦克风与说话人相对方位,需融合IMU做姿态补偿:当位姿变化<15°时波束稳定;快速转向时触发重标定,控制在50 ms内完成。结合方位追踪(如卡尔曼滤波),方向跟随滞后<80 ms,保证多轮不中断。
PDM数字麦和模拟麦在阵列应用上差异大吗?
PDM数字麦抗EMI强,时钟+数据布线简化,易做同步;本案选用PDM麦,A加权SNR约65 dB。模拟麦灵活、底噪潜力大,但需高品质多通道ADC与前级,通道增益/相位一致性需≤±0.5 dB,否则影响波束与DOA精度。
多轮对话对阵列有何特别要求?
多轮对话要求稳定的说话人跟踪与方位保持:目标漂移<10°/秒仍能锁定,避免频繁切换。前端处理(VAD、BF、AEC、降噪)需将时延P95压在<40 ms,配合ASR与对话把端到端控制在<450 ms,保证插话自然。

需要专业服务?立即联系我们

南京昱声科技

联系电话请访问官网