服务机器人语音对话的实现

admin • 2022-01-16 20:01 • 人工智能

前言

基于语音的人机交互是服务机器人交互的最主要表现形式之一，它主要解决以语音作为信息载体，让机器人具有像人一样的“能听会说”的能力，降低使用门槛，且能够解放双手双眼的问题。所以把对话交互功能做好，是服务机器人的基础。交互功能实现步骤包括：麦克风数据采集、麦克风音频降噪和定向、功放声音回馈、关键词唤醒、语音识别、语义词库查询、语音合成。

方案选型

国内服务机器人可选语音交互方案有科大讯飞、思必驰、百度、云知声等方案。云知声和思必驰一般是垂直领域的整体解决方案的，例如车载系统的语音对话，前阶段跟思必驰的商务沟通，如果我们服务机器人要使用他们的方案，前期落地费用需要50万大洋，后期每台还要交授权费用几千大洋，太贵了，就打消了用思必驰方案的念头，百度语音主要用于自家产品的百度导航、小度音响，在硬件支持和适配方面方面感觉不是特别好。那还是绕不开的路，还是要用科大讯飞，科大讯飞的AIUI的流式交互体验确实比较棒。
科大讯飞AIUI方案分为软核方案和硬核方案。软核方案就是需要把主板（Android 和LInux）交给科大讯飞，让他们去适配，适配好后后期使用每台会收取授权费用，可前期适配的费用是比较高的，超过10万大洋，而我们是做商用服务器机器人，产品更新换代比较快，而且产量不是很大，所以我们选择了硬核的方案，硬核的方案就是使用科大讯飞核心板去实现。

实现步骤

我们机器人采用的CS的架构，内部有一个工控机作为服务器，机器人所有功能和算法都跑在工控机服务器上，机器人自带的安卓平板就是通过调用服务器接口去场景交互功能。所以整体的实现步骤如下。

外围电路设计

外围电路设计比较简单，主要是供电电路和功放板的声音回馈电路，还有注意音频输出需要隔离，要不会功放板可能会出现噪音比较大的问题。

1.供电电路

供电电路主要设计5V供电和3.3V供电，电路图如下。

2.功放声音回馈电路

功放声音回馈电路注意用于流式交互方式，就是机器人在回答问题时候，我们可以直接跟他继续对话，不需要打断。用这种交互方式就需要通过回馈消除掉机器人自身说话的声音。

语音交互服务实现

我们机器人内部工控机服务器跑的是Ubuntu系统。语音识别、唤醒、休眠、合成服务根据科大讯飞提供的AIUI模块串口开发指南来实现。语义词库我们有自己的云端可编辑的词库系统，实现的方式就是优先在我们编辑好的词库查找答案，如果找不到答案就去AIUI平台去获取答案。开发使用golang语音，部署的方式是docker-compose，对服务机器人本地单机部署来说，docker-compse是非常合适的方式。

安卓平板APP交互

交互APP只是根据机器人服务器提供的语音识别，语音唤醒，语义查找、语音合成接口来根据场景实现对话功能。不过为了体验更加自然人性化，我们加了摄像头的判断，就是摄像头检测到有人来，就打开语音对话，人走开了就自动关闭对话，这种交互比较自然，比其他机器人的交互体验好很多。

服务机器人对话演示

后续

我是一位商用服务机器人的从业者，我会把对服务机器人这行业的想法、发展趋势和在工作中遇到的问题和解决方法分享出来。
如果本期内容对大家有帮助记得点赞哦，所写内容对大家有帮助是我继续写下去的原动力。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。

THE END

docker 人工智能嵌入式硬件聊天机器人

二维码

基于Python的这个库，我实现了“隔空操物“

< <上一篇

我们都知道python,但我们不知道的是，python到底可以做什么呢？

下一篇>>

搜索内容