目录
- 演示地址
- 产品简介
- 工作方式
- 场景分析
- 弊端与优势
- 场景拓展
- 结束语
演示地址
语音互动智慧城市,全程语音操作大屏产品演示_哔哩哔哩_bilibili
产品简介
系统核心是通过自然语言与机器互动,包括:下达指令/问题咨询等交互控制,通过输入文本或语音达到与系统交互,是传统鼠标键盘的有力辅助,能有效的解放双手。
本次演示结合智慧城市的一角,通过大屏的方式呈现,能让用户更加直观的了解产品,但对于交互并不限于大屏,后面场景分析中会详细说明。
工作方式

定制语音终端

系统原理图

- 语音识别,我们可以选择现有厂家服务,如:讯飞/百度等(在线离线均可)
- 语音识别是第一步,系统主要是对文本语义的处理与输出,通过互动与用户系统对接完成整个交互工作,如果存在硬件设备则可以通过IOT模块完成对接。
场景分析
由于目前语音输入的条件较为苛刻,因此会对产品的使用设置一些障碍,但我们通过在多个方面入手会逐步解决问题,并推动语音的使用。
- 开发专有设备降低使用门槛,我们设想的是一款智能麦克风终端,它与常用麦克风不同,更象是一个小型电视遥控器,带有语音输入与简单的选择功能(上下左右/确认等),这样会更好提供用户使用便捷性。
- 在没有设备的情况下,只能通过手机APP来做语音输入,同时能够输入文字指令。
- 对于不需要语音输入的情况下,我们提供了pc客户端程序,用户可直接录入指令完成相同的工作。
目前演示仅仅使用了大屏互动展示产品功能,但系统本身并不会显示用户使用方式,即便是没有屏幕,在有些极端场景下,也能为用户提供便捷的使用体验,比如:在户外工作人员,可以通过简单的指令完成复杂的工作,而无需录入繁杂的业务参数,在场景拓展中我们详细探讨一些可用领域,以便给大家一些参考。
产品优势
- 简化作业
把复杂繁琐的操作映射为可理解的语义,用户可通过常用词语实现对现有业务的管理,如:设备控制/物品检索/服务对话/学习引导等较多场合,而且可以通过二次开发根据用户流程,定义更复杂的流程对话,如:审批文件/接收邮件/处理紧急事件等,演示中第一个火灾预警示例就是自定义的一个事件流程。
- 释放语音潜力
配合语音识别,能达到无需输入就能完成大部分工作,系统核心是指令语义分析与控制,也就是你直接输入一段话就能实现某个功能,但如果配合语音识别,那几乎可以解放双手了,演示中使用的讯飞语音识别,整个过程非常流畅,目前语音指令仅用在生活娱乐中,我们的产品定位是使用在工作作业中,能为未来的真正智能化探索一条道路。
- 扩展性
产品扩展性极强,内部实现了对话引擎/事件管理/以及语义配置,并提供了基本的IOT模块与设备及平台对接,方便实现联动。同时提供互动接口,用于自定义与系统对话,方便用户灵活应用。配合大数据以及文本学习与识别,可以达到几乎99%的正确率(指令语句解析识别)
- 应用形态
无论是大屏,还是智能机器人,抑或是用户仅有一部手机,都可以通过对话形式完成工作,这就涉及到对用户的业务对接,后续产品会考虑与网站/微信公众号/钉钉等现有的技术平台的自动化对接,已降低工作量。当然二次开发总是存在的,希望能找到更加合适的场景来应用并测试来不断完善产品。
场景拓展
- 智慧城市
其实智慧城市目前阶段大多数以呈现为主,因为具体操作控制可能分布在其他底层的业务系统中,如果对于对接较为完善项目中,要操作一个目标需要大量的鼠标点击工作,菜单/键盘/点击/拖拽等。如果在这里引入我们的对话交互引擎,则配合语音的优势,可以让我们很轻松的一句话就能把隐藏在三级菜单中的一个功能立即执行,可能连参数都不需要输入,例如:立即关闭二楼所有门禁。
同时产品的设备连接特性可以天然的对大屏做控制,如:演示中播放宣传片等,配合后台上传视频,将大大降低大屏的使用门槛。
- 数据大屏
数据大屏较为普及,而且应用场景很多,通过引入互动功能,我们可以很方便的查看报表。通过对话系统的引导提示,使没有经验的工作人员(甚至领导)都可以立即上手使用,如:查看2020年销售趋势,里面可能包含了其他条件选项,此时系统会自动提示输入的条件,如:请输入地区,通过提示步骤引导用户做出正确的设置。
- 环境漫游
这在一些房地产项目中会使用,通常销售人员会拿着一个平板来控制大屏的视角或者进入房间,现在通过一句指令,如:漫游某街道,即可完成相同的操作,只需要在自己手机安装APP即可完成。
- 公共自助终端
公用终端通常做的已经很友好了,但在某些需要用户认证/录入条件情况下,互动产品能给用户带来更好的体验,用户只需要扫描设备二维码,打开小程序便已连接设备,可以通过输入或语音(自己需要的内容),根据智能对话引导帮助用户完成操作。
可能这里大家会有疑虑:用户知道要输入什么吗?两种方式:
其一,我们在定义时就按照用户习惯设置指令词,同时配合文本理解模型识别用户需要;
其二,或者直接把操作指令做成按钮,让用户点击,后续则根据对话内容完成操作。
- 个人工作终端
很多用户办公室都有大屏(或者显示器)...
- 无显示交互(野外工作者)
某些野外工作环境较为苛刻,用户不太愿意总是用手录入内容,可以通过语音下达指令或者上报工作情况,如:“0302检测完毕”,用户无需打开复杂的菜单查找功能,这其实在某些领域中很常见,有些APP功能界面按钮数据能有几十个,这能有效减轻用户操作负担。
- 节目主持
在普通的节目表演中,我们也可以尝试通过手持定制麦克风,来完成解说与节目节奏控制,如:请听歌曲XXXX,此时虽然是解说,但通过指令大屏幕已经开始播放音乐了。不过这个仅是个人遐想勿喷。














