近日,作为人工智能领先企业,百融云创又在智能语音领域获得一项发明专利“一种智能外呼打断方法及系统”,该专利有望对精准识别人声和静音的临界点,发挥重要作用。
我们知道理想的交互流程是一问一答,问完即答,答完再问,但现实终归不是理想,之所以出现静默、突然打断等情况,究其原因在于在智能外呼过程中,智能机器人无法精准识别用户语音状态的开始和结束,使得人机沟通总显得不是那么自然。
百融云创打断技术增强的关键就是要找出人声和静音的临界点,对输入的音频流进行分析,分析到底是人声还是非人声——即为开始说话事件还是静音事件,然后通过语音识别(ASR)获得识别结果,之后开始准备下一轮话术。打断是否智能取决于两个因素:端点检测技术是否可靠和系统可否依据具体环境,对端点检测效果完成自我优化(智能反馈)。在上述两个场景中,前者是端点检测过于敏感产生的错误打断;后者则是端点检测漏过了事实上的语音部分,导致系统响应迟钝,影响了识别的准确度。
那么该专利的技术逻辑是怎样的呢?首先抽取WebRTC的VAD模块移植至UniMRCP,获得第一移植结果;根据第一移植结果进行单Package数据检测分析,获得第一检测分析结果,从而获得第一累加计数规则;再根据第一累加计数规则进行第一检测分析结果的累加,获得第一人声累加结果和第一非人声累加结果;然后根据第一人声累加结果和第一非人声累加结果进行内部状态转换,获得第一事件判断结果;最后通过FreeSwitch根据所述第一事件判断结果进行打断控制。
总体来看,打断技术增强的功能具有如下特征:端点检测精确度高;对背景噪声以及非语音声音有很好的拒绝功能;系统可以根据通话环境调节相关参数,改善端点检测效果。从商业化的角度看,打断越智能,使得机器在与人交互的过程中,更能清晰传达外呼目的,精准理解用户语义,在及时、流畅的双向沟通中,帮助用户解决问题,同时也高质、高效完成服务、营销的外呼目的。从系统层面看,外呼过程所依赖的语音识别,语音合成,都是高消耗资源,高成本的计算。通过打断技术的过滤,能够大大减少资源浪费,比如静默时,暂停语音识别调用。
在该技术的加持下,上述所提到的智能外呼的一些问题将得到有效的改善。此外,在商业应用方面该技术同样能大显身手,提高核心竞争力。