分享

搭建智能客服“大脑”的基础—语料

 二八0y2nkds3vi 2021-06-15

文/杨茂林 才博客服学院首席智能服务专家

我们都知道,人工智能之所以能够替代认类的部分工作,就是因为通过算法对大量数据的处理,而产生了智能,这个过程类似于模仿人脑的工作方式,除了算法,最重要的就是数据。这也是为什么移动互联网时代的到来催生了这一次的人工智能浪潮,因为大数据。

客服机器人的工作原理也是一样,我们的客服机器人能够“听懂”客户的问题,就是因为我们把大量的数据给到机器人学习,而这样数据就是—语料。因为在实际的交互中,客户往往都是按照自己的意思进行表达,如何把客户的表达识别为企业的标准业务知识,就需要机器人具备识别能力。

客服机器人最核心的能力就是“识别”和“应答”;那么如何才能听懂客户的问题呢?需要结合大量的数据训练模型,让客服机器人听懂客户的问题。这里我们就需要整理大量的用户问题,而这些问题来源于哪里?客户的问题也就是我们常常所说的原始语料。

而这样语料的来源,我们智能从客服中心在服务中产生的内容获取。

那么,我们该如何获取这样内容,也就是语料呢?

首先,什么是语料,所谓语料就是客服机器人的训练数据,训练师们在算法工程师的要求下对语料进行有监督的学习标注,但在数据被标注之前,我们把所有语料数据称为原始语料。

在客服中心我们通常指为历史上真实发生过的服务聊天对话,提问记录,用户和服务人员的闲聊(非业务聊天)等素材。从分类来看语料一般来自客服中心的电话和在线服务渠道、自助服务渠道、其他服务渠道。

总结起来可以分为:文本语料、语音语料、混合语料多种(注意:客户在于客服聊天过程中当中有时候还会有一些图片、视频,这些也应该作为混合语料收集);而这些语料的来源一般来自于在线人工客服和客户的聊天记录、电话人工客服和客户的聊天语音、自主渠道的建议与反馈。

获取原始语料,一般来说有两个方法:

第一、服务系统(在线、语音坐席系统、工单系统、自助服务等)中的用户日志抽取:

训练师们可以从客服中心的各个坐席系统中抽取所有用户和人工客服之间的对话语料,在线坐席系统可获取文本聊天记录的文档;语音坐席系统获取:语料聊天记录录音;工单系统:获取客户提问记录和对应的服务答案内容。自助服务获取客户建议和求助内容。训练师可找到数据管理负责人进行获取;登录坐席系统后台的数据库使用数据库语言获取数据;通过每天客服中心的服务日志报表获取。

第二、人工生成:选择人工服务经验比较资深的人工坐席代表,模拟客户思维进行客户语料编写。 

我们该如何处理这样语料?

原始语料获取后训练师需要将收集好的原始语料进行一个简单粗分类,将语料分为:业务语料、闲聊语料。因为语料清洗的重点是要去除原始语料中的无用部分。语料清洗依赖程序和工具,简单的清洗训练师们可以通过:EXCEL、python等工具对需要清洗语料的一些基础共性进行清洗操作:筛选关键词、校验句子长度、批量删除、重复句子剔除;以下为语料清洗的一些常见共性,供训练师进行参考:

语料的处理包含以下三个环节:原始语料粗分类、语料清洗、语料归档;

原始语料粗分类是指,语料归档:根据已有的业务场景或者算法工程师的需求,对清洗完成的语料进行归档。

语料的清晰和归档分成两类,一类是训练师承担的工作,另一类是算法工程师或者决定,得一定编程能力的训练师进行的工作。

训练师可以对已经清洗好的语料进行用户角色清归档用户提问归为一档;人工客服回答内容归为一档;其次,将这些问题及答案按照上文中已经梳理完成的用户旅行地图、触点图、服务触点图、产品触点图,进行分类归档; 其二是将语料按照定制的算法模型进行归档,例如转人工模型还有情绪识别模型;注意在这里有些情况下也需要对清洗好的数据的来源渠道进行归档,例如是在线PC渠道、在线移动渠道等等。具体归档的需求可以根据算法工程师的要求来进行制定。

完成以上工作,我们需要进行语料的标准化补充:

当训练师们完成了语料的归档后,这个时候我们能够得到对应场景下一类一类的客户原始问法以及对应的应答内容。但在实际的训练过程当中,我们会发现某一类场景,并没有原始语料能够覆盖,这个时候训练师们就需要根据自己以往的服务经验,结合业务场景去补充这些缺失场景下面的语料问答。

补充相似问:如果相似问太少的话,也会影响在线机器人因为对应场景的学习语料太少,导致在线机器人出现识别不够准确或识别错误等情况,所以针对一些业务场景下相似问数量太少的情况,训练师们需要进行相似问的补充和编写。

训练师们在进行相似问编写过程中,可以遵循以下原则和规范:

1、根据问答对的语义模拟客户对此知识点进行咨询,用该知识点能解答相似问句中问到的问题。

2、尽量口语化,不要用固定模版套用。

3、关键词需要多变化不同问法(一般来说,句子中实词意义大于虚词,n,v >> adj >> adv >> 语气词),变化问法的同时需要变换句式。

如:公司的薪酬水平如何?

此问答对的关键词为 薪酬、水平如何。重点词变化可以为“你们公司的待遇怎样?”,“我想了解下你们的薪水情况”

4、 对于语义相近的两个问答对,添加相似问句时应注意强调区别特征词。

示例:如何使用手机银行进行转账?VS 如何在官网进行转账?

“手机银行”和“官网”就是这两个问答对的语义区别特征,编写数据时应进行强调。

5、可以根据答案辅助理解知识点,提出不同的相似问法,但不能只根据答案编写,偏离标准问句的语义。

需要注意的是,相似问的补充不是把客户的同样一句话换一个说法然后翻来覆去的讲,而是要结合着客户实际会说的场景来进行补充。

在进行相似问的补充时,训练师们可能会遇到以下的问题:

1、相似问补充工作量巨大;

2、相似问补充因人而异如果只让固定人进行相似问补充,很容易形成思维定势,导致最后的相似问可用性差;

3、同一个问题对相似问是无穷无尽,难以完全覆盖用户的真实问法相似问。

这里笔者根据既往的相似问编写经验,给训练师们介绍三个方式以最小代价实现相似问的补充:

解决方法一:阅读大量客户原始日志,进行相似问撰写;

解决方法二:客服中心人工客服机器人提问知识竞赛(限制范围);

解决方法三:规则语言囊括相似问;使用编程中的规则最相似问进行正则表达式【5】编写,

解决方法四:研发相似问自动生成系统

最后,我们需要进行语料检查与确认

上述内容处理完成,还需要进行梳理内容的检验和确认:

语料准备完成后,需要确认语料的数量、质量是否已经足够覆盖全部的已梳理业务场景;

如果要建立定制化的算法模型,还需要和算法工程师确认语料的数量、质量是否符合模型训练的需要;

语料是搭建在线机器人的“大脑”的基础,语料的丰富性一定程度上决定了在线机器人的“智力水平”,因此语料的收集应尽量丰富、全面。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多