为减少用户电话排队,阿里研发了智能客服调度系统

提到调度,大家脑海中可能想起的是调度阿里云的海量机器资源,而对于阿里集团客户体验事业群(CCO)而言,我们要调度的不是机器,而是客服资源。今天,我们邀请阿里高级技术专家力君,为大家分享自动、智能的客服调度系统——XSigma。

背景

一提到调度,大家脑海中可能想起的是调度阿里云的海量机器资源,而对于阿里集团客户体验事业群(CCO)而言,我们要调度的不是机器,而是我们的客服资源。

为什么客服需要调度?CCO目前承接了阿里集团以及生态体的客户服务业务,我们的客户通过各个渠道来寻求解决各类问题,每天的进线量巨大,而且经常伴随着突发性进线,比如天猫代金券出了问题,在几分钟内就会造成几千通热线或在线咨询。面对种类繁多、海量、突发的客户问题,我们的服务能力往往难以满足,常常造成用户排队,甚至放弃,自然我们产生了对调度的需求。


客服调度的核心问题是什么?提升客服资源的利用率和服务水平,用更少的客服资源获得更佳的用户体验。如果我们招聘大量的客服,也能让用户获得更好的体验,但是容易造成人力浪费,更多的人手意味着更多的培训成本、管理成本和人力成本。

与机器调度相比,客服调度有它的复杂点:

1)机房增加一台新物理机,机器虚拟化后就可以快速被使用,而招募一个新客服,得需要长时间的培训才能让他具备线上服务能力;

2)客服间差别大,不同客服的业务技能有区别,很难直接让B技能组的客服处理A技能组的任务,即使是掌握同一技能的客服,他们的服务能力也有大的差别,而机器差别不大,很多业务可以使用相同类型的机器;

3)客服是人,他有权利选择上班、小休,他的工作效率、质量会随着他的情绪、体验、服务的会员、工作时长等波动,调度时需要考虑他们的感受,而调度机器时无需顾忌;

4)突发场景多,业务问题、系统故障等都是无规律爆发,波动特别大,很难准确的提前排好一天的人力。

现场管理员是否能应对如此复杂的客服调度?答案是否定的。在没有调度系统之前,现场管理员基本靠手工来调度,随着体量越来越大,缺陷逐渐暴露:

1)响应慢:比如周末线上排队时,现场管理员可能会收到电话反馈,然后再打开电脑去手工放个临时班等等,从排队发生到调度生效超过十几分钟很正常;

2)不精准:缺乏数据指导,统筹优化能力弱。举个例子,A技能组排队时现场管理员想将A技能组的流量切一些到B里,切多少,分给谁,可能都是拍脑袋决定,决策结果也无法沉淀;

3)手段缺:可用的手段非常少,无非就是手动排班放班、手工切个流,管控下小休、发个公告等,没有充分挖掘出客服的能力和潜力。

明确了客服调度的核心问题,也知道了难点,更看到了目前的现状后,我们决定打造一款自动、智能的客服调度系统——XSigma。

  1. XSigma大图

XSigma调度系统按功能模块可以分为手、脑、眼几块。手就是能提升客服资源利用率、客服服务水平以及提升客户满意度的手段,比如溢出分流、预约回拨、现场管控、激励、排班、应急放班、培训等。手段这么多,在不同业务不同场景下如何抉择是一个难点,这里需要大脑也就是调度中心来做决策。决策产生的复杂调度逻辑如何能让现场管理员、业务人员和开发人员更好地理解?我们通过可视化技术将复杂的调度逻辑转化为可以理解的实时图形界面,即调度系统的眼睛-调度大屏。手、脑、眼功能具备后,如何让他们磨合得越来越好?我们通过仿真演练系统来锤炼。

下面会对图里的模块一一介绍。

  1. 提前准备:排好班

如果能预测好需,准备好供,那客服调度就成功了一半。在我们业务中,不同类型的客服排班模式不同。云客服采用的是自主选班模式,管理员只需设置好每个时间段的选班人数,让云客服根据自己的时间来自行选班。而SP(合作伙伴)采用的是排班模式,需要管理员根据每个时间段的话务量来安排每一个客服,既要能够保证每个时间段的接通率达到最大,又要能够协调好客服人员的休息和工作时间,保证每个客服人员的总工时大致相等,这非常考验管理员的统筹能力,当客服数目变多后,人工排班给管理员带来了巨大挑战。

不管哪种模式,都需要提前预测未来两周的需要服务量(业务上按1~2周的粒度排班),这其实是个标准的时间序列预测问题。结合历史数据,我们可以按照部门-技能组的粒度预测出未来2周的服务量,当然,这种离线的预测只是一种近似,很难精准预测。

对于合作伙伴公司客服的排班,可以抽象为多约束条件下的优化问题,在实际场景中,我们采用了组合优化算法。

  1. 水平扩容:预测式应急放班

提前排班很难精确预估服务量,我们不可能提前知道下周一13点25分会出现个代金券问题导致大量用户进线咨询。

对于这种突发性质的流量或者比上班服务量大的流量,我们能不能像调度机器一样,快速水平扩容一批客服来上班。对于社会化的云客服,我们可以做到,比如排队数超过某值时,自动触发云客服的应急放班。通过实践发现云客服从选班到上班一般需要十多分钟时间,如何进一步节省这十多分钟的黄金处理时间?将应急放班升级为预测式应急放班!提前几分钟预测到即将到来的大流量,提前放班。

这里涉及两个模型,一个是服务量实时预测模型,该模型能根据实时数据如会员的操作行为,会员在小蜜的行为,故障场景,并结合历史进线量来综合预测某一技能组未来30分钟每一分钟的进线量。

有了服务量预测数据输入后,应急放班模型就可以结合当前服务会员情况,未来30分钟客服排班情况、会员消耗速度、溢出关系等综合指标,来推断出是否要触发应急放班以及放班的服务量。一旦触发应急放班后,线下通知模块会通过电话、短信等手段来通知合适的客服来上班。

与调度机器不同,我们需要时刻考虑客服感受,为了避免打扰没有上班意愿的客服,我们让客服自主设置是否要接收通知。

  1. 负载均衡:溢出、分流

尽管预测式应急放班效果不错,但目前只针对云客服有效,对于SP类这种非选班类的客服怎么办?我们发现,线上排队时,往往是某几个技能组出现大量排队场景,比如商家线爆了,消费者线的客服可能处于空闲状态。如何解决这种忙闲不均问题?一个直观的极端想法就将所有的组变成一个大池子组,通过负载均衡分配让每一个客服都处于繁忙状态,从而达到效率最大化。而事实上并不是所有的技能组之间都能互相承接,这里既要权衡业务,又要线下培训让客服具备多技能。

XSigma提供了技能组相互分流、溢出的配置功能,只要满足触发条件,就能实时分流溢出,解决了以往靠现场管理员手工改客服技能组的痛苦。


对于一些场景而言,技能组间的溢出粒度有点粗,比如设置了A技能组排队可以溢出到B技能组,并不是B技能组的每一个客服都能承接A的业务,只有进行了培训的客服才能承接,XSigma同样提供了给客服打技能标签的功能。

 

  1. 垂直扩容:弹性+1

有些业务比较复杂,很难找到其他技能组进行溢出,我们将注意力转到正在上班的客服上。在线客服可以同时服务多个会员,如果一个客服最大服务能力是3,那么他最多同时服务3个会员,这个值由管理员根据客服的历史服务水平来设置。

我们发现尽管很多小二的最大并发能力是相同的,在他们满负荷服务会员时,他们的服务水平有很大不同,他们的忙闲程度也有非常大的差异,为什么?

小二本身水平有差异

如下图所示,某技能组的客服最大服务能力都是3,最近一个月这个技能组的客服在同时服务3个会员场景下的平均响应时间分布(平均响应时间正比于客服回复速度),可以看到数据呈一个大致正太分布,说明小二服务水平有差异。


场景不同

举个例子,A和B两个客服最大服务能力都是5,同样都在处理5个会员,但是A的5个会员差不多都到会话结束尾声了,B的5个会员都才刚刚开始,这个例子下A和B两个客服当下的忙闲程度明显不同。

既然小二的服务水平有差别,实际场景千差万别,那能不能在技能组排队时刻让那些有余力的小二突破最大服务上限?

XSigma提供了两种策略来让小二突破服务上限。

1)主动+1模式

当技能组达到触发条件时,XSigma会主动点亮客服工作台的+1按钮(如下图红框所示),客服可以点击来主动增加一个会员进线,这种方式相当于是将扩容权利交给客服,因为只有客服自己知道目前忙不忙。

2)强制+1模式

如果某些技能组是强管控类型,可以选择开启强制+1模式,XSigma会结合数据自动选择一些合适的客服来突破服务能力上限,比如他之前最大服务能力是5,我们会同时让他服务6个会员。

  1. 削峰填谷:预约回拨

对于热线来说,小二不可能同时接好几个电话,而且业务上可承接的线下客服也少,这时候如果出现大面积排队怎么办?

通过数据分析发现,很多技能组在一天内的繁忙度在波动,有高峰也有低峰,下图所示展示了某技能组的剩余服务数,可以看到有两个繁忙时间段,10~13点,17~21点,这两个时间段的空闲服务数很多时候都是0,而其它时间段相对比较空闲,如果能将这些繁忙时间段的进线量腾挪到非繁忙时间段,这样就能大大提升客服的人员利用率,也能避免客户排队的烦恼。

怎么做呢?通过预约回拨,将当下服务转变为未来服务。如下图所示,主要有两个模块构成。

1)预约触发器。用户电话进来后,预约触发器会根据技能组的繁忙情况,来判定是否要触发预约;

2)回拨触发器。采用系统主动外呼模式,一旦发现技能组繁忙度处于低峰,就会触发回拨,只要用户电话被接通,就会以高优先级进入到分配环节,从而让客服人员在有效的工作时间内都在真正的与客户通话。

  1. 最优分配

调度的目标是:“提升客服资源的利用率和服务水平,用更少的客服资源获得更佳的用户体验”。前面这些策略的关注点更多是在提升客服资源利用率上,有没有什么策略能提升用户的满意度?我们从分配这一环节入手。

本质上我们要解决的是“会员(任务)-客服匹配优化”问题。在传统模式下,分配就是从某技能组的排队队列中找到一个等待时间最长的会员,然后再找一个该技能组下最空闲的客服完成匹配。这种公平分配方式考虑维度单一,未能在全局层面上掌握和调度分配有关的会员、客服、问题等各类信息。

匹配优化问题其实是二部图匹配问题,如图所示,在某一时刻,我们可以得到某技能组下未分配的客户(任务)以及具备剩余服务能力的客服,如果能知道每个任务与每个客服之间的匹配概率,那就可以通过稳定婚姻算法找到最佳匹配。

如何求得任务与客服之间的匹配概率?抽象为分类回归问题,核心在于构建大量样本(x1,x2,x3,…,xn)(y)。针对一通历史会话任务,y是客户评分或会话时长(目标可选),而x既包含了客服特征如过去30天的满意度、平均响应时间等等离线指标,以及客服当前会话的服务会员数、最大会员数等实时指标,也包含了任务的特征,如问题类型、等待时间、订单编号、重复咨询次数等等。样本有了后,下面就是选择分类算法进行训练,最终我们采用了CNN。

在迭代过程中发现,模型会将流量更多分配给好的客服,而指标相对较差的客服的流量则变少,为了避免少量客服上班接不到客反弹的情景,我们将公平性的指标引入到模型中。

  1. 智能培训:大黄机器人

通过最优分配来提升满意度的一个重要原因是将流量更多分给了能力强水平高的客服,而这部分客服的占比不高,为什么?为了应对11、12这两个特殊月份的高流量,业务团队要招募培训大量的云客服。这些新手涌入必然会对满意度带来影响,换句话说,如果要想进一步提升满意度指标,必须提升新手客服的服务水平。

对于新手,在上岗前提升他们水平的唯一方式就是培训,传统的培训都是通过线下让云客服看视频等学习资料,然后进行笔试,通过后就直接上岗,带来的问题是很多新客服对平台的工具、解决方案都不熟悉就直接服务会员,会员体感较差。

对比练车场景,我们发现练车有科目1、科目2、科目3等不同流程,科目1学习理论,科目2和科目3实战模拟,如果我们引入这种实战模拟就能大大提升新客服的服务水平。

我们创新的提出了使用机器人(大黄)来培训客服这一全新的客服培训模式(已申请专利)。新客服在培训租户里,通过点击大黄头像,会产生一通非常真实的模拟会话,通过和会员聊天,不断学习平台工具使用,不断提升解决客户问题能力。一旦会话结束后,大黄机器人会对这通会话进行评价,并会告知应该使用某种具体的解决方案来回答用户问题。

对于新客服,目前必须完成大黄80通会话后才能上岗,整个财年培训客服几万人,服务会话量达到几百万轮次。abtest显示通过大黄试岗的客服不管在满意度、不满意、平均响应时间、平均服务时长等各项指标上都有非常明显提升。

  1. 统一的调度中心

从上面可以看到我们的客服调度策略多且复杂,每种策略都起到了一定提升客服资源的利用率和服务水平的作用。现在的问题来了,不同场景下这么多策略如何选择?比如现在技能组A突然排队100个会员,这个时候是直接溢出到其他技能组,还是触发主动+1或触发应急放班呢?这里需要一个大脑来做决策。

如何让这个大脑适用于各种复杂的业务场景是难点。我们平台目前租户就有几十个,仅淘系这一个租户就划分了几十个客服部门,每个部门下又细分了一系列技能组,不同部门间业务场景不同。在严重缺乏历史数据积累情况下,很难直接通过训练一个决策模型来适应多种业务。于是我们的思路就转换为直接利用现场管理员的专家知识,让他们将决策逻辑沉淀为一条条的规则。

目前平台上已经配置了上万条规则,每天生效的规则也有几千条,这些数据的沉淀让我们可以通过智能优化技术实现真正的智能调度决策大脑。

  1. 调度监控大屏

客服调度策略繁多、逻辑复杂,调度结果会切实影响整个环节参与者的感受,因此我们搭建了XSigma调度大屏,方便大家理解。在实践过程中发现调度大屏能建立起使用方对调度系统的信任感,降低开发人员和管理员发现、定位并解决系统问题的成本。举个例子,管理员在XSigma平台上设置一些规则,比如A技能组排队数>=1触发溢出到B技能组,设置完后他心里没底,他也不知道设置的逻辑是否生效,往往会让开发同学再次确定下有没有生效,而现在有了可视化调度大屏,既能观察到各个技能组的服务量、剩余服务量等实时监控数据,也能看到实时调度各种策略生效的过程,以及每天调度的实时汇总明细数据。

  1. 仿真演练

在调度优化场景中,如何评估调度系统的好坏至关重要。有没有一种手段能评估XSigma是否能适应各种场景?能提前证明在双11这种大促期间也能顺畅的调度?能及时发现调度过程中出现的问题?这不仅是我们也是业务同学迫切需要知道的。

仔细思考发现,要解决的问题和技术的全链路压测要解决的问题很相似,我们要做的其实是业务上的全链路压测,于是我们搭建了客服调度的仿真演练系统。

基于大黄机器人,我们已经能模拟会员进线,通过定制改造,机器人可以制造各种主题类型的题目,比如双十一类型场景等。在此基础上,结合业务同学的预估量,可以设置出各个技能组的进线量。

在双十一之前,业务同学使用这套演练系统大规模演练过两次,由于是基于真实服务量进行演练,而不是以前的口头相传的方式,让调度上下游每一个参与的同学都有压力感。在演练过程中发现的一些问题改进后,大大提升了我们应对大促突发流量的信心。

  1. 小结

XSigma智能客服调度系统采用自动化配置、机器学习等技术,将复杂的调度问题分层处理,并在日益增长的会员任务基础上,不断精细化调度模型依赖的状态预估数值,不断提高调度模型的多目标规划能力,同时通过大量运用平台可视化技术,以实时、图表化的方式将系统运行状态呈现出来,最终在客服效率和用户体验时间上得到优化效果。该系统上线后,相比于往年,服务不可用时长这一业务核心指标直接下降98%。

 


原文链接
本文为云栖社区原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/519752.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于快速GeoHash,如何实现海量商品与商圈的高效匹配?

小叽导读:闲鱼是一款闲置物品的交易平台APP。通过这个平台,全国各地“无处安放”的物品能够轻松实现流动。这种分享经济业务形态被越来越多的人所接受,也进一步实现了低碳生活的目标。 今天,闲鱼团队就商品与商圈的匹配算法为我们…

独家揭秘!阿里大规模数据中心的性能分析

阿里妹导读:数据中心已成为支撑大规模互联网服务的标准基础设施。随着数据中心的规模越来越大,数据中心里每一次软件(如 JVM)或硬件(如 CPU)的升级改造都会带来高昂的成本。合理的性能分析有助于数据中心的…

云+X案例展 | 金融类:七牛云Pandora 助阵某银行实现日志智能管理

本案例由七牛云投递并参与评选,CSDN云计算独家全网首发;更多关于【云X 案例征集】的相关信息,点击了解详情丨挖掘展现更多优秀案例,为不同行业领域带来启迪,进而推动整个“云行业”的健康发展。银行作为国民经济的重要…

函数运行环境系统动态链接库版本太低?函数计算 fun 神助力分忧解难

背景 最近在处理线上工单的时候,遇到一个用户使用 nodejs runtime 时因为函数计算运行环境的 gcc 版本过低导致无法运行的问题,觉得非常有意思,所以深入的帮用户寻找了解决方案。觉得这个场景应该具有一定的通用性,所以在这篇文章…

蚂蚁金服核心技术:百亿特征实时推荐算法揭秘

文章提出一整套创新算法与架构,通过对TensorFlow底层的弹性改造,解决了在线学习的弹性特征伸缩和稳定性问题,并以GroupLasso和特征在线频次过滤等自研算法优化了模型稀疏性。在支付宝核心推荐业务获得了uvctr的显著提升,并较大地提…

老码农肺腑直言:为什么我不建议你学Python?

关于Python,我们听到最多的一句话就是:代码简洁。目前来看,代码量上C:Java:Python100:10:1。Python简洁度完胜,但这却也是他的“死亡缺点”!今天想跟大家分享,学Python的一系列惊天大坑……Python钱多“话少…

如何评估深度学习模型效果?阿里工程师这么做

复杂的深度模型中,如果效果不好,是因为网络设计的欠缺?还是数据天然缺陷?是训练代码的bug?还是Tensorflow自身的问题?基于此,阿里工程师推出了DeepInsight深度学习质量平台,致力于解…

开发者如何赶上 5G 风口?

戳蓝字“CSDN云计算”关注我们哦!随着5G正式步入商用,5G 技术引发广泛关注。据信息通信研究院《5G经济社会影响白皮书》预测,2030年,5G将直接带动的总产出、经济增加值、就业机会分别为6.3万亿元、2.9万亿元和800万个。据BOSS直聘…

罗辑思维在全链路压测方面的实践和工作笔记

业务的知名度越高,其背后技术团队承受的压力就越大。一旦出现技术问题,就有可能被放大,尤其是当服务的是对知识获取体验要求颇高的用户群体。 提供知识服务的罗辑思维主张“省时间的获取知识”,那么其技术团队在技术实践方面是如…

能用机器完成的,千万别堆工作量|持续集成中的性能自动化测试

1.背景 当前闲鱼在精益开发模式下,整个技术团队面临了诸多的能力落地和挑战,尤其是效能方面的2-1-1的目标(2周需求交付周期,1周需求开发周期,1小时达到发布标准),具体可见 闲鱼工程师是如何构建持续集成流水线&#x…

详解GPU技术关键参数和应用场景

戳蓝字“CSDN云计算”关注我们哦!作者 | Hardy责编 | 阿秃随着云计算,大数据和人工智能技术发展,边缘计算发挥着越来越重要的作用,补充数据中心算力需求。计算架构要求多样化,需要不同的CPU架构来满足不断增长的算力需…

5款神器级别Github 的Chrome插件

文章目录1. Chrome插件一:octotree2. Chrome插件二:sourcegraph3. Chrome插件三:Enhanced GitHub4. Chrome插件四:octolinker5. Chrome插件五:gitzip for github1. Chrome插件一:octotree Octotree是一个 …

用AI说再见!“辣眼睛”的买家秀

阿里妹导读:提起买家秀和卖家秀,相信大家脑中会立刻浮现出诸多画面。同一件衣服在不同人、光线、角度下,会呈现完全不同的状态。运营小二需从大量的买家秀中挑选出高质量的图片。如果单纯靠人工来完成,工作量过于巨大。下面&#…

云+X案例展 | 电商零售类:WakeData助力叁拾加数字化变革

本案例由WakeData投递并参与评选,CSDN云计算独家全网首发;更多关于【云X 案例征集】的相关信息,点击了解详情丨挖掘展现更多优秀案例,为不同行业领域带来启迪,进而推动整个“云行业”的健康发展。在新零售时代下&#…

linux环境安装Kafka最新版本 jdk1.8

文章目录一、环境分布二、实战1. kafka下载2. 解压3. 配置4. 编写启动脚本5. 编写关闭脚本6. 赋予脚本可执行权限7. 脚本使用案例一、环境分布 软件版本jdk1.8kafkakafka_2.13-2.5.0 二、实战 kafka官网地址: http://kafka.apache.org/downloads 1. kafka下载 …

基于泛型编程的序列化实现方法

写在前面 序列化是一个转储-恢复的操作过程,即支持将一个对象转储到临时缓冲或者永久文件中和恢复临时缓冲或者永久文件中的内容到一个对象中等操作,其目的是可以在不同的应用程序之间共享和传输数据,以达到跨应用程序、跨语言和跨平台的解耦…

微服务架构下,解决数据一致性问题的实践

随着业务的快速发展,应用单体架构暴露出代码可维护性差、容错率低、测试难度大和敏捷交付能力差等诸多问题,微服务应运而生。微服务的诞生一方面解决了上述问题,但是另一方面却引入新的问题,其中主要问题之一就是:如何…

2019阿里云开年Hi购季满返活动火热报名中!

2019阿里云云上采购季活动已经于2月25日正式开启,从已开放的活动页面来看,活动分为三个阶段: 2月25日-3月04日的活动报名阶段、3月04日-3月16日的新购满返5折抢购阶段、3月16日-3月31日的续费抽豪礼5折抢购阶段。 整个大促活动包含1个主会场…

2019云计算高光时刻:乱云飞渡 传统IT大溃败

前言:2019年,物理机最后一张王牌也败给了云计算,无论从成本还是性能的角度,都没有不选云计算的理由,这是一个时代的终结。 2019的云计算市场格局,依旧是马太效应凸显、大者恒大的趋势继续,但在…