【案例】知名银行客服中心——文本智能分析技术助力银行“数字新客服”建设-数据猿的专栏

【案例】知名银行客服中心——文本智能分析技术助力银行“数字新客服”建设

2021-08-20 18:52:59栏目：2019大型年终主题策划 IP属地：IP未知

“本项目案例由佰聆数据投递并参与由数据猿&上海大数据联盟联合推出的“行业盘点季之数智化转型升级”大型主题策划活动之《2021中国企业数智化转型升级创新服务企业》榜单/奖项的评选。

当前的金融客服行业需要整体转型升级以应对挑战、拥抱机遇。新时代客服以数字化、智能化技术作为核心驱动力，实现服务管理模式的整体升级，并通过打通用户、服务业务之间的链接，重构服务价值链，最终实现数字经济下的用户价值最大化。相比于传统客服，新客服具有数智驱动、全程洞察、管理升级三大特色。

面对日益激烈的市场竞争和客户对服务需求的升级，本案例银行客户迫切需要从现有的海量客服录音数据中挖掘出服务过程中的隐含信息，实现对现有业务服务场景的智能定义、识别。并在此基础上，进行业务服务场景大数据分析，提高服务过程中的营销成功率，并进行服务优化，以此建设更懂客户、业务更高效、服务更标准的现代智能客服中心。在此背景下，佰聆数据与本案例银行客户携手合作，开展深度文本挖掘分析和数字化应用建设，助力该银行客服中心的数字化转型。

●实施时间

开始时间：2020年3月

模型开发完成：2020年9月

应用建设完成：2020年10月

项目主体完成：2020年11月

维保期至：2021年11月

应用场景

本案例涉及到3大应用场景：

1、服务转营销分析

分析用户偏好，提高营销转化率：通过大数据技术分析历史营销情况，找出营销机会点，构建综合方案推荐模型，“将合适的产品用合适的话术推荐给合适的客户”，捕捉营销提升的机会。

2、通话过程分析

从业务维度，情绪倾向，营销情况、客户反馈等维度对坐席通话过程进行分析，利用自然语言处理技术以及深度学习，实现对通话文本的结构化，在此基础上实现某一业务时长的分析，精细化静音分析等通话过程的分析。一方面精准识别热线用户进线意图，寻找优化机会点提升客户满意度，同时捕捉客户声音，推动服务/产品优化；另一方挖掘通话过程中业务处理问题点，进而准确定位，确立业务流程、人员技能、产品、系统等维度的优化提升措施，实现服务标准化体系的持续优化。

3、专题分析及可视化

建立专题分析模板，快速输出分析报告：通过模型数据产出集合，建立分析思维模板，将传统分析转化为管理技术，记录分析思路与探索轨迹，将业务分析从个人的思维式行为转化为体系化可管理行为，从而提升业务、产品、服务的分析效率，定期、快速输出关注项报告及改善方案。

面临挑战

1、主要分析数据有大量的非结构化通话文本数据，在文本数据的清洗和处理上，需要综合运用各种文本分析技术。

2、数据质量问题，由于对话文本数据是由相关的语音转文本工具转化出来，存在转化识别的准确率问题，转化后的文本数据可能存在各种信息错误的数据质量问题，需要大量的清洗工作；同时，由此带来的标注问题，在技术和管理层面都是极大的挑战。

3、由于涉及到通话文本，通话的双方，尤其是普通的客户而言，发问一般以相对口语化的方式，或者有各种无效的用词用语、或表达不完整等问题，要求能够对对话中表达的各种意图做出精准的识别，才能准确理解并提取有用的业务信息，为业务决策提供有效参考。

4、样本训练问题，虽然获取了大约10万的通话数据，但所涉及到的业务近600项，其中部分业务的数据量是非常少，这对于实际需要海量训练样本的各种机器学习或深度学习的算法来说，依然不太充足，因此在模型训练过程中对样本的选取、处理、算法的设计和选择上有一定考验。

数据支持

本案例涉及数据的形式具有多样性，主要包括：

1、非结构化数据，主要是客服人员与客户通话的全文记录超过10万通，涉及业务近600项，通过语音转写以文本的形式保存在大数据平台。

2、结构化数据，主要是客户基本信息、客户消费行为、客户还款行为、客户在接触点行为等，以及通过统计分析生成的各类衍生指标，以结构化数据的形式保存在大数据平台。

应用技术与实施过程

佰聆数据在本案例中以业务为导向，通过大规模机器学习、深度学习、NLP等先进的大数据分析技术，利用大数据交互探索工具，为本案例银行客户开展深度数据挖掘分析和应用建设，助力其向数字化新客服转型。

本案例的技术实现主要包括三大部分：

1、对话文本的结构化，主要使用自然语言处理技术，通过机器学习，深度学习算法，将非结构化的对话文本数据结构化。

2、将结构化后的对话数据与客户信息相结合，针对具体的业务场景，通过机器学习算法和统计分析，建立对应的业务模型，支撑各业务场景的应用。

3、通过大数据交互探索工具提供给业务人员快捷方案的业务分析工具以及业务分析模板化能力。

下图为本项目的整体功能架构。基础数据模块整合各种异源异构数据，包括将客服对话录音全文转写为文本进行必要的预处理。对需要用到的业务系统的结构化客户数据进行必要的ETL操作，并与客服文本数据整合，并将数据提供给下游的处理模块使用。

一、智能对话分析引擎

佰聆数据开发的智能对话分析引擎是本案例中客服文本数据进行处理的核心模块，其需要将非结构化的文本数据从产品，服务，情感等多个维度进行切分，分解成最小不可分的对话片段，并根据对话内容打上相应维度的标签。这一模块佰聆数据主要使用自然语言处理技术，通过机器学习，深度学习算法，从词语，句法，篇章3个层级对文本进行处理，形成多维分类，意图识别，话术提炼，情感分类等一系列模型，最终将非结构化的对话文本转化为最小不可分的对话片段及相应的维度标签的结构化形式，提供给场景化的业务分析使用。

智能对话引擎的处理过程主要包括：

1、数据准备与预处理

数据预备与预处理是一项复杂的工作，首先需要将语音通话的内容按照分析要求转化，然后再进行文本预处理。文本预处理包括文本分句、文本清洗、文本分词及文本去噪等主要步骤。经文本预处理后，通话文本内容将保留与业务领域或挖掘方向相关的关键信息。

·文本分句：基于句号、问号、叹号、省略号等，对整段文本分句。

·文本清洗：语音转写文本不同于普通文本那般条理清晰、语法正规，其中掺杂了许多“干扰信息”，例如方言、数字中文化等。为保证后续文本分词及特征提取等文本处理工作的顺利开展，需要对文本进行清洗处理，流程包括：中文数值转换、大小写转换、指代信息替换、消歧转换、数字信息还原、符号剔除等。

·中文分词：为保证分词效率及精准度，实施过程中将采用基于统计的方法-jieba分词，不仅可以实现词语的有效切分，还可利用互信息、左右熵算法等识别未登陆词，实现新词发现。

·文本去噪：文本的“去噪”处理主要是去掉文本中含有的“噪声”数据。在处理文本数时，主要采用的去噪技术包括停用词过滤和稀有词处理。

·停用词过滤：停用词过滤指过滤掉文本信息中出现次数高却没有显著意义的词，包括语气词、副词、介词等虚词，以及高频词，停用词过滤主要依据停用词词典，将不具有区分度的词语添加入词典当中，形成一份金融领域文本数据专用的停用词表。

·稀有词处理：部分词在整个文本集中出现的次数都很少，那么这些词并不适合进入特征集。可以对词频设定一个阈值，当某些词的词频小于设定的阈值时，我们认为这些词是无用的、可以删掉的，并且不会影响到文本分类的精度。

2、特征工程构建

预处理后的文本，得到由多个特征词组成的文档。为了让计算机能够更好地理解，需要把这些文字信息转变成一个计算机可识别的形式。将从文本中抽取出的特征词通过特征工程的方式进行向量化来表示文本信息，即对文本进行科学的抽象，建立它的数学模型，用以描述和代替文本，最终转化成计算机可以识别处理的特征。特征工程可将连续、冗长的通话文本内容转换为简洁、直观的业务特征信息。此案例我们综合使用了词袋模型和词嵌入模型。

3、对话内容挖掘

（1）多分类模型

首先需要提取有客户反馈声音的信息，用于定位客户声音的具体业务。因为对话内容涉及到不同业务，因此需要对业务进行有效分析，建立业务分类模型由于样本量有限，而业务分类多达几百个，为了解决部分分类样本量稀少的问题，使用迁移学习来进行训练，包括两方面：一个是预训练模型，一个是多任务学习。预训练模型是借鉴bert中mask的方案去训练了句向量模型作为预训练模型。多任务学习将预训练模型、情感分类、客户拒绝模型、营销开口模型采用共享底层网络的方式一起训练。

预训练模型用于底层神经网络层的初始化，预训练模型的结构具体如下所示：

1）embedding：词嵌入将词的id转化成对应的向量。

2）用self-attention降维。

3）随机mask：以10%的概率将句向量mask掉。

4）多层multi-head attention：与bert的多层multi-head attention相似。

5）取一个正例（被mask掉的句向量），C-1个负例，计算其与mask位置对应的最后一层输出的距离：距离用点积的负数定义。所以应当最大化正例的点积，最小化负例的点积。在本例中的做法是将点积当作特征函数，然后计算出交叉熵最为模型的损失。

多任务训练具体如下所示

以看出对于不同的任务，底层的网络是共享的，区别只在于顶层的网络，即最后的全连接层不同而已。其中：

（2）需求识别模型

佰聆数据综合了对话文本中捕捉的业务领域、用户行为用意和情感分析等多个维度标签，全方面分析用户进线需求，通过意图识别模型分析推理用户行为动作演变过程，力尽较为真实地还原动态场景中的交互过程。通过综合多个模型结果，将不同属性维度结合进行叠加操作，深入挖掘用户真实来电意图，定位分析用户潜在需求，为提高用户来电服务满意度和提高业务产品营销成功率提供决策支撑。

4、智能对话分析

（1）单业务通话时长分析：收集各个维度的业务分类，业务分类分的越细定位会越具体，通话时长分析使用不同的数据分析方法，从客服因素、客户因素、业务因素、话务因素等维度进行分析。

（2）静音识别分析：识别录音中客户被动等待的静音时长，以客服代表回应客户为结束时点，识别静音所在的业务话述点，统计所在业务的静音时长，辅助判断客服代表是否及时应答、业务是否熟练，用客户的等待时间长短来检测本次通话有效时长，分析客服业务熟练情况。

（3）自助渠道推荐分析：识别客服的自助渠道推荐行为，统计分析每通对话的自助渠道推荐时长；识别客服自助渠道推荐的结果以及客户的意愿；分析客户拒绝渠道推荐的原因；

二、业务分析设计模块

在此模块中，佰聆数据主要针对业务时长分析，静音分析，服务过程中的营销分析等业务场景，从业务的角度设计分析指标和维度，并以结构化后的客服文本数据和结构化的客户数据为输入，计算相应的指标，供业务应用模型使用。

1、服务过程中营销推荐

通过收集分析不同时期的客户的需求点、客户的行为特征、客户历史办理业务情况、营销产品的特征、客服的营销能力、客服的服务交互文本信息、优秀的营销话术等，结合客户的基础属性和兴趣偏好，对数据进行预处理、最优分群、特征筛选等工作，挖掘客户的实际需求，通过逻辑回归、决策树、SVM、随机森林等挖掘算法进行尝试，选择最优算法。向客户推荐目标业务产品，提高营销成功率。

2、员工效率与效能分析

利用智能对话分析中获得的业务时长、静音时长、营销开口情况，从多维度对员工进行评价，对员工能力进行量化，在对能力元素进行分类的基础上计算能力维度间权重和能力维度内因素权重，即建立指标评价体系，从而构建坐席人员效能评价模型。在此基础上分析员工短板，进行针对性提升。

三、业务应用设计模块

业务应用设计模块针对具体的场景需求进行建模。以智能对话分析引擎和业务分析设计模块的输出物为输入，输出场景化分析应用结果。

四、交互探索分析及可视化平台

基于佰聆数据自研的交互探索分析及可视化平台-聆析作为整个项目分析挖掘产出物呈现的工具载体，对所有数据处理和业务分析应用的结果进行可视化展示。本平台可以同时支持对所有数据的自助交互式分析探索，可实现分析思路自动记录和追溯，能让业务分析实现模板化，协助业务沉淀分析案例库；同时融入多维分析、漏斗分析、进度分析、趋势预测等数据分析方法，结合钻取、对比、追溯等分析手段，支持分析报告的自动化生成。

商业改变

通过佰聆数据的数字化运营解决方案实施，本案例以业务为导向，通过大规模机器学习、深度学习、NLP等先进的大数据分析技术，对某银行海量的结构化和非结构化的数据进行深度处理、分析和挖掘，解析提炼出文本信息业务关注的重要元素，形成业务标签（如业务分类、情绪、客户反馈声音等），让业务人员可以从更细粒度对会话进行分析；并通过建立模型寻求问题的解决方案，将会话解构的成果，应用于多个服务能力、服务效果评估的场景，如业务时长分析、静音分析、情感分析等，协助银行呼叫中心开展更加精细化的运营管理，有效提升了客服中心的智能化、数字化服务水平，帮助银行提高服务质量，改善客户体验，并且从服务中实现了营销有效增长，产生千万级的营销效益，助力其向数智驱动、全程洞察、管理升级的数字化新客服转型。