中腾信大数据负责人详解“自然语言处理”的“智能之魂”

2019-05-07 10:26:05来源:中腾信

  人类面对机器时,原本有两份优越感:智力与情感。如今,“智力”全面失守,只剩下“情感”聊以自慰了。不过在中腾信大数据业务负责人石正柏看来,未来“情感”方面的优越感也将消失。随着NLP(自然语言处理)的发展,机器的智能程度一定会实现质的飞越,机器也可通晓人类复杂而精妙的语言含义,自然地传情达意。

  

  那么,到底什么是NLP?目前的发展情况怎么样?应用场景和商业价值又是怎样的?来听听石正柏为我们详解NLP这颗人工智能皇冠上的“明珠”。

  

  NLP,机器实现智能的“灵魂”

  

  石正柏,现任中腾信大数据业务负责人,专注于大数据与人工智能结合在互联网金融行业场景的落地。带领团队实现大数据计算平台,知识图谱计算平台,智能建模平台,智能质检以及智能语音机器人等平台和AI产品。

  

  所谓NLP,就是开发能够理解人类语言的应用程序或服务,是人工智能和语言学交叉学科的一个领域,目标是计算机处理或“理解”自然语言,以执行语言翻译和问答的任务。

  

  在石正柏看来,NLP就是让计算机懂得传情达意,通晓人类复杂而精妙的语言含义。只有当计算机具备了处理自然语言的能力时,机器才算有了真正的“灵魂”。

  

  目前,NLP在机器翻译、文字识别、语音识别、语音合成、信息检索、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等场景中,都有广泛应用。

  

  NLP的成功落地需要场景化

  

  NLP的需求,无处不在,只要有语言出现的地方,就有NLP的用武之地。但通常无法简单概括NLP的需求,必须结合场景才能明确。像语音识别、人脸识别等应用,需求相对单一明确,与场景关联度低。例如语音识别是把语音转换成文字,无论转录、同声传译、对话场景,或是金融、教育等应用领域,需求是明确不变的。NLP需求的场景化,使NLP应用必须深入业务,只能针对具体场景具体定制,无法实现快速复制。这也是在NLP领域尚没有出现类似科大讯飞、商汤科技这样的独角兽公司的原因。

  

  在石正柏看来,NLP技术的实际应用需要常识知识,而常识知识来源于具体的场景。常识知识包括两种,一种是通用知识,这些是普通人都掌握的知识。另一种是具体场景下的业务知识,例如催收场景下具体的催收流程、催收术语和催收话术等,这些是专业人员所拥有的专业知识,必须来源于场景。

  

  具体场景下的业务知识,一般是由两类人掌握。一是具体业务人员,如一线催收人员,但他们只懂业务,而对技术了解甚少;一是提供行业解决方案的应用开发人员,如中腾信智能语音机器人的开发工程师,既懂业务,又懂技术,做到了二者的结合。而对一般NLP开发人员来说,场景业务知识是短板。这是很多NLP技术人员,甚至是高校和大厂的顶级专家,落地到具体场景应用下倍感挫折的原因。NLP应用的落地,一定要将NLP技术与场景的常识知识结合起来。

  

  NLP的贷后应用场景

  

  聚焦在金融领域,NLP的落地相对靠前。众多机构都在不遗余力地投入,谋求该技术在实际业务运用中的突破,中腾信即为其中的佼佼者。

  

  目前,中腾信自主研发的智能语音机器人平台已经产品化落地,并在公司内部的催收场景下取得了优异的效果。该平台通过深度学习技术,根据公司近年来运营过程中积累的亿级催收对话语聊,基于催收垂直领域,训练生成了用户意图理解模型和对话管理模型,使机器人具备了精准意图识别能力和上下文记忆功能。通过知识图谱技术,该平台进一步丰富完善了机器人的通用知识和业务知识,进一步提高了机器人的意图识别能力和推理能力。

  

  通过使用催收机器人,中腾信逾期1天客户回收率足足提升了15%,远超同行业友商机器人6%左右的数据。

  

  在质检方面,智能质检系统可通过对坐席和客户间的电话录音进行语音识别ASR的处理,将转化后的文字运用NLP、深度学习、语音情感识别等技术快速建立文本索引,再结合管理人员预先设置的质检规则,自动对通话内容进行质检分析,生成分析结果后由质检人员复检后最终确认出违规的录音。

  

  石正柏介绍,传统人工质检覆盖率仅为2%,信息的提取与处理时长平均需要60分钟,每天人均质检数量也不过100件左右。而智能质检的上线使用,使得质检率达到100%全覆盖,信息提取与处理时长缩到极短的10秒,质检数量每天超万件。在全覆盖率的基础上效率同时提升了百倍以上。

  

  基于上述技术与具体场景相结合的丰富实践经验积累,中腾信总结了一整套NLP技术快速落地应用的流程规范,不仅是贷后管理场景,在智能客服等多领域也能够大展拳脚。

  

  核心技术能力是如何练成的?

  

  罗马不是一天建成的。在石正柏看来,紧随公司金融科技的战略规划,持续引进人才和团队的持续学习是NLP技术能够在中腾信生根发芽,长出茂盛果实的重要基础。

  

  石正柏说:“我觉得自己挺幸运的,公司给了实战机会和平台,让自己能够学有所用,也感谢领导信任,能够把重要的工作交给团队来做。”一开始团队只有几个人,随着公司人才战略的推进,如今已壮大成由35名工程师组成的大团队。现在的团队成员多为90后,他们敢想敢拼,时常自愿工作到凌晨,直至圆满完成任务,这让他这个做领导的也不敢懈怠。

  

  高强度的工作下,年纪轻轻的石正柏发际线似乎已经越来越高。他略显自嘲地说:“人家都说我是90后的脸蛋,80后的年龄,70后的发际线” 。

  

  在石正柏看来,相比于图像识别的应用落地,NLP还有很长远的路要走,也是一个需要不断学习的领域,不停研究Paper、学习新技术、阅读专业的IT期刊、参加专业技术交流等都是他和团队重要的学习与提升渠道。

  

  为了让技术能够在业务场景中更好地创造价值,研发团队也在实战中不断打磨细节,提升实战能力。例如,在语音转文字时,噪音、方言等因素,会导致转化准确率不高的情况出现。初期,系统会将“中腾信”误译成“中诚信”。通过对业务场景的不断纠错,研发团队把原有语音转文本的准确率,提高到了85%-90%的高水准。同时团队成员还根据亿级语音样本,不断专研学习心理学、谈判技巧,设计出高水准话术模型输入机器人催收系统。

  

  在语音质检环节,中文汉字的口语化表述容易引发歧义,机器人无法清晰判断通话内容是否合规,从而影响贷后催收的效率。“‘你的意思是说我这人有意思’是什么意思?”石正柏问道。在智能质检的迭代过程中,初期智能质检系统无法识别‘意思’这个词的言外之意”。现在,“攻城狮”们让机器学会了上下语境理解,以及结合语句的停顿,理解词语“意思”在具体语义环境中的具体所指。

  

  科学研究像一棵参天大树。而NLP作为细分学科才刚刚发芽,但它是学科交叉生出的枝节,是科学的生长点,可以充分发挥创造性,提出很多新的理论、方法。相信随着NLP在消费金融多场景的深入应用,石正柏和他带领的研发团队会攻克更多技术难题,中腾信金融科技能力将得到进一步提升,并始终保持行业领先地位。