39
学术出版,国际教著,国际期刊,SCI,SSCI,EI,SCOPUS,A&HCI等高端学术咨询
来源:职称驿站所属分类:智能科学技术论文 发布时间:2020-06-03浏览:26次
一、序言
作为企业经营管理的重要组成部分,合同管理工作作为在各企业经营中的重要一环重要性日益凸显。合同管理在签订、履行等阶段的风险识别、防控能力的提升将为企业经营活动带来更大的收益。
《模式识别与人工智能》是由中国自动化学会、国家智能计算机研究开发中心和中国科学院合肥智能机械研究所共同主办、科学出版社出版的学术性期刊。本刊主要发表和报道模式识别、人工智能、智能系统等方面的研究成果与进展,旨在推动信息科学技术发展。
为提升企业合同管理工作中的风险识别能力,中国海油在2019年度立项了自然语言分析在合同文本校核中的应用研究项目,探究自然语言分析技术在合同管理中的应用。以中国海油集团公司信息化部和信息技术中心的合同编制和校核工作为研究试点,以自然语言分析为入口,研究论证如下的内容:
验证人工智能相关技术在海油合同管理应用实现落地效果,以期达到降低人工操作的错误,提高工作效率的目标;
通过将本次项目,论证将自然语言分析技术在中国海油合同管理系统中真正落地,将员工时间与精力,从简单、重复性的工作中释放出来,投入到更具创造力的工作中;
同时通过人工智能的相关技术的应用,在信息化企业架构方法、智慧海油顶层设计以及实现路径探索方面为海油带来更多助益等目标。
二、关键技术说明
(一)自然语言分析技术说明
词法分析:词法分析包括词形和词汇两个方面。一般来讲,词形主要表现在对单词的前缀、后缀等的分析,而词汇则表现在对整个词汇系统的控制。在中文全文检索系统中,词法分析主要表现在对汉语信息进行词语切分,即汉语自动分词技术。通过这种技术能够比较准确的分析用户输入信息的特征,从而完成准确的搜索过程。它是中文全文检索技术的重要发展方向。
句法分析:句法分析是對用户输入的自然语言进行词汇短语的分析,目的是识别句子的句法结构,实现自动句法分析过程。其基本方法有线图分析法、短语结构分析、完全句法分析、局部句法分析、依存句法分析等。
语义分析:语义分析是基于自然语言语义信息的一种分析方法,其不仅仅是词法分析和句法分析这样语法水平上的分析,而是涉及到了单词、词组、句子、段落所包含的意义。其目的是从句子的语义结构表示言语的结构。中文语义分析方法是基于语义网络的一种分析方法。语义网络则是一种结构化的,灵活、明确、简洁的表达方式。
语用分析:语用分析相对于语义分析又增加了对上下文、语言背景、环境等的分析,从文章的结构中提取到意象、人际关系等的附加信息,是一种更高级的语言学分析。它将语句中的内容与现实生活的细节相关联,从而形成动态的表意结构。
语境分析:语境分析主要是指对原查询语篇以外的大量“空隙”进行分析从而更为正确地解释所要查询语言的技术。这些“空隙”包括一般的知识,特定领域的知识以及查询用户的需要等。它将自然语言与客观的物理世界和主观的心理世界联系起来,补充完善了词法、语义、语用分析的不足。
(二)文本分类方法
经典文本分类方法主要包括: Rocchio 方法、决策树方法、贝叶斯分类、K近邻算法和支持向量机等分类方法。近年来, 随着人工智能、机器学习、模式识别和数据挖掘等领域的不断发展, 促使文本分类方法得到了长足的发展。
Rocchio 方法———相似度计算方法:Rocchio是情报检索领域最经典的算法。在算法中, 首先为每一个类C 建立一个原型向量(即训练集中C 类的所有样本的平均向量) , 然后通过计算文档向量D 与每一个原型向量的距离来给D分类。可以通过点积或者Jaccard 近似来计算这个距离。这种方法学习速度非常快。
NaveBayes (NB) ———贝叶斯方法:贝叶斯分类是统计学分类在方法, 它可以预测一个给定样本属于某一类别的概率。贝叶斯分类是基于贝叶斯定理而构造出来的。
朴素贝叶斯分类器是以贝叶斯定理为理论基础的一种在已知先验概率与条件概率的情况下得到后验概率的模式分类方法, 用这种方法可以确定一个给定样本属于一个特定类的概率。目前基于朴素贝叶斯方法的分类器被认为是一个简单、有效而且在实际应用中很成功的分类器。朴素贝叶斯分类方法是机器学习中常用的方法之一。
K- NN 方法———K- 近邻方法:K- NN 方法是一种基于实例的文本分类方法。首先, 对于一个待分类文本, 计算它与训练样本集中每个文本的文本相似度, 根据文本相似度找出可k 个最相似的训练文本。这最相似的k 个文本按其和待分类文本的相似度高低对类别予以加权平均,从而预测待分类文本的类别。其中最重要的是参数K的选择, k 过小, 不能充分体现待分类文本的特点; 而k 过大,会造成噪声增加而导致分类效果降低。
SVM———向量机:支持向量机(Support Vector Machines : SVM) 理论, 由Vapnik 在1995 年提出, 并用于解决二分类模式识别问题。它基于结构风险最小化原则, 在向量空间中找到一个决策面(decision surface) , 这个面能“最好”地分割两个分类中的数据点。
目前, 比较有效的SVM实现方法包括Joachims的SVMlight 系统和Platt 的序列最小优化算法。随着人们对文本分类的深入, 不断有许多新方法涌现, 如基于潜在语义结构的文本分类模型,基于模糊- 粗糙集的文本分类方法。但要从根本上解决文本分类中所固有的一些问题, 还需加强研究的力度, 找到更先进的理论和方法。
DecisionTree ———决策树方法:决策树方法是从训练集中自动归纳出分类树。在应用于文本分类时,决策树算法基于一种信息增益标准来选择具有信息的词, 然后根据文本中出现的词的组合判断类别归属。
三、自然语言分析在中国海油集团合同管理系统中的应用
(一)中国海油合同管理现状分析
中国海油集团于2014年开始了合同管理的数字化管理进程,合同管理系统于2015年正式上线并面向中国海油集团提供服务。系统管理涵盖了合同管理签订前、签订中、履行中、履行后的全生命周期。如图1所示。
在合同签订前阶段:提供了对合同的基础资料进行维护,包括相对方信息同步,项目信息同步及新建,合同预算计划填报,标准合同范本维护,授权委托书的申请等功能。
在合同签订阶段:用户可以在系统中进行合同文本的审查会签,根据总公司合同管理规范的要求,对合同进行审查和会签的操作,若合同无需审查会签,直接进行备案登记即可。若需要加盖印章,在定稿会签后可发起用印申请。合同线下签订后,用户可以在系统中进行签署登记,填写必要的签署信息。
在合同履行阶段:用户可进行收付款登记,框架协议下的订单执行情况登记,合同变更/补充协议登记,合同中止/回复登记,纠纷争议登记,监控合同的执行过程。
合同履行后:用户可在合同管理系统中进行合同关闭操作。
同时在合同签订、执行、关闭的过程中,用户可以对合同相关的文件进行归档清单登记。同时,用户可以对合同管理信息系统中的合同相关信息进行查询统计,生成报表等操作。
(二)项目研究目标
本次研究项目以中国海油集团公司信息化部和信息技术中心的合同编制和校核为研究试点,以自然语言分析为入口,将人工智能相关技术落地中国海油办公应用,降低人工操作的错误,提高工作效率,将员工时间与精力,从简单、重复性的工作中释放出来,投入到更具创造力的工作中,同时降低人工操作可能存在的错误,在信息化企业架构方法、智慧海油顶层设计以及实现路径探索方面为海油带来更多助益。
同时自然语言处理技术(简称NLP)是人工智能的重要分支,通过NLP对合同文本进行深度的分析挖掘,实现计算机对文本语义层面的阅读和理解。采用当前最领先的迁移学习和深度学习技术,打造智能文本分析AI平台,并结合人机交互强化学习,由通用AI智能平台演变为中国海油独有的深度AI智能平台。如图2所示。
(三)应用场景设计
本次研究项目针对中国海油合同管理系统提供基于自然语言分析技术的智能平台,应用于中国海油合同管理业务的合同预审场景中。如图3所示。
在本次研究项目中,在合同管理业务的预审环节介入了智能应用来辅助对合同的内容进行审核。
通过调用经过训练的模型,对合同中的格式化信息、合同关键审核要素、合同中的费用计算、合同合法性检查、合同合规性审查等内容进行审核,并将相关的结果在合同系统中加以标识,以供审核人员对审核结果进行确认与标定。
(四)应用功能说明
在应用场景设计的基础之上,为验证实现研究目标,本次项目中将中国海油现有的合同管理业务特点与自然语言分析技术相融合,提出了图3的应用场景逻辑架构。如图4所示。
图4
并以此逻辑架构为基础,将研究方向集中在,智能合同要素提取、合同智能预审两个方面。进而依据项目研究的需要开发了如下的功能:
合同要素提取:合同要素提取,是本次项目智能应用服务的基础能力。提供了基于自然语言处理技术的合同正文解析及合同关键要素提取的能力。提取后的合同要素内容,可用于进行合同智能审核、合同表单数据验证及表单回填。
合同智能预审:合同智能审核,是本次项目的核心应用。
根据业务需求,本次项目共提炼并实现了18条合同审查规则。
合同智能审核的结果分为两大部分。
一是摘要信息,展示本次审核的风险及问题等数据统计结果,同时展示合同关键要素提取的内容。
二是审查信息,提供根据规则审查的结果。展示内容按照规则类型进行分类。
此外,合同智能审核,还提供了用户进行语料标注或反馈问题的渠道,以实现数据模型在实际使用过程中的持续优化。
样本标注:标注管理提主要供了合同样本管理及样本标注的功能。此外,还提供了辅助标注的业务领域管理及标签管理功能。对样本标注产生的实体词还提供了实体词库管理和词库标签映射功能。
通过标注管理,用户可以实现对样本标注,其输出成果主要包括两部分内容:
一是标注结果数据;二是实体词库。
这两部分数据会输入到语料生成环节,进行语料数据的生成。
模型管理:模型管理是对合同审核模型进行管理的功能模块,其主要功能包括模型管理、模型评估、模型优化。
模型管理是对模型的基本信息及版本进行管理的功能。
模型评估是对模型训练结果进行评估及指标数据查看的功能。
模型优化是根据最终用户提供的问题数据进行样本再标注及模型优化训练的功能。
通过模型管理,系统会生成可供相关智能应用进行实际管理服务的数据模型。
规则管理:规则管理,是对合同审查业务规则进行管理、配置的功能模块。
系统提供的配置管理提供了黑名单、白名单等具有海油审查特色的配置能力,辅助合同审批管理用户不断丰富、完善合同审核规则。
除了基础的配置管理功能,系统还提供了针对审查过程的记录查看功能,可以查看相关规则对应的审查问题结果数据。
应用接口:合同要素提取,是本次项目智能应用服务的基础能力。提供了基于自然语言处理技术的合同正文解析及合同关键要素提取的能力。提取后的合同要素内容,可用于进行合同智能审核、合同表单数据验证及表单回填。
统计分析:合同要素提取,是本次项目智能应用服务的基础能力。提供了基于自然语言处理技术的合同正文解析及合同关键要素提取的能力。提取后的合同要素内容,可用于进行合同智能审核、合同表单数据验证及表单回填。
四、应用研究结论
在本次研究项目中,中国海油着重研究了自然语言分析在公司合同管理中的应用效果。經过论证、研究以及实验,达到了项目预期的目标。通过项目研究我们得出如下的结论:
本次项目既验证了相关技术的可行性,也验证了在海油合同管理业务中的实用及推广可能性。
总体来说,自然语言分析——即以自然语言处理为核心的相关技术在合同管理中具有一定的实用和推广价值。
合同智能审查作为核心业务应用,为了达到更好的审查效果,除了自然语言处理技术之外,还应根据实际情况,结合其它相关技术共同进行开发应用。
目前的自然语言处理技术还不具备替代人工检查的条件,只能实现对合同基础完备性、关键要素准确性、一致性等方面的检查。
作者单位:海洋石油
《自然语言分析技术在合同管理中的应用研究》
本文由职称驿站首发,您身边的高端学术顾问
文章名称: 自然语言分析技术在合同管理中的应用研究
下一篇:城市地下空间安全监管系统研究
扫码关注公众号
微信扫码加好友
职称驿站 www.zhichengyz.com 版权所有 仿冒必究 冀ICP备16002873号-3