达观数据技术
该技术由达观数据投递并参与“数据猿年度金猿策划活动——2024大数据产业年度创新技术突破榜单及奖项”评选。
本发明实施例公开了一种文档审核方法、装置、系统、设备及存储介质。其中,方法包括:获取文档解析组件发送的对象简谱格式文档,根据对象简谱格式文档的业务场景,获取与对象简谱格式文档匹配的预设机器学习模型和文档审核规则;通过预设机器学习模型提取对象简谱格式文档中的关键信息;通过规则引擎根据文档审核规则和关键信息,生成文档审核结果发送至网页组件。
本发明实施例可以根据业务场景获取匹配的预设机器学习模型和文档审核规则,可以通过预设机器学习模型准确提取对象简谱格式文档中的关键信息,然后通过规则引擎,根据文档审核规则和关键信息进行文档审核,从而满足不同业务场景下的文档审核需求,提升文档审核效果和文档审核效率。
技术说明
达观智能文档审阅产品是国内首个IDP平台,让计算机像人一样阅读、理解、生成各类文档、帮助企业完成自动化、智能化、定制化的文档处理工作。首创表格智能识别功能,全面解析跨页、倾斜、无框等复杂表格。在处理各种复杂的文档结构、复杂影印件文档上都有业界领先的技术能力,准确率均超95%,该产品已经获得近50项和产品相关的软著、专利和论文,产品获中国信通院最高等级认证。
在业务数据积累方面,平台已积累覆盖400+文档类型、50+类行业术语库、2000亿+训练语料库,在算法模型数据积累方面,平台已涵盖136种语义算法模型,1632种内置业务规则。
同时,该平台信创兼容与拓展部署能力全面,兼容近10类国产信创组件,包括芯片、数据库、中间件、操作系统的全方位信创支持,平台支持横向拓展,支持集群部署,业务数据加密存储,支持国密算法。
平台功能
1. 关键信息提取
成熟模型开箱即用、秒级响应可视化标注,一站式AI训练平台,自动提取文档内容的关键信息,协助企业人员完成自动填表、内容一致性检查等工作,让审阅过程更高效。支持文档格式多样,支持图片 (jpg、jpeg、bmp、tif、tiff)、扫描件、PDF、Word、Txt、Wps、Excel等常见文档格式;支持文档类型广泛,支持合同、债券募集书、招股说明书、审计报告、民事判决书、人事变动公告等超过80种文档类型;提取快速准确,1分钟完成100页文档关键信息提取,文档信息提取准确率超90%;灵活拓展场景,配置多种字段特征,满足各种文档标注需求,可在复杂场景中完成自定义的关键信息提取。
2. 文档智能比对
智能比对文档差异信息,差异内容直观可见,导出结果精确可查,比对规则灵活配置。比对功能强大,支持字符、篇章、标点符号、段落颠倒、语义比对、财务数据一致性、合同条款、债券评级信息等比对功能;比对快速准确,3分钟完成100页文档比对,比对差异100%召回,结果更精确、比对更智能;比对场景广泛,支持合同、年报、招股说明书、债券募集书、审计报告、年报、受托管理协议等超过10种不同场景的比对。
3. 文档智能审核
基于海量文本语料库、审核规则、外界知识库(法规库),由浅及深的全面审阅文档,降低人工审阅纰漏;内置多种审核规则,支持财务信息审核、格式与披露审核,支持大小写一致性、完备性、合规性、条款等审核;审核文档类型多样,支持合同、债券募集书、招股说明书、审计报告、年报等超过30种文档类型的审核;审核功能强大,丰富灵活配置审核规则,一站式完成不同规则、不同文档、不同场景的文档审核;应用场景广泛,已应用于金融、银行、制造业、医药 、通信、法律、审计、媒体、政府等多种行业。
4. 表格识别提取
智能解读不同格式文档,并实现扫描件与图片的表格识别与处理,提高业务人员处理文档效率。表格样式丰富,精准识别有框、无框、半框、倾斜等、合并单元格、跨页合并等常见表格样式;识别精准强大,支持图片污染、图像轻微揉搓、印章遮盖、表格过密等多种表格情况,且人工可在线编辑修改表格结果,识别准确率超95%;表格类型广泛,支持通用文档、银行流水、资产负债表、现金流量表、货物表、订单表、备案表、申请表、国际货运单、箱单、报关单表、医疗化验单据等几十种表格类型;文档格式多样,支持扫描件、PDF、图片 (jpg、jpeg、bmp、tif、tiff)、Word、Wps等常见文档格式。
5. 智能合同管理
合同起草、审核、履约管理等合同全生命周期管理,唤醒企业合同资产。在线起草支持内置模板在线起草或者直接上传合同文本在线编辑,关键要素信息自动提取;智能审核AI智能审查合同风险,支持多文件交叉审核,人工可快速定位复核;智能比对不同合同版本,不同文件(如合同和招标文件)间的差异,防范篡改风险;履约监控履约数据信息清晰可追溯,自动提醒项目执行人、法务、财务等相关方。
该技术专利应用于达观智能文档处理平台(IDPS),该平台采用自然语言处理、深度学习、计算机视觉等技术,打造全新的文档一体化处理系统,能自动抽取文档的关键信息、对比文档之间的差异、审核文档潜在风险、识别提取文档中的表格。现已广泛应用于金融、制造、通信、法律、审计、媒体、银行、政府等多种文字密集型行业,累计服务超300家企业,包括招商证券、国泰君安、万科地产、平安集团、海尔集团等,获得客户的一致认可,赋能企业文档流程化、自动化、智能化处理。
开发团队
·带队负责人姓名:陈运文
陈运文,达观数据CEO,复旦大学计算机博士。国务院特殊津贴获得者、中国五四青年奖章、中国青年创业奖、上海市十大青年科技杰出贡献奖项获得者;国际计算机学会(ACM)、电子电器工程师学会(IEEE)、中国计算机学会(CCF)、中国人工智能学会(CAAI)高级会员,中国计算机学会CTO Club 上海主席;上海市浦东新区政协委员和青联副主席,浦东十大杰出青年,浦东明珠计划领军人才,首届浦东新区科技精英。
在人工智能领域拥有丰富研究成果,申请有200余项国家发明专利,在IEEE Transactions、SIGKDD等国际顶级学术期刊和会议上发表数十篇高水平科研成果论文,出版有《智能文本处理实战》、《智能RPA实战》、《智能Web 算法》(第2版)等著作;曾多次摘取ACM KDD CUP、CIKM、EMI Hackathon等世界最顶尖的大数据人工智能竞赛的冠亚军荣誉。曾担任盛大文学首席数据官、腾讯文学高级总监、百度核心技术研发工程师。在大模型、知识管理、自然语言处理、推荐算法等领域有丰富的研究和工程经验。
团队其他重要成员姓名:纪达麒、纪传俊、高翔、杨慧宇
·隶属机构:达观数据
达观数据是一家为企业提供各类场景智能文本处理的国家高新技术企业,是行业首家国家级专精特新“小巨人”企业,也曾荣获中国人工智能领域最高奖“吴文俊人工智能奖”。其自主研发的智能知识管理系统(KMS)、智能文本处理技术(IDP)、智能写作、图像文字识别技术(OCR)、机器人流程自动化(RPA)、智能搜索推荐等产品,帮助数百家企业提高生产效率、降低成本、提升业务合规性,助力企业实现数字化转型。
达观总部位于上海张江科学城,在北京、深圳、成都、苏州、郑州、南宁等全国各地成立子公司及办事处,服务团队遍及全国。团队由来自腾讯、盛大、百度、阿里等知名企业高管和技术专家组成,申请有230余项发明专利,成功通过国际权威机构的软件成熟度CMMI5最高等级认证,出版发表多本人工智能领域著作,以及数十篇国际顶级期刊会议论文。
相关评价
招商证券在多年前开始应用RPA,我们发现断点如果不用新的人工智能技术便无法更好的提升效能,所以我们开启了和达观的合作,将RPA和OCR、IDP做有效的结合。例如标准化的招股说明书和行业分析报告,有了固定的模式很容易将它的信息变成结构化的信息,包括银行流水等。对于办公文本的“通用识别及信息抽取”的场景,受益于较为丰富的训练数据和较为确定的业务规则,目前招商证券与达观数据合作,多个应用场景已经落地,并产生了较好的应用价值。
——招商证券总裁助理、首席数字官胡滔
在内控合规领域,也和达观数据展开合作,通过NLP技术能力,针对我们信贷过程中的文本数据展开自动化、智能化审计,改变原来我们这块抽样调研的方式,实现审计全覆盖。相关模型运行下来,非现场审计中非结构化数据的审计发现提高80%。
——上海银行数据管理与应用部
总经理助理宋晓迪