三三文章网 - 科技知识大全是专业科技新媒体网站。网站著眼于新一代科技新闻的全面及时处理报导,让网民在外面第二时间交待全球新一代的科技资讯。内容涵括AI+、互联网、IT、创业投资、核定、区块链、智能硬件等领域

金山办公室出道VALSE2022破解复杂场景表还原技术难题

  • 时间:
  • 浏览:0

8月22日~24日,中国人工智能学会主办的视觉与学习青年研究者研讨会(VALSE2022、在天津国家展示会展中心举行。金山出席国内顶尖学者和受邀的办公室,分享计算机视觉和机器学习的最先进技术成果。

近年来,在学会和产业界,把不能编辑的表格做成便于复制和编辑的电子文件成为了很大的研究课题。在“可解释的深度学习算法和视觉应用”的子论坛上,金山办公室技术总监、CV团队负责人熊龙飞发表的“复杂情况下的表格再现”显示了近年来在该领域的飞跃性进展。

根据[熊龙飞],标准的PDF和扫描的表比较容易识别,转换引擎大多支持这种表的转换。但更复杂的场景表格,如严重变形、复杂布局、随机定向、像素模糊、印鉴及其他背景模式干扰、嵌套关系存在,甚至表格线条表格文件,目前市场上大多数产品的识别转换效果都不充分。

近年来,在办公CV技术支持下,OCR识别、表单识别领域已达到行业领先水平。复杂场景下的表格还原技术难题是金山办公室开发的识别系统,研究了各种算法,以在密集文本、不规则表格和无边框表格、印章、签名等文档元素上达到良好的识别和转换效果。

除了满足对基本文档内容的认识外,办公室还可以通过添加深度学习能力来优化文字属性的算法,更准确地再现文档样式。例如,颜色、字体、粗体、斜体和下划线等格式都可以进行精细识别,显著提高了文档的还原度,大大节省了用户以后手动调整的麻烦。

该系统由约20个深度学习模型、100多个算法模块、50多万行代码组成,具有复杂的功能模块和调度流程,支持各种图像输入。无论是扫描的,网上下载的图片,手机截图还是拍的照片,都可以转换识别。可以在云和本地部署,并可以输出各种格式的文件,如xlsx表、word文档和html。

演讲会场通过一系列样本展示了该系统的识别能力。质量模糊、带有印章的表格图像,甚至是圆形展开的实体表格,都是通过系统的识别达到了极高的再现度。

ldquo;这个系统总是可以办公,财务表转化,政府做等领域节约量做人编辑发生的时间成本,极大地提高办公效率。rdquo;显示熊龙飞。

金山在过去的34年里,办公室在办公室电路的深耕、技术的基础上建立了事业,一直在磨练技术和产品服务。本公司承担多项国家级重大科研项目的研发任务,包括ldquo。核高基rdquo;科技重大专项、电子发展基金、ldquo;863rdquo;获得两次国家科技进步二等奖,包括高技术研究发展规划等。

本公司近年来致力于AI领域的研究开发,以OCR、布局的认识和理解为重点任务。2018年已成立CV团队,聚焦WPS等图像视觉项目的研发与应用,通过CV能力应对各种办公场景。目前已有OCR字符识别、文档校准、智能仪表、字体识别、表格还原、版式还原、PDF编辑等20多个功能提供相关产品和服务。

目前,[金山]办公室为来自220多个世界国家和地区的用户提供办公服务。2022年6月主要产品月活跃设备数量为WPS office PC版2.32亿,移动版3.34亿。

VALSE2022由中国图象图形学学会、中国人工智能学会、天津大学、天津工业大学、天津科技大学、天津市人工智能学会等共同主办,为计算机视觉、图像处理、模式识别、机器学习研究领域的中国年轻研究者提供深层次的学术交流场所。截至目前,VALSE已成功举办第十一届,是中国境内规模最大的机器视觉学术盛会。