网站首页 > 教程文章 正文
来源:环球网
【环球网科技综合报道】随着大模型在社会应用中逐渐普及,人们在享受便利的同时,也面临着“AI 幻觉”产生的风险。训练数据是影响大模型“认知能力”的关键要素,近日,上海合合信息科技股份有限公司(简称“合合信息”)TextIn“大模型加速器 2.0”版本正式上线,基于领先的智能文档处理技术,对复杂文档的版式、布局和元素进行精准解析及结构化处理,从数据源头降低大模型“幻觉”风险,让大模型在与人类的沟通中“更靠谱”。
“大模型加速器 2.0”文档解析引擎助力知识库理解手写笔记示意图
据悉,升级后的“大模型加速器”在复杂版面理解、表格及图表处理、内容溯源等能力上实现新突破,可精准识别上千种文档中的跨页表格、合并单元格、密集表格、手写字符及公式,解析稳定率达99.99%,单页处理耗时较行业可比产品降低超30%;可“逆还原”十余种专业图表数据,并将其转化为大模型可理解的结构化数据。此外,“大模型加速器 2.0”版本新增知识库系列开源组件,助力医疗、制造、教育等行业开发者构建个性化的知识库。
以教育行业为例,在“大模型加速器”的支持下,合合信息与赛尔教育共同协作,提升大模型对复杂版面、元素的“理解力”,使其按照人类正常的阅读顺序识别文档结构,智能划分标题、段落、表格和图表等内容块,帮助大模型理解版面、内容间的对应关系,减少AI“幻觉”现象。
赛尔教育CTO、教育数字化事业部总经理杨林提到,教育行业中所涉及的文档格式多样,在内容上也包含了表格、公式、手写字符、多语言文字等信息。如何高效准确地提取各类文档中的文本信息,并非易事。
“教育行业的大模型建设工作中,数据的数量和质量起着决定性作用。我们做了很多尝试,模型的速度和准确性都达不到要求,严重影响科研工作的进展。”杨林表示,行业知识库的构建基于大量文档的文本信息提取,需要高效率、高准确率的工具。合合信息文档解析技术提供了专业的技术支持和服务,有效解决了文档处理过程中的问题。
除了复杂的版面布局,种类繁多、空间结构复杂的图表元素也是解析难点所在。“大模型加速器2.0”图表解析模块可智能提取多种图表中的关键数据点、坐标轴信息、图例说明等,在精准解析不同类型图表数据的基础上,将其还原为一组完整的Excel表格数据,作用于教育行业大模型微调,学科知识库建设、智能审阅等环节。
图表解析模块将图表还原为表格数据
近期,多家券商机构纷纷宣布接入大模型,帮助分析师、行业研究员等专业人士提高工作效率。为帮助用户简化专业文档数据筛选和数据抽取流程,提升文档内容解读效率与准确率,“大模型加速器 2.0” 上线了知识库产品组件,支持复杂文档的智能问答、总结与检索。
为了让行业“安心”使用大模型,知识库产品推出溯源功能,通过在“投喂”给知识库的Markdown及JSON文件中标记页码、坐标等空间位置信息,实现对句子、段落的精确溯源,为用户提供了一个快速检验的路径。以财务分析为例,大模型在多份高达上千页的财报文件中找到收入、利润等关键数据后,券商分析师可利用溯源功能定位原表格,对信息进行复核,防止错误、遗漏。
知识库对财报数据所在表格进行精准溯源
据介绍,目前知识库组件已面向开发者开源,帮助其根据自身需要快速构建个性化行业知识库。此前,合合信息已开源智能文档处理“百宝箱”系列产品,解决文档解析精度低、解析效果评估难等问题,开发者可根据研发需求灵活搭配使用。(郑湘琪)
- 上一篇: 千万级大表分页查询效率剧降,你会怎么办?
- 下一篇: 分页机如何实现自动重张检测?(专业分页机)
猜你喜欢
- 2025-03-30 如何从0到1设计积分系统?(如何做一个积分系统)
- 2025-03-30 如何解决MySQL 的深度分页问题?(mysql 深度翻页)
- 2025-03-30 百一智能之:智能TTO热转印分页一体机
- 2025-03-30 Redis实现分页+多条件模糊查询组合方案
- 2025-03-30 多模态长文档新基准来了!20多项任务覆盖理解推理定位
- 2025-03-30 了解智能分页喷印机之:自动识别(喷码机分页机漏喷)
- 2025-03-30 Java技术干货|Mybatis分页原理及具体实现流程
- 2025-03-30 分页打码一体机(分页打码一体机操作方法)
- 2025-03-30 百一分页喷印技术之:标准分页与TTO热转印一体机
- 2025-03-30 分库分表必会-跨库分页查询的几种方式
- 05-11阿里开源MySQL中间件Canal快速入门
- 05-11MyBatis插件开发实战:手写一个分页插件
- 05-11Flask数据库——SQLAlchemy
- 05-11MySQL 到 Hazelcast Cloud 实时数据同步实操分享
- 05-11sqlmap 详解
- 05-11一篇文章让你学会Elasticsearch中的查询
- 05-11Mysql性能优化这5点你知道吗?简单却容易被初学者忽略!
- 05-11Spring Boot 实现 MySQL 读写分离技术
- 最近发表
- 标签列表
-
- location.href (44)
- document.ready (36)
- git checkout -b (34)
- 跃点数 (35)
- 阿里云镜像地址 (33)
- qt qmessagebox (36)
- md5 sha1 (32)
- mybatis plus page (35)
- semaphore 使用详解 (32)
- update from 语句 (32)
- vue @scroll (38)
- 堆栈区别 (33)
- 在线子域名爆破 (32)
- 什么是容器 (33)
- sha1 md5 (33)
- navicat导出数据 (34)
- 阿里云acp考试 (33)
- 阿里云 nacos (34)
- redhat官网下载镜像 (36)
- srs服务器 (33)
- pico开发者 (33)
- https的端口号 (34)
- vscode更改主题 (35)
- 阿里云资源池 (34)
- os.path.join (33)