AIPress.com.cn报道
4月9日消息,LG人工智能研究院(LG AI Research)发布新一代多模态人工智能模型 EXAONE 4.5。该模型能够同时理解文本与图像信息,面向合同、技术图纸及财务报表等复杂文档的分析与推理场景,标志着LG在构建自有AI基础模型生态方面的进一步推进。
EXAONE 4.5 将自主研发的 视觉编码器(Vision Encoder) 与大语言模型整合为统一系统,形成视觉语言模型(Vision-Language Model)。LG表示,该模型能够对包含文本、图表与视觉信息的复杂文档进行综合理解,并在多项视觉理解和推理任务中表现出较高准确度。
根据LG AI Research披露的数据,在五项STEM相关评测中,EXAONE 4.5 的平均得分达到 77.3,高于 GPT-5 mini、Claude Sonnet 4.5 以及通义千问 Qwen3 235B 等模型。在涉及通用视觉理解与文档推理的 13项评测指标中,该模型也整体超过 GPT-5 mini、Claude Sonnet 4.5 和 Qwen3-VL。
在编程能力方面,EXAONE 4.5 在 LiveCodeBench v6 基准测试中获得 81.4 分,高于谷歌 Gemma 4 的 80.0 分。在图表分析能力测试 ChartQA Pro 中,该模型取得 62.2 的成绩,显示出对复杂图表结构的理解能力。
LG方面表示,这些测试结果表明该模型不仅能够识别文本和视觉元素,还具备一定的上下文理解与推理能力,可在复杂信息环境中完成问答与分析任务。
在模型规模方面,EXAONE 4.5 拥有 330亿参数,约为此前发布的 K-EXAONE 模型的七分之一,但在文本理解和推理性能上保持接近水平。研究团队称,这一效率提升主要得益于其采用的 混合注意力结构(Hybrid Attention) 与 多Token预测推理技术。
EXAONE 4.5 支持多语言,包括 韩语、英语、西班牙语、德语、日语和越南语。LG表示,该模型是其 K-EXAONE 基础模型项目的重要组成部分,该项目旨在构建可支撑企业与产业应用的AI基础设施。
LG AI Research 同时宣布,EXAONE 4.5 已在 Hugging Face 平台开放,用于研究、学术和教育用途。
LG AI Research EXAONE实验室负责人 李镇植(Lee Jin-sik) 表示,该模型的推出意味着公司正进入多模态AI阶段,未来将进一步扩展模型能力至语音、视频以及现实环境理解,推动AI在工业场景中的实际决策与执行能力。
LG AI Research 信任与安全办公室负责人 Kim Myoung-shin 则表示,研究团队正在探索让AI更深入理解韩国历史、文化与社会语境的问题。他认为,尽管越来越多AI系统能够处理韩语,但对历史和文化背景的理解仍然是更具挑战性的方向。(AI普瑞斯编译)
扫码下载app 最新资讯实时掌握
