不仅能读懂，还能帮你看懂，讯飞星火成为打工东说念主的“超等助手”

（原标题：不仅能读懂，还能帮你看懂，讯飞星火成为打工东说念主的“超等助手”）

4 月 26 日，科大讯飞发布讯飞星火 V3.5 更新版块，首发星火图文识别大模子，赋予大模子感知践诺宇宙的智商。这标志着国产大模子在因循图文输入畛域的一次伏击冲破。

事实上，尽管先进的大模子在谈话交互方面展现出了额外的智商，但它们在图文识别畛域的发达却不尽如东说念意见。客岁10月，华南理工大学针对此前发布的 GPT-4Vision作念了一篇全面评测，论断是 GPT-4Vsion识别笔墨的智商比 OCR专用模子低了几十个点，尤其在手写华文文本识别中发达出显豁的幻觉问题。

国内无数面向 C 端的大模子阁下居品较少具备图文识别智商。一家头部国产大模子阁下的拍照识别功能仅因循“搜题”，无法在更多场景下使用。一些大模子阁下以致根蒂莫得拍照选项，用户仅能通过输入文本与大模子交互。

然则，在渊博职责和学习中，东说念主们搏斗到的信息并不局限于纯文本。纸质协议、会议PPT、职责纪要等贵府，怎么才气让大模子匡助咱们进行分析和整理呢？

讯飞星火通过其图文识别大模子，旨在从根蒂上处分这一问题。星火图文识别大模子具备对复杂板面的高精度判辨，和会篇章语义的笔墨识别功能，以及秘密多畛域的专科标记识别等特色。借助该手艺，讯飞星火不错终了对多媒体信息的真切证实，权贵栽培用户获取学问和学习的效劳。无论是会议纪要、讲明书、报纸如故册本，齐不错通过拍照快速得到大模子的识别与证实。

科大讯飞董事长刘庆峰说，经由多年蓄积，炒股票科大讯飞多次在海外的图文识别、公式识别中赢得大赛第一，为讯飞星火图文识别大模子的推出奠定了基础。

举例，科大讯飞针对大部分特定场景的图文识别作念了特地优化，秘密了册本、学术论文、报纸、体检陈述、PPT 等 31 个职责活命中最常见的典型场景，并针对其中最常见的 18 个板面身分进行优化，可终了对诸如页眉、页脚、标题、表格等身分的快速识别和处理，以致针对复杂的公式、钤记、二维码以及手写等元素也能准确识别。

刘庆峰还先容说，在英文公开测试集的图文识别收尾对比中，星火图文识别大模子进步微软、Google 等海外居品 6 个百分点。在诸如科研、金融、居品文档等典型阁下场景的图文识别收尾对比中，星火图文识别大模子均终了对当今公认实力最强的 GPT-4V 的高出。

星火图文识别大模子的加入，极度于给讯飞星火装上了一对“眼睛”。践诺活命中看到不解白的本体，唾手一拍就能乞助大模子。一份报纸信息过多，一键拍照让大模子来帮你整理重点，获取学问的门槛和便利进程齐大大栽培。顽强的租房协议看不露马脚，拍给大模子一键帮你指出风险条件，让你也能化身法律众人。

越来越多的从业者还是意志到，多模态智商将是昔时揣测大模子可用性、易用性的伏击主义。视觉当作多模态智商的最伏击的一环，不错匡助大模子终了从单纯的文本智商到感知物理宇宙的弘远飞跃，为昔时大模子阁下提供了更大的思象空间。

左证国度互联网信息办公室，扬弃本年 3 月，中国已备案的大模子还是达 117 家。瞻望在不远的将来，越来越多的国产大模子将奋发于多模态本体的缔造，使大模子手艺确凿融入东说念主们的渊博职责和学习中。

本文开始：财经报说念网

上一篇：优信(UXIN.US)2024财年第三季度：融合后EBITDA同比减亏43%，瞻望2025财年业务量增长超200% 下一篇：700年“碰见”300亿，泸州老窖的守正与出新

98配资

让建站和SEO变得简单