华科大AI“小猴子”升级了，TextMonkey迈向文字识别

长江日报大武汉客户端3月16日讯（记者杨佳峰通讯员汪伟颋）日前，华科大AI“小猴子”升级了！TextMonkey多项文档理解任务取得国际领先，向通用文字识别迈出坚实的一步。

去年底，华中科技大学软件学院白翔教授领衔的VLRLab团队发布了多模态大模型——“Monkey”。该模型能够实现对世界的“观察”，对图片进行深入的问答交流和精确描述。

据悉，多模态大模型是一类可以同时处理和整合多种感知数据的AI架构，在众多场景中表现出色。凭借其丰富的世界知识和出色的对话能力，多模态大模型能够如同人类一样深入理解和感知世界。

最近，华中科技大学和金山办公的研究人员开发的Monkey多模态大模型已被人工智能领域的国际顶级会议CVPR2024接收，并且曾在Meta　AI公认的国际权威“司南”多模态大模型排行榜中名列开源模型榜首，仅次于行业领先者OpenAI的GPT4V以及谷歌的Gemini等闭源模型。

TextMonkey是Monkey在文档领域的重要升级，突破了通用文档理解能力的边界，在场景文字识别、办公文档摘要生成、数学问题问答、文档版式分析、表格理解、图表问答、电子文档关键信息抽取等12项文档权威数据集以及在国际上规模最全的文档图像智能数据集OCRBench上取得了显著突破，通用文档理解性能大幅超越现有方法。

TextMonkey充当智能手机代理控制手机应用程序。

TextMonkey的核心在于它模拟人类视觉认知的方法，这使它能自然而然地识别高清文档图像中各部分的相互关联，并灵敏地鉴别出图像内的关键要素。更进一步，基于对用户多样化需求的深入理解，TextMonkey通过文本定位技术强化了答案的准确性，提升了模型的解释性，减少了幻觉，有效提高了在处理各类文档任务上的表现。TextMonkey也能作为智能手机代理，无需接触后端，仅需语音输入及屏幕截图，即能够模仿人类的点击手势，能够在手机上执行各种任务，自主操控手机应用程序。

【编辑：赵可】

华科大AI“小猴子”升级了，TextMonkey迈向文字识别

请输入验证码 ×

请输入验证码