智谱发布GLM-4.1V-Thinking大模型，获浦东创投、张江集团10亿战略投资

在上海浦东张江科学会堂，一场聚焦于人工智能领域的盛会——智谱开放平台产业生态大会于近日拉开帷幕。会上，智谱公司宣布了一项重大进展，即正式推出并开源了新一代视觉语言模型GLM-4.1V-Thinking。

值得注意的是，在此次大会上，智谱还迎来了浦东创投集团和张江集团的战略投资，总额高达10亿元，并已经顺利完成了首笔资金的交割。三方还宣布将携手共建人工智能新型基础设施，以进一步推动AI技术的创新与应用。

GLM-4.1V-Thinking作为智谱公司精心打造的新一代视觉语言模型，其亮点在于支持图像、视频、文档等多种模态的输入，专为应对复杂的认知任务而设计。据官方介绍，该模型在GLM-4V架构的基础上进行了创新，引入了“思维链推理机制”，并采用“课程采样强化学习策略”，从而显著提升了模型的跨模态因果推理能力和稳定性。

尤为GLM-4.1V-Thinking的轻量版——GLM-4.1V-9B-Thinking，在保持模型参数控制在10B级别的同时，实现了性能上的突破。在MMStar、MMMU-Pro、ChartQAPro、OSWorld等28项权威评测中，该模型取得了23项10B级模型的最佳成绩，其中18项成绩甚至持平或超越了参数量高达72B的Qwen-2.5-VL模型。这一表现充分展示了小体积模型在性能上的巨大潜力。

GLM-4.1V-9B-Thinking模型在多个任务中展现出了高度的通用性和稳健性。例如，在图文理解方面，它能够精准识别并综合分析图像与文本信息；在数学与科学推理方面，它支持复杂题解、多步演绎与公式理解；在视频理解方面，它具备时序分析与事件逻辑建模能力；在GUI与网页智能体任务中，它能够理解界面结构，辅助自动化操作；在视觉锚定与实体定位方面，它实现了语言与图像区域的精准对齐，提升了人机交互的可控性。

为了让更多研究者能够探索视觉语言模型的能力边界，GLM-4.1V-9B-Thinking已在Hugging Face与魔搭社区同步开源。其中，GLM-4.1V-9B-Base作为基座模型，为研究者提供了基础的研究平台；而GLM-4.1V-9B-Thinking则具备深度思考和推理能力，是正常使用和体验的首选模型。

文章采集于互联网

搜索

智谱发布GLM-4.1V-Thinking大模型，获浦东创投、张江集团10亿战略投资