共计 4480 个字符,预计需要花费 12 分钟才能阅读完成。
真是巧合……智谱和DeepSeek再次碰面了。
竞争愈演愈烈,DeepSeek-OCR尚未发布满一天,智谱便迅速推出了自己的视觉Token方案——Glyph。

既然这两者同台竞技,卡帕西自然要来观赏一下这场较量,毕竟最近DeepSeek备受关注。
我们相信你也会对我们的研究产生浓厚兴趣。
论文发布就发布,何必争宠呢。(doge)
网友调侃道:AI界也有自己的霸道总裁爱情故事。

智谱推出视觉压缩技术
确实,智谱的新论文同样旨在通过视觉方式,解决当前大规模语言模型(LLM)所面临的上下文冗长问题。
上下文需求激增
随着大语言模型能力的不断提升,用户和企业对于长上下文的需求显得愈加迫切。
无论是长篇文档的分析、代码的审查,还是多轮对话,模型不能像金鱼那样看过就忘。要使其能够可靠地完成任务,就必须具备足够的「工作记忆」。
然而,扩展上下文却是一项困难的工作。
例如,将上下文从50K扩展至100K,所需的算力消耗将是原来的四倍。
这是因为,更多的Token意味着模型必须记住更多的激活值、缓存和注意力权重,而这些都是通过资金投入在训练和推理阶段获得的。
如果能切实提升性能,多花点钱也无妨。
最令人沮丧的是,即使投入了大量资金扩展上下文,模型的智能水平也未必因此提升。
IBM的研究表明,仅仅依靠“增加Token”并不能保证模型表现的线性提升。
实际上,当输入过长、信息过于杂乱时,模型可能会陷入噪声干扰和信息 overload的困境,导致理解混乱。
目前对此类问题,主要有三种流行的解决方案:
第一种,扩展位置编码。
在Transformer结构中,模型无法识别输入的顺序,因此需要为每个Token添加“位置编码”,以指示先后关系。
扩展位置编码的方式就是直接延伸原有的位置编码区间。
例如,将0~32K的位置区间“插值”到0~100K,模型便可在不重新训练的情况下,接受更长的输入。
尽管如此,推理成本的问题依然存在,模型在推理阶段仍需遍历所有上下文。
尽管模型能够继续处理更长的输入,但由于在训练时未见过如此庞大的上下文,其表现必然受限。
第二种,改进注意力机制。
上下文延长后,模型需要加快“阅读”速度,比如使用稀疏注意力、线性注意力等技巧,以提升每个Token的处理效率。
但无论如何,Token的总量并没有减少,如果上下文达到数十万,效率再高也难以支撑。
第三种,采用检索增强RAG路线。
这种方法通过外部检索先筛选出重点内容,再交给模型,从而缩短输入,提高推理效率。
但是,大家都知道,RAG的输出结果通常不如基于训练数据的模型回答,而且多出的检索步骤会拖慢整体响应速度。
上下文的问题,确实让人感到棘手。
以「图」示意
为了应对这一挑战,研究团队提出了一种新范式——Glyph。
大道至简:既然单纯文本的信息密度不够,那就将其转换为图像。
传统的LLM处理文本时,会将句子拆分为一个个独立的Token逐个输入,效率相对较低。
例如,如果一句话分为1000个Token,模型便需要逐一计算这1000个向量,还要在它们之间进行注意力计算。
而Glyph的处理方式则是将整段文字排版为图像形式的视觉Token,再将这张「截图」交给视觉语言模型(VLM)进行处理。
这样做的原因在于,图像所能承载的信息密度远高于纯文本,仅需一个视觉Token便可包含原本需要多个文本Token的内容。
借助这种方式,即便是一个上下文固定的VLM,也无需依赖稀疏注意力、RAG等工具,便能轻松处理超长文本,甚至“撑死”LLM。
举个例子,《简·爱》的文本Token大约为240K,而对于传统上下文窗口仅有128K的LLM来说,只能处理一半内容。
在这种情况下,如果你想询问与故事发展相关的问题,传统模型往往无法作答。
例如:女主离开桑菲尔德后,谁在她困境中给予了帮助?
而使用Glyph,将整本书渲染为紧凑的图像,仅需约80K视觉Token。
通过Glyph,128K的上下文能力得以充分发挥,使得整部《简·爱》的内容得以被清晰理解,并且可以从更全面的角度来解决相关问题。

这种显著的效果究竟是如何实现的呢?
Glyph的训练过程可以分为三个主要阶段:
第一阶段:持续预训练
这一阶段旨在帮助模型将其在文字领域的长上下文理解能力迁移到视觉领域。
研究团队通过将大量长文本转化为多种风格的图像,置于不同的排版、字体和布局中,以使VLM能够在各种环境下“阅读”图像,从而提升其泛化能力。
在这一过程中,模型将不断学习如何将图像中的文字与原始文本的语义进行有效对接。
第二阶段:LLM驱动的渲染搜索
尽管多样化的渲染方式增强了模型的泛化能力,但在实际应用中,效率和准确性同样重要。
文字转换成图像的方式,关系到压缩率与可读性的微妙平衡。
若字体过大、排版过于宽松,将导致信息密度不足,背离视觉Token的初衷。
然而,过度追求信息密度也会产生负面效果。
字体过小、布局过于紧凑,虽然能提高压缩率,却可能使模型无法清晰识别信息,导致理解上的偏差。
因此,研究团队引入了一种由LLM驱动的遗传搜索算法,自动化寻找最佳的渲染参数,如字体大小、页面布局和图像分辨率等,以在尽量压缩的同时不丢失语义信息。
第三阶段:后训练
在确定最优渲染方案后,研究团队进行了两项工作:有监督微调和强化学习,旨在提升模型在“图像阅读”方面的智能和稳定性。
此外,他们还在SFT和RL阶段加入了辅助OCR对齐任务,使模型能够从图像中准确提取文字细节,实现视觉与文本能力的完美融合。
最终,Glyph掌握了两项关键技能:
1、理解长文本,推理能力精准可靠。
2、关注细节,图像阅读轻松愉快。
凭借这一系列的创新,Glyph在高压缩视觉上下文任务中表现出色。
压缩率高达75%
了解了原理后,接下来我们将探讨Glyph的实际效果。
事实证明,Glyph确实能显著减少Token数量。
实验结果显示,在多项长上下文基准测试中,Glyph实现了3至4倍的Token压缩率,并且准确度与主流模型(如Qwen3-8B)相当。

这一压缩不仅减轻了计算负担,同时还提升了约4倍的填充与解码速度,并加快了约2倍的SFT训练效率。
全新长文本建模框架Glyph的惊艳表现
令人振奋的是,在极限压缩情况下,具备仅128K上下文窗口的VLM,竟然能够有效处理相当于百万Token的文本任务,表现毫不逊色。

此外,尽管Glyph的训练数据主要源自处理后的文本图像,但在多模态任务中,它同样展现了卓越的能力,充分证明了其强大的泛化能力。

综上所述,这篇论文提出了一种名为Glyph的长文本建模框架。
该框架的核心理念是将长文本“转换”为图形,接着让VLM进行图像解析和阅读,从而实现高效的上下文扩展,真正做到一目十行。
论文作者
如此出色的研究成果,背后的团队是谁呢?
论文的主要作者为Jiale Cheng,他是清华大学的一名博士生,研究领域涵盖自然语言生成、对话系统及相关的人工智能交互技术。

目前,Jiale已经发表了多篇学术论文,并在谷歌学术上积累了良好的影响力。
除了主要作者Jiale Cheng之外,这篇论文还有三位重要的贡献者,分别是Yusen Liu、Xinyu Zhang和Yulin Fei。然而,令人遗憾的是,对于他们的公开资料所知甚少。
本文的通讯作者是黄民烈教授。黄教授在清华大学完成了本科学位和博士学位,目前担任计算机科学与技术系的长聘教授。同时,他还兼任智能技术与系统实验室的副主任,以及清华大学基础模型中心的副主任。
此外,他还是北京聆心智能科技有限公司的创始人和首席科学家。黄教授的研究方向涵盖了人工智能、深度学习、强化学习以及自然语言处理等领域。
像素或将成为未来的信息单位
在MoE名声大噪之后,DeepSeek-OCR的问世再次推动了人工智能技术的革命。截至10月22日,最受欢迎的四个模型中,全部都具备OCR功能。
自然,视觉Token展现了其巨大的潜能。在上下文建模的能力上,视觉Token的表现令人惊艳——仅仅依靠100个视觉Token,DeepSeek-OCR便能够在需要800个文本Token的文档上获得高达97.3%的准确率。
这种效率的提升意味着,人工智能的使用门槛正在快速降低。根据DeepSeek的介绍,使用OCR技术后,单张NVIDIA A100-40G GPU每天可处理超过20万页文档。
按照这样的处理速度,仅需一百多张显卡,就足以完成一次完整的模型预训练。尽管降低成本和提高效率一直是开源社区的强项,但此次讨论的焦点已不仅限于此——
视觉Token的引入,或许正在从根本上改变大规模语言模型(LLM)处理信息的方式。未来,像素有可能取代文本,成为下一代人工智能的基本信息单元。
卡帕西指出,像素作为LLM的输入,相较文本有两个显著优势:
1、信息压缩率更高→ 更短的上下文窗口,提升了效率。
2、信息传递范围更广→ 不仅可以表示文字,还能包含颜色、粗体以及各种图像。
马斯克则持有更为激进的观点:
从长远来看,人工智能模型的输入和输出中,99%以上都将是光子。
AI与脑科学的深层联系:图像输入的启示
近年来,OCR技术的迅速崛起再一次引发了人们对人工智能与脑科学之间复杂关系的思考。
表面上,用图像而非文字作为输入似乎有些反常,但深入分析后会发现,这实际上更符合人脑处理信息的方式。
当人类接收新信息时,首先感知的往往是图像。
即使在阅读过程中,我们的大脑初步接收的也是一种由像素以特定方式排列组合而成的视觉图形,经过多层视觉处理后,这些像素才逐渐被转化为“文字”的认知。
从这个视角看,尽管OCR的表现极为优秀,但并非完全出乎意料。
毕竟,视觉信息一直是人类数千年来认识世界的根本来源。
相比之下,语言不过是我们从视觉及其他感官体验中提炼出来的高度浓缩的抽象表达。它虽然标准化且成本较低,但本质上仍然是对视觉信息的简化和降维。
即使是最清晰的影像,依然会不可避免地丢失一些细节。
有趣的是,尽管AI在多个领域逐渐接近人类水平,引发了广泛的焦虑,但每当技术发展遇到瓶颈时,我们总能从那个常被质疑“智能不足”的人脑中找到新的解决方案。
神经网络、注意力机制、MoE等技术的进步,都是这一规律的体现。
而这一次,深不可测的人类智能,再次通过视觉Token得到了验证。
论文
https://arxiv.org/pdf/2510.17800
GitHub
https://github.com/thu-coai/Glyph
参考链接
[1]https://x.com/ShawLiu12/status/1980485737507352760
本文由微信公众号“量子位”提供,作者为Jay,经过36氪授权发布。
