游戏与机器学习科研能力：潜在因果关系探讨

没有评论

共计 8789 个字符，预计需要花费 22 分钟才能阅读完成。

在我所熟悉的人工智能领域，具备出色工程能力的人通常在游戏方面也表现优异。

显然，这里存在一个共同因素：聪明的人在多个领域中表现都很好。

然而，值得探讨的是，这一现象是否具有因果关系，是否玩游戏能够提升一个人的工程能力？

此外，游戏的种类繁多，包括速度竞技、创造性和策略性等。那么，究竟哪种类型的游戏能对编程能力产生最大的积极影响呢？

这种提升又具体体现在什么方面？是创造力、反思能力、反应速度还是组织能力？游戏世界中所需的能力又是什么？

延伸的问题是：家长是否应该允许孩子玩游戏？

实际上，玩游戏是在培养一种基础的、可迁移的元技能：在复杂的信息流中合理分配注意力。

这种训练并不是简单地因为玩《星际争霸》而使得编程速度提升，而是在于高水平的复杂策略或动作游戏的过程中，能够系统性地锻炼一种核心能力：知道“你的视线应该放在哪里”。

优秀的工程师与普通工程师之间的差距往往并不在于对某个语法或算法的理解，而是在于面对复杂系统、繁多日志或模糊需求时，能否迅速：

筛选信息：就像在《Dota 2》中，从海量的信息（小兵的血量、地图的动态、英雄的装备）中，敏锐地识别出当前决策中最关键的信息（例如一个不起眼的游戏计时器，它可能预示着可以进行攻击的机会）。优秀的工程师在调试 Bug 时，也能从成千上万行日志中迅速定位出几行真正相关的错误信息。
分配注意力：就像在《哈迪斯》和《黑暗之魂》中做选择一样，知道何时该关注自身（自己的代码逻辑是否清晰、状态管理是否正确），何时应该关注“敌人”（API 的返回值、第三方库的行为、用户输入）。
动态调整视线远近：就像玩节奏游戏或打字一样，能够在宏观架构（未来的需求、整体设计）和微观细节（当前这一行代码、下一个要修复的 bug）之间灵活切换视线，而不是永远只盯着下一个音符。
知道何时“看向游戏之外”：就像玩《坎巴拉太空计划》一样，明白有些问题无法在“游戏内”（即项目本身）解决，需要主动查阅文档、阅读源码、请教同事或搜索外部解决方案。

以上内容为 gemini-2.5-pro 根据下文生成的回答。
以下内容摘自 @Thoughts Memo 汉化组的译文《你的眼睛应该往哪儿放？浅谈玩电子游戏对做科研的启示。》

当我的妻子第一次尝试那款引人入胜的动作类 Roguelike 游戏《哈迪斯》时，她在水仙花平原（Asphodel）这一关卡上卡住了。在《哈迪斯》的大多数关卡中，玩家需要快速攻击的同时，躲避箭矢、炸弹、近战敌人和尖刺陷阱；而水仙花平原这一关则更添变数：在这个希腊冥界独特的“迷人”区域，除了应对上述所有挑战外，还需时刻警惕不要踩进熔岩。水仙花平原的大多数浮岛比一次冲刺的距离要窄，因此稍有不慎就很容易直接从坚实的地面掉入炽热的毁灭之中。

我曾就技能加点（咳咳，雅典娜的冲刺技能，咳咳）和敌人的攻击模式给她提供了一些建议，但大多数建议也不过是些表面性的帮助。她大概在熔岩中挂掉了六七次。然而，一个简单的技巧却立刻产生了显著效果。

“盯紧你自己。”

小心脚下。

通过观察妻子玩游戏的过程，我逐渐意识到她犯了一个根本性错误：她的视线没有放在正确的位置。她并没有时刻关注自己的角色扎格柔斯（Zagreus），而是将注意力集中在敌人身上，试图反应他们的行动和攻击。

《哈迪斯》几乎可以视作一款弹幕游戏：避免受伤是游戏的核心。在 80% 的时间里，你需要将视线聚焦在扎格柔斯那健壮的身躯上，以确保他能够精准地闪避、躲避或直接冲过敌人的攻击。与此同时，扎格柔斯的大部分攻击都是范围性的，因此用余光追踪敌人就足以将攻击引导到正确的方向。自从我妻子学会了将视线锁定在扎格柔斯身上后，她尝试了几次便成功通关了水仙花平原。

本文将探讨一个普遍的技能：如何将你的视线和注意力集中在正确的地方。我们不会讨论常规问题，比如“你如何根据所见做出明智的决策？”或“你如何更有效地执行这些决策？”，而是将重点放在一个更基础的问题：“首先，你的眼睛应该放在哪里，以便接收到正确的信息？”

在接下来的部分中，我将描述五款在我记忆中颇具代表性的电子游戏，它们之所以独特，是因为我从每一款游戏中都学到了关于“你的眼睛应该放在哪里？”这个问题的不同答案。我从中总结出了五条关于注意力分配的通用经验。对于对电子游戏“过敏”的读者，可以放心地跳过接下来的部分。

在第三部分中，我将把这些经验运用到研究生院中的三个特定“小游戏”：研究会议、学术研讨会和论文阅读。在这三种情况下，通常会面临大量复杂的信息需要处理，而关键在于如何有效集中你的视线，以获取最有价值的信息。

从多个方面来看，《哈迪斯》与《黑暗之魂》堪称同类游戏。两者都属于动作角色扮演游戏（Action RPG）的范畴，均共享“击杀、死亡、学习、再尝试”这一核心游戏循环，且都被视为游戏史上的经典之作。它们之间的差异主要体现在艺术风格上：例如，《哈迪斯》的叙事风格更为轻松，而《黑暗之魂》则显得更加晦涩深邃。

然而，在我体验这两款游戏的过程中，存在一个显著的差异：在《哈迪斯》中我专注于自身，而在《黑暗之魂》中我则紧盯敌人。这是什么原因呢？

显而易见的答案是：在《黑暗之魂》中，视角根据玩家角色进行跟随，因此你不得不时刻关注敌人；而在《哈迪斯》中，等距的视角始终以玩家的角色为中心。这是出色的游戏设计，因为摄像机本身引导你将视线集中在正确的位置，但这并不能完全解释为何那个位置是正确的。

一个更有趣的答案是：你的眼睛应该放在最需要精确信息的地方。

在这两款游戏中，核心玩法都是通过对信息的反应来躲避敌人的攻击，但你需要精确反应的具体内容却截然不同。简而言之，在《哈迪斯》中，你需要的是 对空间位置的精准把握 ，而在《黑暗之魂》中则是 对时机节奏的精准把握。

在《哈迪斯》中，一种敌人会蓄力并投出一枚巨大的闪光炸弹。游戏会在三秒后标示出炸弹的落点，显示为一个大大的红色圆圈。你无需确切知道炸弹是何时由何人投掷的——提前一秒离开那个红色圆圈便已足够。然而，你必须准确地看到炸弹将落在何处，以便于你能正确地躲避爆炸范围。当屏幕上充斥着数十个炸弹和投射物时，可能只有一小片安全的立足之地供你冲刺，此时任何方向上的微小误差，都可能导致毁灭。因此，你需要将视线集中在自身及周围的地面上，以获得最高级别的 空间位置精准度。

在《黑暗之魂》中，有一个 Boss 会蓄力并发动三连击：左挥、右挥、停顿、前冲。只要你能准确地知晓攻击何时到来，你所处的位置其实并不重要——Boss 那把特大剑的攻击范围极广，无论如何你都无法及时闪避。相反，避免伤害的方法是在恰当的三个 0.2 秒内按下翻滚键，享受那宝贵的无敌帧。然而，真正有趣的是：这个 Boss 实际上有五种不同的攻击模式，他是否会发动这一特定招式，取决于他起手动作中膝盖的朝向。因此，在《黑暗之魂》中，你最好紧盯敌人，以便在关键瞬间做出反应。

人眼的中央高精度视野范围有限，务必加以利用。不要将其浪费在余光便足以应对的领域。

节奏游戏自古以来便颇受欢迎，因此你很可能玩过某款知名作品：无论是《吉他英雄》（Guitar Hero）、《节奏光剑》（Beat Saber）、《Osu!》，还是《钢琴块》。在这里，我们以《Osu!》为例进行讨论。其核心玩法非常简单：屏幕会随着歌曲节拍出现圆圈，为了获得高分，你需要在适当的节奏下准确地点击它们。难度更高的谱面则会出现更小、更分散且数量更多的圆圈；一星难度的谱面可能只需你每隔一秒沿着平缓的弧线进行点击，而同一首歌曲的五星难度谱面则会迫使你的光标以每秒八次的频率在屏幕上快速移动。

在节奏游戏中，有一个关键指标能显示我在逐渐精通一首曲子：那就是我的视线能够看得更远。刚开始学习一首钢琴曲时，我通常只会盯着并试图弹奏下一个音符。但随着对曲子的不断熟悉，我不再仅仅关注下一个音符，而是能够提前预判两到三个音符，甚至为乐谱中段即将出现的难点做好准备。我的手指实际的演奏总是滞后于我脑海中正在预判的部分。

练习：可以尝试访问 https://play.typeracer.com/ 进行几局打字比赛，留意与当前正在输入内容相比，你能提前阅读多远。我预计，随着练习的深入，你的预读距离会越来越超前于手指的动作，你的打字因此会更加顺畅。眼看着自己提前两秒钟便为身体下达了一连串指令，这是一种奇妙的近乎超脱的体验。

作为《星际争霸》的新手玩家（至今仍然如此），我过去每局游戏都遵循着一成不变的计划。每局比赛，我会先将经济发展到一定规模，然后再转向生产军事单位。当我的军队达到人口上限时，我便会将其如潮水般涌向敌方基地。

后来某个时候，我听说“侦察是有益的”，于是每局比赛开始时，我都会花费宝贵的资源和精力派遣工蜂去侦察敌方的动向。不幸的是，我对侦察的理解仅限于获取信息这一层面。无论我在敌方基地看到了什么，我都会固执地沿用我那套固定的建造流程。充其量，如果我看到一支特别强大的敌军正在逼近，我的反应也只是 更加急迫地 执行原有的建造流程。结果无非是我额头上多了几条青筋，而我的实际作战策略却没有任何实质性的改变。

将视线放在正确的位置是为了获取正确的信息，而信息收集的意义在于改善决策。反过来说，提升信息收集能力的最佳途径便是根据所获信息采取行动。如果你不根据信息行动，那么不但无法从信息收集中获益，也无法学会如何更有效地进行信息收集。如果我重新学习星际争霸中的侦察技巧，我会首先制定一个流程图，以明确根据所获信息的不同，我会做出哪些相应的策略调整。

在 2020 年夏天，我首次接触到 Dota 2 这款游戏，并沉迷其中约四百个小时（当然，这点时间让我仍算是个绝对的新手，因此请对这部分内容适度参考）。Dota 之所以令人眼花缭乱，是因为它向玩家呈现了大量的信息和复杂的系统——数以百计的英雄与技能、各种各样的物品及其互动效果，以及许多与直觉相悖却又引人入胜的游戏机制，这些机制可能都经历过“这不是 Bug，这是特性”的经典辩护流程。

玩 Dota 的过程，实际上就是不断被信息洪流冲击的过程。我需要时刻关注敌方小兵的血条，以确保能够精准补刀，否则就无法获得金钱；我需要观察己方小兵的血量，以便及时反补，避免对手获益；我需要追踪自己的金钱数量，以便在攒够钱的第一时间购买所需装备；我需要留意小地图，确保敌方队伍没有偷袭（gank）的可能；我需要关注双方队伍英雄的生命值和魔法值，以寻找对方的薄弱环节或治疗己方的时机；我还可以点击敌方英雄查看他们的装备，判断其强弱，并据此做出应对。然而，这一切信息都可能是无关紧要的：或许屏幕上唯一重要的信息，就是顶部那个显示游戏已进行 1 分 50 秒的计时器。

在这个屏幕上，最关键的信息或许就是那个时钟。

想要明白为何在众多信息中，游戏计时器可能是最具决策价值的，你需要了解《Dota》中一个复杂的游戏机制——野怪刷新系统。在这款游戏中，野怪会在特定的矩形黄色区域内生成，你可以通过按住 ALT 键让其显示出来。游戏设计规定，每分钟如果该区域内的野怪被清空，那么这个营地的野怪就会重新生成。没错，野怪并不需要被击败才能刷新，它们只需离开那个框架即可。通过这种机制，玩家可以制造出多波同样的野怪，这一行为被称为“拉野”，而这是辅助角色的一个重要职责：如果在每分钟整点前大约 7 秒时攻击野怪，它们就会追着你跑，恰好离开刷新框足够远，从而使得新的野怪在营地中生成。这意味着，在游戏的早期阶段，一名优秀的辅助玩家能够为队友“拉”出两波、三波甚至四波的野怪供其后续击杀，即使此时整个队伍中没有任何一个英雄能单独对抗这些野怪。十五分钟后，等级提升的队友就能回来处理这一堆积的野怪，从而获得丰厚的金钱和经验。

实际操作中，拉野的过程会受到许多干扰因素的影响，使其变得更加复杂，但其中最引人注目的可能是：敌方也可以轻易破坏你的拉野计划。游戏代码仅仅检查黄色框是否为空，而不关心框内的具体内容。一个聪明的对手只需在 1 分 00 秒的刷新时机走入相应的区域站立片刻，就能破坏你的整个拉野计划。更进一步，他甚至可能在游戏开始时就购买 隐形物品，在你到达之前将其丢入刷新框内。

无论如何，某些辅助角色每分钟都有特定的任务要完成，或者是拉野，或者是另一项密切相关的操作，称为“控线”（pulling）。当他们离开线上执行这些任务时，便可能让所辅助的核心英雄面临一对二的危险境地。这正是游戏计时器发挥作用的时刻：敌方辅助一旦离开兵线，我方便可以抓住这一最佳时机进行进攻并尝试早期击杀。因此，在众多信息中，我必须频繁关注游戏计时器。一些早期游戏策略的成败，往往取决于能否在 1 分 50 秒（而非 1 分 30 秒等其他时刻）这一关键时刻发起进攻。

我们可以将自己所处的世界视作一个通过花哨的表象来迷惑你的舞台，而我们的任务就是要擦亮眼睛，拨开那些迷人的光影。我们需要积极主动地筛选出与决策真正相关的信息，而这些信息往往并不显而易见。

有一些电子游戏，若不在第二块屏幕上打开维基百科或电子表格，你可能难以，甚至根本无法进行游戏。这有时是因为糟糕的设计，但常常也是因为游戏本身鼓励这种玩法；而在确有必要跳出游戏寻求外部信息时却顽固坚持，那就是思维的固化表现。

以《坎巴拉太空计划》为例。你可以通过教程掌握基础操作，或是通过探索游戏内的各种系统获得乐趣。然而，除非你是火箭科学家，否则你将错过这款游戏所隐藏的许多深奥知识。单凭个人的摸索，你无法发现最佳的重力转向轨迹。如果不借助谷歌搜索，或进行大量的反复实验，你很可能试图进行大气制动时，最后却演变成无意识的硬着陆（即坠毁）。如果你对质心、升力中心以及推力中心之间的关系一无所知，构建一架空天飞机将是噩梦般的经历；更别提你是否能在游戏中未来十年里，仅凭肉眼估算完美的转移窗口，以完成类似旅行者 2 号探测器那样的多次引力助推。

有些游戏，确实适合在多块屏幕上进行操作。

正确的注意力焦点，可能完全在游戏之外。不论是查阅攻略或游戏维基，将数据录入电子表格以计算最佳出装方案，还是使用在线工具寻找行星间的最佳转移窗口，这些都可能是你应当关注的地方，而不只是局限于游戏界面本身。

在本文的最后部分，我将把上述原则应用于学术数学领域中的三个核心“小游戏”：学术报告、论文阅读和研究会议。针对每一个“小游戏”，我们将尝试借助以下问题，探索我们的注意力应当放在哪些最佳位置。

我应该关注自己，还是他人？
我应有多远的预判？
我如何根据获取的信息采取行动？
在我收到的所有信息中，哪些是与决策相关的？
提升这一“小游戏”水平的最佳方式，是否可能存在于游戏之外？

在进行演讲时，紧张的心态就像是将视线始终锁定在自己身上。提醒自己别紧张的效果，就如同试图不去想那只北极熊；这种消极的努力往往无济于事。何不把目光转向别处：展望未来，关注听众。提前排练演示内容，并思考哪些部分最难以解释。关注观众，真正地看着他们。试着识别出哪些人全神贯注，哪些又显得心不在焉。找到一两位表情生动的听众，观察他们，根据这些信息进行调整——他们紧锁的眉头会指引你是否语速过快。

在倾听学术报告时，要意识到信息量通常超出任何听众所能消化的程度。有时这可能是演讲者的问题，但往往这种信息过载也是刻意为之，类似于价格歧视。Noga Alon 最近曾对我打趣说：“对于每个人来说，听报告都是一件困难的事情，因为没人能完全理解所有内容；但对本科生来说尤其困难，因为他们仍抱有能全部理解的期望。”同一场报告中会呈现不同抽象层次的信息，以便不同背景的听众都能从中受益。一名本科生或许仅能理解开头的幻灯片，研究生可能听懂前十分钟，而好问的教职员工则可能是唯一能够理解报告结尾那些关于类域论的复杂随口提及的人。因此，主动筛选出特别针对你认知水平的部分至关重要。

请记住，报告主题的趣味性往往不及前十分钟中提及的背景资料。这些经典内容——那些反复提及的核心定理和例子，那些一再出现的简洁证明技巧——如果你尚不了解它们，那它们便是真正的瑰宝。有时，通过旁听某个领域的数场报告，仅听每场的前十分钟，就能学习到一个全新的子领域。带一些不引人注意的物品，以便在剩余的时间中打发时间也是不错的选择。

同时，要明白：你所不付诸实践的信息是毫无价值的。几年前，我在一次关于某个重要旧定理变体的计算机科学讲座上打盹。就在我昏昏欲睡时，我惊讶地发现坐在我旁边的导师却全神贯注地听着。我对他所关注的内容感到好奇，在我们回数学系的路上，他启发了我：他并没有在听报告本身，而是花了大半个小时思考如何改进报告开头五分钟中提到的重要旧定理的证明方法。由此，我领悟到，一场报告中最重要的信息，或许就是一个尚未解决的问题，因为这无疑是最容易促使你采取行动的信息。

我在一场研讨会报告后与博士导师的交流。

与导师的这次交流对我影响深远，我时常会为了捕捉新问题而特意去听某场报告，以此来践行这种视角。一旦我听到一个有趣的问题，我便会立即心驰神往，试图在当场解决它。传闻这种方法曾成功过几次。

这部分的大部分内容，我已在《数学与记忆》（第一部分、第二部分、第三部分（最终篇））系列文章中有所阐述，此处仅重申相关要点。数学证明的撰写或阅读，鲜少是为了线性的顺序进行的。相反，它们的理想组织方式应如同一系列逐层深入的概要：一个简洁的五字标题，一段概括性的摘要，两页引人入胜的引言，四页精炼的技术性提纲，最后是长达 20 页的完整证明。每一层概要都比前一层更加细致，从而使读者能够根据自身需求选择合适的理解深度。

这种组织方式旨在克服一个根本性的问题：在不清楚证明脉络的情况下，跟随证明思路是极为艰难的。如果不先阅读证明的概要，你就无法分辨那些引理中的常规内容与创新点。若不从整体上审视计算过程，你无法知道在诸如 alpha、n、epsilon、x 和 y 这些变量中，哪些是需要重点关注的，哪些是可以忽略的误差项。在对整体走向毫无头绪的情况下逐行阅读论文，往往会迷失在琐碎的细节中，被拖入无尽的“兔子洞”——那些需要厘清的先前论文中的“黑箱”内容，那些需要仔细琢磨的开放性问题，以及那些解释简略、可能存在印刷错误的计算过程——尽管这些“兔子洞”或许值得探索，但在深入某个之前，最好先将它们全部梳理清楚。

在阅读论文时，应尽量将视线投向未来，就像在打字游戏 TypeRacer 中提前预读几个单词一样。先从宏观层面快速浏览，以把握整体框架，然后通读所有定理和引理，理解它们之间的逻辑关系，最后再决定要深入研究哪些具体细节。只有在你清楚某一复杂计算的最终价值之后，才应详细核对它。

在研究过程中，你的大部分时间都花在以下两种状态之一：独自思索（如同撞墙），或与他人一起思考。这两种活动可以根据你的性格随意切换，而我发现，相较于独自钻研，我通常更喜欢与他人开会共同推进研究。

与他人合作的陷阱之一，特别是在你尚显稚嫩且缺乏自信的时候，便是你可能会不自觉地成为 Richard Hamming 所称的“声音吸收器”。

在我的观察中，交流与他人是至关重要的；然而，单纯的头脑风暴会议却很难带来实质的效果。我时常主动寻找对话的对象，与他们分享我的看法，比如说：“我觉得这里面一定藏着什么道理，我是这么理解的……”接着展开深入的讨论。但选择交流的对象至关重要。我们可以借用“临界质量”这一概念：当你拥有足够的资源，就能达到这一临界点。此外，我曾经提到过一种我称之为“声音吸收器”的现象。当周围存在太多这种人时，你提出的想法往往只会得到简单的附和：“是的，是的。”而真正需要的是那种能够引发深入互动的交流：“是的，这让我联想到某个例子”或者“你有没有考虑过这个问题？”当你与他人交流时，务必避免那些虽然很友好，却只是一味附和的“声音吸收器”，而应努力寻求那些能够激励你思考的合作者。

除了缺乏自信，许多“声音吸收器”在研究会议中犯的另一个主要错误是对如何聚焦于会议内容的误解。在我看来，他们过于执着于 亲自解决问题。由于没有提出任何有趣的解决思路，他们在会议上的贡献微乎其微。这一错误与过于自我中心的表现相似，尽管缺乏有用信息，他们仍固执地审视自身。

尽管 亲自解决问题 确实是研究会议的一大乐趣，但这绝不是唯一的追求。首先，亲自解决问题 与让问题得到解决 之间的差异是巨大的。如果你的合作伙伴能力出众，他们同样有可能提出关键的想法。因此，真正追求 让问题得到解决 的目标，需要你投入大量时间来支持他人的思考过程。你可以复述他们的观点、记录并核对他们的计算，帮助他们在黑板上清晰地阐释内容，或提供合适的类比，以展现对他们洞见的热情。即使没有产生任何原创的想法，你依然能够通过这些方式协助 让问题得到解决。

追求 让问题得到解决 比亲自解决问题 更具价值，然而，从整体上提升解决问题的能力才是更为重要的，尤其在你依然进行着重力转向时。在与博士生导师或其他资深导师交流时，应将很大一部分注意力放在揣摩和学习他们的思维过程上。观察并记录他们反复使用哪些范例和引理，了解他们如何进行计算和简化，以及当面对难题时的应对方式。学习他们独特的文献检索方法、他们向谁寻求帮助，以及何时决定放弃并非随意，而是构成了你所在领域知识图谱的具象化模型。观察他人，往往比盲目地注视问题本身更能有效地利用时间。

总结而言，研究工作如同简化版的 Dota 游戏：我们面临来自四面八方的信息轰炸，其中大部分我们甚至未曾察觉，但却被要求做出复杂且长远的决策。在这样的博弈中，一项基本技能是将我们的视线——无论是字面上的还是比喻意义上的——聚焦于那些最有价值、最相关的信息。对这些信息做出反应并付诸实践是后续步骤，但若连自己该关注什么都搞不清楚，就无法做出正确的行动。

正文完