2027年AI将颠覆职场：白领工作全面自动化的深度对话

没有评论

共计 13940 个字符，预计需要花费 35 分钟才能阅读完成。

在 AI 行业中，编程相关的技术今年成为了一个显著的趋势，尤其近来愈发明显。

除了上周引起广泛关注的编程新星 Claude Opus 4，新版 DeepSeek R1 也加强了其代码处理能力。OpenAI 日前以 30 亿美元收购了编程助手 Windsurf，紧接着推出了智能编程代理 Codex。

最近，美团的前 Kimi 产品负责人明超平在与京东的竞争中，正式宣布了与 AI 编程相关的产品。

在 Reddit 上，一位拥有超过 30 年经验的 C ++ 开发者发帖称，Claude Opus 4 成功解决了一个困扰他四年的 bug，而这是他使用过的首个能做到这一点的 AI。

那么，为什么 Claude 在编程领域的表现如此卓越呢？如今提到 Anthropic，几乎所有人都认为它是一家专注于编程模型的公司。那么，他们认为这一代模型的真正突破在哪里？未来的发展又会是怎样的呢？

在几天前由 Claude Opus 4 核心研究员 Sholto Douglas 参与的一场播客讨论中，这些问题得到了详细的解答，内容丰富，值得倾听。

Claude Opus 4 的真正突破点有哪些？

首先，它的能力提升非常均衡。

其一，代码执行能力显著增强，不仅能理解复杂的需求，还能独立查找资料、进行测试和调试，真正实现了“从头到尾”的能力。其二，任务执行时间也得到了显著延长，支持多步骤推理与操作，这表明它不仅聪明而且持久。

在架构方面，Claude Opus 4 加入了工具调用和长期记忆模块，使其能够处理更具上下文连续性的任务，标志着从代码助手向具备“解决方案设计”能力的智能代理迈进。

当然，挑战仍然存在。

团队承认，完成任务的智力复杂度并没有明确的上限，难点在于如何扩大模型的感知和操作范围，以便其能够使用多种工具并记住更多关键信息。

未来的发展方向是什么？

在播客中，Sholto Douglas 提到了几个明确的方向：

强化学习（RL）将持续推动模型在连续任务中的表现；
代码代理将能够连续运行数小时，只需人类偶尔干预；
模型可能成为知识型岗位的“虚拟远程员工”；
若自动实验室与机器人平台建设跟上，模型将参与真实的物理任务，如生物实验或制造。

但前提是：智能代理的可靠性必须得到保证。

虽然目前尚未达到 100% 的成功率，但在限定时间内，成功率正在稳步上升。预计到 2025 年底，编程类智能代理有望实现“数小时稳定运行”，人类只需偶尔检查。

那除了代码编写呢？

编程只是模型能力的“前导指标”。医学、法律等专业领域仍在等待数据与工具的完善，一旦准备就绪，同样会迎来迅猛的进展。目前的瓶颈不在于 AI 本身，而在于现实世界的验证机制和基础设施。

预计到 2027-2030 年，模型几乎可以自动化所有白领工作，但如果没有匹配的实验室和现实反馈机制，这种能力将难以落地。

如何判断模型是否真的取得了进步？

团队指出，良好的评估系统（Evals）至关重要。它不仅关注技术指标，也强调评估者的专业知识和审美。这也是为什么模型的评测门槛越来越高。同时，用户的持续使用、互动和反馈，也能促成真正的“共进化”。

实验室与应用公司，谁更具优势？

Douglas 认为，实验室通过开放 API 提供机会，但核心优势依然在于：

算力转化能力；
模型的“可雇佣性”和用户信任；
更高的个性化理解能力。

实验室如同“智能引擎”的制造者，专注于能力的极限，而应用公司更擅长于落地和用户体验。未来，二者之间将会有越来越多的交叉、融合与竞争。

那么模型公司是否会因为成本和底层优势，使其他公司面临困境？Douglas 对此表示：

不会，相反这将带来活力。

他认为，所有的护城河最终都会被打破，真正重要的是客户关系、任务编排及整合体验。

最后一个关键词：“对齐”

随着模型能力的提升，“对齐”问题变得愈加重要。Anthropic 正在推动可解释性研究，寻求理解模型的思维。虽然强化学习能提升能力，但也可能破坏现有对齐机制，未来需要依靠高校、政府及更多研究者共同推进“对齐科学”。

原视频链接：
https://www.youtube.com/watch?v=W1aGV4K3A8Y

以下是访谈实录，APPSO 编译略作调整。

主持人：Sholto Douglas 是 Anthropic Claude 4 模型的核心成员之一，这次的对话非常愉快。我们涉及了许多话题，包括开发者如何看待 Anthropic 新模型的发展趋势。我们讨论了这些模型在未来 6 个月、12 个月，甚至 2 到 3 年里的走向，以及构建可靠 AI 代理所需的关键因素，此外还谈到了这些模型在医学和法律等专业领域何时能取得类似编程领域的突破。Douglas 还分享了他对“对齐研究”的看法，以及对“AI 2027”预言的反应。这是一场精彩的谈话，相信大家会喜欢。

主持人：随着这一期播客的上线，Claude 4 应该已经发布，大家也开始体验了。我对你是最早接触这些模型的人之一感到好奇，哪方面让你特别兴奋呢？

Douglas: 软件工程领域的再次飞跃真是令人振奋。Opus 模型在这方面的表现极为杰出。常常在我提出复杂的任务时，涉及我们庞大的代码库，它竟然能够 几乎完全自主地完成这些任务。它能够自主查找信息、理解需求、进行测试，整个过程展现出极高的独立性与效率。每一次见证这样的表现，我都感到无比震撼。

主持人：每当新一代模型发布，我们的认知也需要随之调整，以判断何者有效，何者无效。你在编程中对于这些模型的理解与使用是否发生了变化？

Douglas: 我认为最大的变化在于时间跨度的延展。我觉得可以从两个方面来理解模型能力的提升：首先是任务的 智力复杂性 ，其次是它们能够有意义地推理和处理的 上下文量，或者说连续操作的数量。这些模型在第二个方面的提升尤为显著，它们能够执行多步操作，判断需要从环境中获取哪些信息，并基于这些信息采取行动。此外，它们能够调用工具，比如 Cloud Code，这使得执行过程远不止复制粘贴，效率大幅提升。如今，我观察到它们可持续工作数小时，效率堪比人类的连续劳动。

主持人：那么你认为首次使用 Claude 4 的用户应该从哪些方面入手呢？

Douglas: 我认为最有效的方法就是直接让它参与到你的工作中。例如，假如你今天打算编写某段代码，就让它协助你，观察它如何获取信息、如何决定下一步行动。我保证你会对它的表现感到惊讶。

主持人：这一代模型的能力更为强大，许多人也计划利用它来构建产品。你认为对开发者而言，新的机会在哪里？

Douglas: 我一直特别欣赏「产品指数增长」这个概念。开发者应当 始终超前于模型的能力来构思产品。像 Cursor、Windsurf 和 Devon 等案例都非常典型。Cursor 在模型能力尚不强大的时候，便开始打造未来的编程体验，直到 Claude 3.5 和 Sonne 的发布，他们的愿景才真正实现。而 Windsurf 更进一步，成功占领了市场。他们的成功在于抓住了这个指数增长的窗口。

如今，我们可以看到 Claude Code、新的 GitHub 集成、OpenAI 的 Codecs、谷歌的编码代理等，大家都在围绕「编码代理」这一概念进行努力，旨在实现更高的 自主性和异步操作。未来可能不再是每分钟操作一次，而是像管理一个 AI 模型舰队那样，让多个模型各自承担任务并协同工作。我认为这个方向值得深入探索。

主持人：你见过类似「多模型并行协作」的场景吗？那样的场景会是什么样的？

Douglas: 我认识许多在 Anthropic 工作的朋友，他们常常在不同环境中同时运行多个 Claude Code 实例，场面看起来相当酷炫。不过说实话，现在还没有人完全弄清楚这种操作的最佳方式。这实际上是在探讨人类的「管理带宽」究竟有多大。我认为这是未来经济发展的一个关键问题：我们如何衡量模型的生产力回报率？起初，我们依然需要人工检查模型的输出，这意味着模型的影响力会受到人类管理能力的制约。除非有一天我们能够信任模型去管理模型，这种抽象层级的提升将至关重要。

主持人：也就是说，如果你每 15 分钟检查一次模型，与每小时或每 5 小时检查一次，能够管理的模型数量会有显著差别？

Douglas: 没错，黄仁勋曾提到过类似的观点。他表示自己被成千上万的超级智能 AGI 包围，拥有巨大的杠杆效应，并自称是 Nvidia 管理链条上的「控制因子」。我认为未来可能真的会朝这个方向发展。

主持人：或许未来最重要的行业就是「组织设计」本身。

Douglas: 是的，包括如何建立信任、组织结构的复杂性等，都是值得深入思考的问题。

主持人：你之前在麦肯锡工作过一年，咨询行业是否也可以基于这些模型开发出新的产品线？我也非常认同你刚才的观点：应用公司必须比模型进步更快。Cursor 起初产品落地存在困难，但一旦模型能力到位便迅速爆发。你认为，「领先一步」具体指的是什么？

Douglas: 这就是不断重塑你的产品，以确保它始终与几个月后模型的最新能力接轨。同时，你还需与用户保持紧密联系，确保产品已经被使用，但也能吸收更先进的模型功能。

主持人：我认为这就是秘诀——如果你还在等待模型进一步提升再动手，别人可能早已抢走用户。你们在记忆、指令执行、工具使用等方面都取得了不小的突破。你能简单总结一下目前各个方面的进展吗？哪些已成熟，哪些仍在探索中？

Douglas: 一种理解过去一年进展的好方法是：强化学习（RL）终于在语言模型中真正发挥了作用。模型能够解决的智力复杂性任务几乎没有天花板，比如它们能够处理复杂的数学和编程问题。然而，这些任务大部分是在 受限上下文 中完成的。记忆和工具使用的挑战在于扩大模型能够感知和操作的上下文范围。

例如，像 MCP（Model Context Protocol）这样的机制，使得模型能够与外部世界互动，而记忆则让它处理更长时间跨度的任务，从而提供更个性化的体验。这些进展本质上都是在构建「智能代理」的关键能力链。顺便提一下，宝可梦评测（Pokemon eval）是一个非常有趣的实验方式。

主持人：我小时候可是个游戏迷。我觉得这是个很棒的评测，期待你们能与这个模型一起发布。

Douglas: 确实，这次评测非常有趣。尽管模型并没有专门训练来玩宝可梦，但它依然能够很好地完成任务，展现出强大的泛化能力。这些任务虽然并不完全陌生，但与它之前所做的都不尽相同。

主持人：我还记得游戏中有许多阶梯和迷宫，模型也能帮你通关。

Douglas: 没错，我特别喜欢的另一个例子是我们最近开发的「可解释性代理」。它最初是一个编程代理，但却能够自动学习、利用神经元可视化工具、进行自我对话，以理解模型内部结构。它甚至能够通过一个名为「审计游戏」的安全评测，识别模型故意设置的错误点，自行生成假设并验证问题。这种工具与记忆结合下的泛化能力，的确非常精彩。

主持人：听起来智能代理的能力确实越来越强。你曾提到，VA 代理的关键在于「可靠性」。你认为我们目前处于哪个阶段？

Douglas: 从「在一定时间内的成功率」来看，我们已经取得了显著的进步。尽管尚未达到 100% 的稳定性，模型的首次尝试与多次尝试之间仍存在差距。但从趋势来看，我们正在向「专家级可靠性」稳步迈进。

主持人：那么，在什么情况下会让你改变这种乐观的看法呢？

Douglas: 如果明年中模型在任务持续时间上遇到瓶颈，那就值得我们警惕。例如，编程是个很好的进展判断指标——一旦其开始下滑，说明可能存在结构性问题。当然，也可能是因为数据稀缺，比如「像人类一样使用软件」这类任务训练起来很有难度。不过目前来看，我们反而看到这类任务有了令人惊讶的进展，因此总体上我还是保持乐观。

主持人：你认为我何时能拥有一个「万能助手」，能够替我填写各种表格、查找资料等？

Douglas:「个人行政助理代理」是一个热门话题，谁不想将琐事交给 AI 呢？但实现这项功能确实要视情况而定，关键在于模型是否训练过类似情境。你不能随意找一个人来处理财务工作，对吧？但是如果它是经过训练的「虚拟会计师」，那就更靠谱了。因此，任务的可行性在很大程度上取决于训练背景。如果一切顺利，今年底我们就可以看到这些代理在浏览器中执行任务；明年基本上就会成为标配。

主持人：这令人期待。你们的模型在编程方面表现如此突出，是特意优先训练的吗？如今提到 Anthropic，大家都会联想到「编程模型」。

Douglas: 确实如此。我们非常重视编程这个领域，因为它是加速 AI 自我研究的关键路径。我们也在衡量编程能力的进展上投入了大量精力。可以说，我们是刻意聚焦于此。

主持人：那么这些代理现在是否已经在加速 AI 研究的进程呢？

道格拉斯：我赞同这一观点。这些代理显著提升了我们的工作效率。许多我所认识的顶尖工程师也提到，在他们熟悉的领域，效率提升了 1.5 倍；而在一些新领域，例如新编程语言或陌生内容时，效率的提升甚至可达 5 倍。因此，在跨领域应用时，这种帮助尤为显著。关键在于：你是否认为目前的瓶颈在于算力？如果不是的话，利用 AI 代理参与研究，实际上就相当于扩增了一个研究团队，其效率提升是不可估量的。

主持人：我理解这些代理目前主要处理繁杂的任务，帮助你省下时间去思考更为重要的问题。那么，它们什么时候能够主动提出有价值的研究思路呢？

道格拉斯：现在的确主要集中在工程类任务上，但已经开始显现出一些创意。我不能保证三个月内会有重大的突破，但在未来两年内，我们应该能观察到它们提出越来越引人注目的科学想法。当然，这也依赖于良好的反馈机制。就像人类一样，模型也需要通过不断的练习和试错，在复杂任务中积累知识，最终实现高质量的成果。

主持人：这是不是因为这些领域相对较容易验证呢？会不会出现这种情况，即 AI 在编程领域取得显著进展，但在医学、法律等较难验证的领域却进展缓慢？

道格拉斯：确实存在这样的风险。不过，值得庆幸的是，机器学习研究本身的验证门槛较低，例如「损失值是否下降」就是一个明确的指标。只要模型能够在机器学习研究中提出有效的创意，它便掌握了一个极具挑战性的强化学习任务，这比许多软件工程任务更适合 AI。虽然医学领域的验证较为困难，但同样也在不断进步。最近，OpenAI 发布了一篇关于医学问答的论文，采用更加精细的评分机制来量化长答案，这种方法我认为非常有前景，未来必将逐步解决验证困难的问题。

主持人：那么，究竟何时我们才能拥有真正出色的医学或法律助手？它们会成为大型模型的一部分吗？

道格拉斯：毫无疑问，它们会的。

主持人：你认为它们会融入更大的通用模型中，还是会有专门针对医疗或法律的定制模型？

道格拉斯：我认为二者都有可能。我个人倾向于「大模型至上主义」。虽然个性化非常重要——你希望模型能够理解你的公司、工作习惯和个人喜好，但这种定制应当在公司或个人层面进行，而不是按行业去拆分模型。我们与 Databricks 的合作正体现了这种企业定制的趋势，但在底层能力上，我坚信仍需依赖单一强大的通用模型。未来，我们应根据任务的复杂度动态分配算力（例如 FLOPs），而不是单独开发大量小模型。这就是我看好大模型路线的原因。

主持人：你对模型的持续进步充满信心。很多人都在思考，模型能力提升后会对社会产生怎样的影响？例如，一个常见的问题是：这些模型未来几年会对全球 GDP 造成多大影响？

道格拉斯：我认为最初的冲击可能会类似于中国的崛起，像上海在过去几十年的变化，但这次的速度会快得多。不过，我们需要区分不同领域的影响方式。到 2027 或 2028 年，我们几乎可以肯定会有模型能够 自动化几乎所有白领工作，而到 2030 年，情况会更加稳固。这是因为白领工作非常适合现有的 AI 架构——它们有数据、有反馈，并且基本上都可以在电脑上完成。

然而，机器人或生物研究领域则完全不同。例如，开发一个超级程序员模型只需要大量的代码和算力；但要创建一个超级生物学家模型，则需要自动化实验室来提出和验证假设，进行大规模实验。这类硬件和基础设施，我们目前还远远跟不上。

因此，我担心会出现一种「错配」：白领工作的转变会非常迅速，而在现实生活中，那些真正能提升人类生活质量的行业——比如医疗和制造业——却因为基础设施不足而发展缓慢。虽然 AI 本身非常强大，但要使其在现实中发挥作用，我们必须提前建设好「物理世界的配套设施」，例如云实验室和机器人平台。

主持人：但是到那个时候，我们可能已经有数百万个 AI 研究员在提出实验了。他们并不一定需要那么庞大的机器人系统或生物数据。

道格拉斯：确实，AI 的进步飞速发展，但要让这些能力真正转化为 GDP 增长，我们还需要提升「现实世界的反馈机制」，才能真正释放技术的价值。

主持人：因此，你认为未来每种白领职业都能像医学那样建立一套评估机制？让我感到惊讶的是，我们不需要太多数据，也能训练出如此强大的模型。

道格拉斯：完全同意。我们已经证明这些模型能够学习各种任务，而且目前还未看到明显的智力上限。尽管模型的样本效率可能不及人类，但这并不重要——因为我们可以同时运行成千上万个模型副本，它们并行尝试不同的路径，以积累「虚拟经验」。即使效率稍微低一些，也能通过规模弥补，最终达到人类水平甚至更高。

主持人：听起来你认为目前的这一方法已经足够应对未来的发展。有人认为我们还需要新的算法突破，你对此有何看法？

道格拉斯：大多数 AI 专家目前都认为，「预训练 + 强化学习」（pre-training + RL）这一范式足以引领我们走向通用人工智能（AGI）。到目前为止，我们没有看到这一进程减缓的迹象，这种组合是有效的。当然，可能还会有其他更快的突破路径，甚至可能还有新的「高峰」等待攀登。例如，Ilya（Sutskever）可能是这两种主流范式的共同创始人，我不会质疑他。所有证据都表明，目前的技术路线已经相当强大。当然，也有可能 Ilya 选择新路线是因为资金有限，或他认为那是更好的路径，但从我的角度来看，我相信我们当前的技术路线能够实现我们的目标。

主持人：那么，接下来的瓶颈会是 能源问题 吗？你觉得我们何时会真正面临这个问题？

道格拉斯：我认为到 2028 年，美国可能会将 20% 的能源用于 AI。如果我们希望再提升几个数量级，就需要进行剧烈的能源结构改革。政府在此领域应承担更多责任。例如，中国的能源产能增长远超过美国，因此这将成为未来的一个关键瓶颈。

主持人：在模型进步的浪潮中，你认为最值得关注的指标是什么？例如，从 Claude 4 到下一代模型的发展方向？

道格拉斯：许多公司内部都有非常严格的评测体系，而我也非常喜欢在这些评测中「攀登」。像「Frontier Math」这样的复杂测试非常具有挑战性，是模型智力的极限。更重要的是，我们需要开发真正能捕捉「工作流程时间跨度」的评测，涵盖一个人一天的工作节奏。这种评测能够帮助我们更好地评估模型是否接近或超越人类能力。我认为政府应在这方面发挥作用。

主持人：作为一家基础模型公司，除了算法和基础设施，你们面临的核心挑战之一也应该是 构建良好的评测体系。你认为「评测能力」在你们内部的重要性如何？

道格拉斯：评测能力绝对是重中之重。没有良好的评测体系，你无法知道自己是否在进步。公开评测很难做到完全的「持出」（held-out），因此我们依然需要一个值得信赖且稳定的内部评测系统。

主持人：我还注意到，一些在你们模型上构建应用的开发者对评测的思考也非常有帮助。特别是当你们想进入不同垂直行业时，比如物流、法律、财会等，外部开发者的反馈可能比你们内部更了解实际情况。

道格拉斯：没错，这也要求非常强的 专业知识和「品味」（expertise and taste），并且对行业有深刻的理解。过去，我们只需要普通人选择哪个答案更好，但现在我们需要领域专家来进行评估。例如，如果让我评判生物学领域的模型输出，我可能完全无法判断哪个更好。

主持人：你提到的「品味」（taste）非常有趣。例如，现在很多模型开始加入记忆系统，用户和模型之间的互动方式也在发生变化。许多 AI 产品之所以取得成功，是因为它们找到了某种「共鸣」，或者说抓住了某种文化气质（zeitgeist）。像你们之前提到的金门大桥的例子，还有其他许多吸引人的小功能，这种「用户氛围感」的个性化未来会走向何方？

道格拉斯：我认为未来可能会出现一种「奇特」的情景：你的模型将成为你最聪明、最有魅力的朋友之一。确实有些人已经把 Claude 当成朋友，我认识许多人每天花好几个小时与 Claude 聊天。但我觉得我们当前其实还仅仅探索了「个性化」这件事的 1%。未来，模型对你的理解和对你喜好的把握将会更为深入。

主持人：那么，要如何提高这种「理解用户」的能力？是依靠一些具有审美和判断力的人来培养这种品味吗？这个问题该如何解决？

道格拉斯：确实很大一部分是依靠「有品味的人」来决定产品方向。比如 Claude 的对话体验好，很大程度上归功于 Amanda（团队成员）对「优秀产品」的审美非常敏锐。这种「独特的品味」是至关重要的。传统的反馈机制如「点赞 / 点踩」往往会导致模型输出不自然，因此我们需要新的方式来收集反馈。模型本质上是强大的「模拟器」，如果能为模型提供足够的用户上下文，它们就能自动学习理解用户的偏好、语气和风格。因此，解决之道在于将有品味的人的设定与用户与模型之间的持续互动结合起来。

主持人：接下来的 6 到 12 个月，你的预判是什么？

道格拉斯：接下来，重点将继续扩展强化学习（RL）系统，看看它能将我们带到何种高度。模型能力将会飞速提升，尤其是在年底，代码代理将成为一个关键指标。到时，模型应该能够持续工作几个小时，稳定完成任务。

主持人：你是指人类检查的时间会减少吗？

道格拉斯：是的，目前使用 Claude Code 时，有时每隔几分钟就需要检查一次，但到年底，我们可能会看到模型能够独立完成数小时的任务而不出错。未来，我们应该能够实现「完全托管」，甚至像「星际争霸」一样管理多个任务并行推进，模型的操作速度将更加高效。

主持人：你提到的 Codec、Google 的 Joule，还有一些初创公司也在做类似的东西。

道格拉斯：是的，我们也计划推出一个 GitHub 代理（GitHub agent）。你可以在 GitHub 上的任何地方调用，例如使用「@Claude」，然后我们就能自动接手任务，为你完成一些工作。

探索开发者选择模型背后的多重因素

主持人：在选择工具或模型时，开发者会受到哪些关键因素的影响呢？

道格拉斯：除了模型的技术实力，开发者与公司的信任关系也是至关重要的。随着不同模型之间能力的差异加大，开发者不仅会关注技术指标，还会考虑与公司共同塑造未来的使命感。

主持人：尤其是在如今发布频率不断提升的情况下，每月都有新的模型问世。今天可能在某项评测中获胜，明天又有新的模型在其他评测中领先，大家在各种对比信息中感到困惑。

道格拉斯：确实如此，这就是为什么“GPT 包裹器”会意外流行的原因之一。人们没想到，创建包裹器的一个好处是，能够始终站在最新模型能力的最前沿。

主持人：我感觉那些不想成为“包裹器”的人，最终都像是在不断烧钱。

道格拉斯：我完全同意这个观点。因此，在模型能力的最前沿“冲浪”是一件非常令人兴奋的事情。当然，这其中也存在副作用：某些洞察只有通过掌握底层模型才能获得，才能真正理解趋势并构建深度产品。例如，很多“深度研究型”的 AI 应用需要进行大量的强化学习（RL）训练，而这些产品在外部很难被模仿，必须在实验室内部进行开发。

主持人：能否详细谈谈这个问题？像 OpenAI 和 Anthropic 等公司似乎越来越开放，允许外部开发者参与。但许多人心中有疑问：哪些技术是“实验室专属”的？哪些又是开放的，任何人都可以参与竞争的？

道格拉斯：这是一个非常重要的问题。RT API（可微调 API）的开放确实在改变一些市场动态，现在更多的价值可以由专注于特定领域的公司创造。然而，实验室仍然享有“中心化优势”。

例如，OpenAI 会为允许他们在模型输出上进行继续训练的客户提供某些折扣。换句话说，他们不仅是模型的供应商，还是数据的二次使用者。这种中心化优势是相当强大的。那么“实验室独有的优势”具体体现在哪些方面呢？我认为可以从几个维度来看：

算力转化能力：你能否将算力（FLOPs）、资金和资源转化为智能（Intelligence）？这就是为什么像 Anthropic、OpenAI 和 DeepMind 这样的公司在模型表现上如此出色；
模型的“可雇佣性”：当模型逐渐变成“虚拟员工”时，你是否信任它？你是否愿意把任务交给它？
个性化能力：模型能否理解你的环境、公司的工作流程和个人偏好，这些因素将成为差异化竞争的关键。

总的来说，实验室级公司最擅长的是开发顶级模型，将算力转化为智能；而“应用层”的公司则可以通过专注、个性化和产品体验在自己的领域占据一席之地。但这两者之间的交叉与合作将越来越多。

主持人：我猜，你们的模型被许多人用于构建通用代理吧？这些公司不直接做模型，而是通过智能链调用和编排来实现功能。你认为这种方式会因为模型公司的成本优势而注定失败吗？

道格拉斯：我并不认为这是一件坏事。相反，这种方式为市场带来了巨大的竞争活力，大家都在探索最合适的产品形态。确实，模型公司在某些方面拥有优势，比如能直接接触底层模型，进行更深入的微调，并知道哪些能力应优先强化。终究，所有的“护城河”最终都会消失——当你能“随时启动一家公司”时，一切都将被重构。那么，未来最核心的价值究竟在哪里？是客户关系？还是编排和整合能力？又或者是将资本高效转化为智能的能力？这仍然是一个复杂的问题。

主持人：在过去一年中，有什么事情改变了你的看法吗？

道格拉斯：过去一年，AI 的发展加速。去年我们还在怀疑是否需要更多的预训练算力以实现理想中的模型能力，但现在已明确答案：不需要。强化学习（RL）已经证明了它的有效性，到 2027 年，具备强大能力的“远程数字劳工型”模型将成为现实。之前对 AI 的“期待”和“担忧”从“可能性”转变为“几乎确定”。

主持人：那么你认为未来我们还需要大幅扩展数据规模吗？还是说，当 Claude 17 推出时，模型算法已经改进到只需少量新数据即可？

道格拉斯：很可能我们不再需要大幅度扩展数据规模，因为模型的“世界理解能力”会足够强，甚至能够反过来指导机器人学习并提供反馈。有一个概念叫“生成者 - 验证者差距”（generator-verifier gap），生成内容通常比执行内容更容易。这个过程将持续提升模型的能力。在机器人领域，认知的发展远超物理操控的能力，这显示了未来巨大的潜力。

主持人：你如何看待当前的“AI 对齐（Alignment）研究”状态？

道格拉斯：可解释性（Interpretability）研究 已经取得了令人瞩目的进展。去年我们刚开始理解“超位置”（superposition）和神经元特征，Chris Olah 及其团队的研究就是一个重要的突破。如今，我们能够在前沿的大模型中识别“电路级”的结构和行为特征。有一篇出色的论文探讨了大语言模型的“生物学”，展示了它们如何清晰地推理概念。尽管我们尚未完全破解模型的行为机制，但已经取得了显著进展。

不过，值得注意的是，通过预训练，模型能够吸收并表现出人类的价值观，某种程度上实现了“默认对齐”；但一旦进入强化学习阶段，这种对齐便不再得到保证。例如，之前提及的“明知做不到却下载 Python 库绕开问题的模型”，是在目标导向下“竭尽所能完成任务”。这种学习过程本质上是“以目标为导向的手段优化”，如何监督和控制这种模型行为是目前大家共同关注的重要挑战。

主持人：大约一个月前，“AI 2027”的话题引起了广泛讨论。看到这个时，你有什么反应？

道格拉斯：说实话，我觉得这个观点非常可信。当我阅读那篇文章时，很多内容让我想，“是的，事情的确可能朝这个方向发展。”当然，也有一些分支路径，但即使仅有 20% 的可能性，对我而言，仅此一条就已经非常惊人了。

主持人：你提到的 20% 可能性，是因为你对对齐（alignment）研究更乐观，还是认为进展会略慢？

道格拉斯：总体而言，我对对齐研究的前景较为乐观。也许我的时间表比他们慢一年，但在这种大趋势下，一年算什么呢？

主持人：关键在于你如何利用这一年。

道格拉斯：对，如果能充分利用这段时间，进行正确的研究，确实能产生显著的差异。

主持人：如果你可以担任一天的政策制定者，你认为我们应该采取什么措施，以确保未来朝着更好的方向发展？

道格拉斯：这是一个很好的问题。最重要的是，你必须真切感受到我们正在观察和讨论的趋势线。如果没有，你就需要将国家关心的能力拆解开来，量化模型能否在这些能力上取得改进，比如进行一系列测试，以查看如果模型能够通过这些测试或在这些任务上取得显著进展，那么它就达到了某种智能的基准值，然后绘制出趋势线，预见 2027 年或 2028 年可能发生的变化。

主持人：就像国家级的评估系统（nation-state evals）？

道格拉斯：对，例如你需要将本国的经济拆解成所有的工作岗位，并自问：如果一个模型可以完成这些工作，这是否意味着它具备真正的“智能”？你应建立评估测试，绘制出趋势线，然后惊呼：“天哪，那 2027 或 2028 年会怎样？”接下来的步骤就是大规模投资于能够让模型更易理解、可引导且诚实可靠的研究，也就是我们所称的对齐科学（alignment science）。让我感到遗憾的是，这一领域的推动主要来自前沿实验室（Frontier Labs）。但我认为这本该是……

主持人：其他人能参与吗？比如能否用 Claude 进行相关研究？

道格拉斯：不能。我的意思是，虽然你依然可以通过其他途径取得重大进展。有一个名为 MAS 计划的项目，许多人通过它在对齐研究，尤其是可解释性方面取得了显著成果，且这些都是在前沿实验室之外完成的。我认为应有更多的大学参与到这一领域中。从许多角度来看，这更接近于纯科学：它是在研究语言模型中的“生物学”和“物理学”。

主持人：但感觉这方面的研究热度并不高。

道格拉斯：我对此并不确定。我听说在一些最近的会议上，比如 ICML，机械可解释性（mechanistic interpretability）研讨会竟然未被收录，这让我感到困惑。在我看来，这正是对“模型内部机制”的最纯粹的科学探索。如果你想发现 DNA 的螺旋结构，或者像爱因斯坦那样提出广义相对论，那么在机器学习 / 人工智能的技术树上，相应的路径就是研究机械可解释性。

主持人：那谈谈积极的一面吧。我们之前提到未来几年白领工作会被自动化，你认为在哪些方面被低估了？

道格拉斯：确实，模型肯定会自动化白领工作，但让我惊讶的是，世界在整合这些技术方面的进展十分缓慢。即便模型的能力不再提升，现有的能力就已经能够释放巨大的经济价值，但我们还未真正围绕这些模型重构工作流程。即使模型保持现状，我们仍然能彻底改变世界。

道格拉斯：这需要我们投资于真正能够改善世界的方向，比如推动物质资源的充足和高效管理，扩大物理学、娱乐产业的边界等，并让模型帮助我们实现这些目标。我的最大希望是让人们更具创造力，能够即兴创造更多内容，如电视剧、电子游戏等。每个人将获得巨大的赋能，未来将充满无限可能。虽然模型会取代某些工作岗位，但每个人都将拥有更强的杠杆能力，社会的工作模式将发生巨大变革。

主持人：你觉得在 AI 圈子里，哪些东西是被高估了，哪些又是被低估了？

道格拉斯：好的，首先说被低估的。我认为“世界模型（world models）”非常酷，但我们今天几乎没有讨论它。随着 AR/VR 技术的进步，模型将能够直接生成虚拟世界，这将带来震撼的体验。

主持人：那需要一定的物理理解力，比如因果关系等，这些我们现在还未达到吧？

道格拉斯：我认为我们已经在某种程度上证明了模型具备一定的物理理解能力。无论是在解决物理问题的评估中，还是在一些视频生成模型中，都能明显看出这一点。例如，我曾观看过一个非常精彩的视频，视频生成模型被要求将一个乐高鲨鱼放入水中——它成功模拟了光线在乐高积木表面反射的效果，并且阴影的位置也恰到好处。这是模型从未遇到过的情境，展现了其出色的泛化能力。这正是全面的物理建模能力，对吧？

主持人：你提到即使当前模型的发展放缓，依然有很多应用可以开发。你认为哪些领域被低估了，尚待开发？

道格拉斯：软件工程领域已经相当成熟，模型在编程方面表现得极为出色。然而，几乎所有其他领域，比如法律、会计等，仍然存在巨大的开发空间。特别是在智能代理的应用上，目前尚未出现真正的异步运行系统。其他领域的空白非常值得进一步探索。

主持人：人们普遍认为编程是这些模型最理想的应用方向。

道格拉斯：确实如此，这是一项领先的指标。但我相信，其他领域也会逐步跟上。

主持人：我记得你曾分享过一张在 Citadel 的照片，那是怎么回事？

道格拉斯：那是一次战争演习，邀请了情报机构和军校的学员进行模拟推演，假设 AGI 的到来以及 AI 的增强，并讨论其对地缘政治的影响。

主持人：经历了那次演习之后，你是感到更加恐惧，还是更为安心？

道格拉斯：老实说，我的恐惧感稍微加深了。

主持人：你认为目前这类严肃的推演进行得够多吗？

道格拉斯：远远不够，很多人低估了未来几年技术发展的速度，也未做好充分准备。即使你认为某事的发生概率仅有 20%，也应为此做好准备。每个技术环节的效率仍有很大的提升空间，未来的目标几乎是明确的。

主持人：就像现在几乎所有 Anthropic 的团队成员都对实现 90% 的信心值？

道格拉斯：几乎所有的团队成员都对 2027 年实现“远程即插即用的 AGI 工作者”充满信心。即便是信心较低的人也认为成功的可能性在 10% 到 20% 之间。因此，政府应该将此视为优先事项，认真思考其可能带来的社会影响。不过，目前的紧迫感显然还远远不够。