共计 4878 个字符,预计需要花费 13 分钟才能阅读完成。
记者 | 李京亚 姜菁玲
编辑 | 宋佳楠
在美剧《硅谷》中,曾有这样一幕有趣的剧情:程序员 Gilfoyle 用 AI 聊天软件“安东之子”捉弄他的好友 Dinesh。该软件能模拟独属于 Gilfoyle 的闷骚幽默,让 Dinesh 误以为是在与 Gilfoyle 本人聊天。发现真相后,同为程序员的 Dinesh 也做了一个 AI 机器人用来报复 Gilfoyle。结果,两个 AI 机器人热聊了起来,还把网络给聊崩了……
这样的场景已经走入现实。美国人工智能实验室 OpenAI 推出的语言模型系统 GPT- 3 就曾构建出两个人工智能之间的对话,谈论如何成为人类,令看客大呼脊背发凉。
但 OpenAI 并未止步于此,而是将 GPT- 3 进化为最近风靡全网的 ChatGPT,后者不仅在大量网友的“疯狂”测试中表现出各种惊人的能力,如流畅对答、写代码、写剧本、辩证分析问题、纠错等等,甚至让记者编辑、程序员等从业者都感受到了威胁,更不乏其将取代谷歌搜索引擎之说。
作为 OpenAI 的幕后老板,尚在主导推特变革的马斯克也公开表达了对 ChatGPT 的力挺,认为“我们离强大到危险的 AI 不远了。”
全球用户争相晒出自己极具创意的与 ChatGPT 交流的成果。一位网友要求 ChatGPT 用《坎特伯雷故事集》风格改写 90 年代热门歌曲《Baby Got Back》;有网友晒出 ChatGPT 参加美国高考 SAT 考试之后的得分:1020(总分 1600 分);亦有网友收获了 ChatGPT 用《老友记》几大主角口吻创作的剧本对白。
据 OpenAI 的 CEO,硅谷著名投资人山姆·奥特曼(Sam Altman)透露,自 11 月 30 日至 12 月 5 日,ChatGPT 的用户数量已突破 100 万。由于太过火爆,OpenAI 不得不暂时关闭了用户的测试入驻窗口。
可以说,继 AlphaGo 击败李世石、AI 绘画大火之后,ChatGPT 开启了人工智能对人类社会产生深远影响的又一扇窗。不禁让人好奇,它究竟是怎么做到的?
为何是 ChatGPT?
如果用一句话来说明 ChatGPT 是什么,可以将它理解为由 AI 驱动的聊天机器人。
外界往往认为语言学领域是人工智能派上用场的绝佳地带,而事实并非如此。截至目前,人工智能还没有找到征服语言领域的暗门,即使是谷歌、苹果这样的顶级科技公司,都面临着相关 AI 研究成果派不上用场的苦恼。
尚处在免费试用阶段的 ChatGPT,关注度短短几天扩大到燎原之势,正是因为人们从中看到了人工智能和语言本体之间的真正接口。
那么,ChatGPT 采取了什么方式达到了如此惊艳的效果呢?为何苹果的 Siri 至今无法生成一篇学术论文,亚马逊的 Alexa 无法吟出一首莎士比亚十四行诗呢?
过去十年间,谷歌、Facebook、亚马逊、苹果和微软等硅谷科技巨头纷纷开启 AI 军备竞赛,先后成立专门的 AI 实验室,而最终业界公认的做纯 AI 研究的顶级实验室只有三家:背靠谷歌的 DeepMind、背靠微软的 OpenAI 和背靠 Facebook 的 FAIR。其中,被谷歌收购的 DeepMind 因拥有 AlphaGo 最为家喻户晓。
OpenAI 在 2015 年底创立于旧金山,其联合创始人是马斯克以及硅谷知名孵化器 Y Combinator 的前掌门人奥特曼。不过,近年马斯克多以 OpenAI 的出资人角色出现,奥特曼才是这家公司的主导者和现任 CEO。
不到五年时间,OpenAI 就依靠 GPT3 跃升为全球 AI 领域顶级公司,与 DeepMind 并称 AI 圈的“双子星”。事实上,Meta 的 Fair 实验室也一直在自然语言处理和对话型 AI 领域深耕,但其成果以发表论文为主,显得较为低调。今年 6 月,大举向元宇宙转型的 Meta 决定 AI 部门不再“集中化研究”,而是分布式下放,以便与实际业务结合,导致 Fair 的前途并不明朗。
OpenAI 足以与 AlphaGo 一战的“武器”正是 GPT3,这个 2020 年推出的巨型语言处理模型怪兽,可以完成诸如答题、写论文、文本摘要、语言翻译和生成代码等壮举,其诞生被视作人工智能竞赛的里程碑事件。
ChatGPT 的前世今生
如果梳理 OpenAI 的 GPT(Generative Pre-trained Transformer)系列技术路线,可以探寻出 OpenAI 的布局思路。
OpenAI 最初提出的 GPT1,采取的是生成式预训练 Transform 模型(一种采用自注意力机制的深度学习模型),此后整个 GPT 系列都贯彻了这一谷歌 2017 年提出,经由 OpenAI 改造的伟大创新范式。
简要来说,GPT1 的方法包含预训练和微调两个阶段,预训练遵循的是语言模型的目标,微调过程遵循的是文本生成任务的目的。
2019 年,OpenAI 继续提出 GPT-2,所适用的任务开始锁定在语言模型。GPT2 拥有和 GPT1 一样的模型结构,但得益于更高的数据质量和更大的数据规模,GPT- 2 有了惊人的生成能力。不过,其在接受音乐和讲故事等专业领域任务时表现很不好。
2020 年的 GPT3 将 GPT 模型提升到全新的高度,其训练参数是 GPT- 2 的 10 倍以上,技术路线上则去掉了初代 GPT 的微调步骤,直接输入自然语言当作指示,给 GPT 训练读过文字和句子后可接续问题的能力,同时包含了更为广泛的主题。
现在的 ChatGPT 则是由效果比 GPT3 更强大的 GPT-3.5 系列模型提供支持,这些模型使用微软 Azure AI 超级计算基础设施上的文本和代码数据进行训练。
具体来说,ChatGPT 在一个开源数据集上进行训练,训练参数也是前代 GPT3 的 10 倍以上,还多引入了两项功能:人工标注数据和强化学习,相当于拿回了被 GPT3 去掉的微调步骤,实现了在与人类互动时从反馈中强化学习。
也因此,我们得以看到一个强大的 ChatGPT:能理解人类不同指令的含义,会甄别高水准答案,能处理多元化的主题任务,既可以回答用户后续问题,也可以质疑错误问题和拒绝不适当的请求。
当初,GPT- 3 只能预测给定单词串后面的文字,而 ChatGPT 可以用更接近人类的思考方式参与用户的查询过程,可以根据上下文和语境,提供恰当的回答,并模拟多种人类情绪和语气,还改掉了 GPT- 3 的回答中看似通顺,但脱离实际的毛病。
不仅如此,ChatGPT 能参与到更海量的话题中来,更好的进行连续对话,有上佳的模仿能力,具备一定程度的逻辑和常识,在学术圈和科技圈人士看来时常显得博学而专业,而这些都是 GPT- 3 所无法达到的。
尽管目前 ChatGPT 还存在很多语言模型中常见的局限性和不准确问题,但毋庸置疑的是,其在语言识别、判断和交互层面存在巨大优势。同属于生成式 AI 范畴,ChatGPT 在速度上已经比 DeepMind 研究人员提出的聊天机器人 Sparrow(麻雀)模型领先一步。
有分析指出,OpenAI 一直坚定不移的只用自然文本的上文来训练模型推动了 GPT3 到 ChatGPT 的成果,其顺应了人类思考的逻辑,最终由量变推动了质变。
商业模式的通路与障碍
不少人已经注意到,ChatGPT 的能力已经涉及到 AI 模型之间的合作:一位网友要求 ChatGPT 写一个描述女孩的文案,然后用 ChatGPT 生成的文案画出了女孩的图像。
除了 GPT 系列之外,Open AI 其实另有一条多模态领域研究支线闻名于世,即今年发布的明星产品——人工智能图像生成器 DALL-E2。以 DaLL E2 为代表的 Diffusion Model(扩散模型)几乎完成了此前爆火的 AIGC(人工智能生成内容)领域的“大一统”,为 AI 绘画树立了全新标杆。
顶级技术能力之外,OpenAI 能抢在谷歌和 Meta 之前重新书写 AIGC 版图,与其精细化的布局相关。
OpenAI 月内的两笔收购都切中 AIGC 的增长点交叉地带,一桩投给了音频转录编辑器 Descript,一桩落子在 AI 笔记应用 Mem。前者的处理场景刚好是文本、图片、音频以及视频,后者的技术底座是 Transfomer 模型,与 ChatGPT 同源。也就是说,OpenAI 在打造自身处理下游任务的能力的同时,也在寻觅能承载下游任务的容器。
OpenAI 的研究领域包括机器学习、自然语言处理和强化学习,其能在短短几年间迅速崛起,与创始人奥特曼对 AI 的创意性理解力密切相关:“十年前的传统观点认为,人工智能首先会影响体力劳动,然后是认知劳动,再然后,也许有一天可以做创造性的工作。现在看起来,它会以相反的顺序进行。”
在 YC,奥特曼以激进大胆的投资风格著称,因其秉承直击腹地的简洁思维,备受创业者青睐。YC 曾有创始人称奥特曼为“创业公司的尤达大师”(《星球大战》中的绝地武士导师)。
这位 CEO 还有着实事求是的性情,当外界对 GPT- 3 的能力发出铺天盖地的赞美时,他反而说“GPT- 3 被吹捧得太过了”。此后 GPT- 3 在一系列问答中闹出笑话、表现不佳,也印证了他的说法。
但奥特曼的冷静挡不住幕后金主马斯克对 ChatGPT 抱持的极大热情,他十分关注 ChatGPT 的商业化前景,并在推特上向奥特曼提问,“ChatGPT 每回答一个问题的成本是多少?”奥特曼则如实地答道:“每次对话的平均费用可能只有几美分,我们正试图找出更精确的测量方法并压缩费用。”
实际上,谷歌和 Meta 等巨头目前都尚未将生成式 AI 领域的研究能力转化为商业化部署,作为创业公司的 OpenAI 却做了不少尝试。
这家公司曾希望通过 API(应用编程接口)方式来推动 GPT- 3 的技术商业化,在 2020 年 6 月就开放了 GPT- 3 的 API 接口,并曾与十余家公司展开过初步的商用测试,但由于 GPT- 3 的功能并不完善未见成效。曾有传言称 OpenAI 为 GPT3 投入了至少 1000 万美元,为了摆脱入不敷出的窘境,才将 GPT3 作为一项付费服务来推广。
据虎嗅报道,Facebook 改名为 Meta 之后,Meta AI 实验室在 5 月宣布开放自己的语言大模型 OPT(预训练变换模型),而 OPT 一直对标 OpenAI 的 GPT3。与之类似,硅谷大厂内部都有对标 GPT3 的产品,只是因为大厂都是关起门来做私密研究,因而不为外界所知。
某种程度上,ChatGPT 采取免费试用是 OpenAI 准备继续打磨这款产品的信号,用户给予的反馈会帮助该模型吸取足够的信息量,从而作出更恰当的反应。
从 GPT- 3 开始,ChatGPT 及尚未出炉的 GPT- 4 都面临训练成本过大的问题。有分析指出,是否收费是个两难决策:如果继续免费,OpenAI 会无法承受,但收费又会极大减少用户基数。倘若训练成本能大幅下降,则两难自解。
此外,GPT- 3 历经两年商业化尝试,并未“如愿”取代记者编辑或码农的职业生涯,OpenAI 也从中发现,将 GPT 系列作为辅助生产力工具对商业化更为合适。此前业内传言微软对这家公司的新一轮注资即将落地,届时其估值预计超过 200 亿美元,商业化也必将提上日程。到那时,OpenAI 可以倚仗的大概率是 ChatGPT,或者是通过了图灵测试的 GPT4。
一片叫好声中,也不乏有人泼来冷水——程序员首选问答社区 Stack Overflow 日前便宣布,禁止用户复制 ChatGPT 的答案来回答其它用户的问题,理由是 ChatGPT 的答案正确比率太低,日后待社区讨论后再作出解禁决定。
此举立刻引发了业界普遍关注,仿佛是对 ChatGPT 编程价值的彻底否定。与此同时,人工智能界的专家们也在激辩这些大型语言模型可能带来的负面效应,比如 Meta 的首席人工智能科学家 Yann LeCun 认为,虽然它们会有错误信息和不良输出,但并不会使文本的实际分享变得容易,而后者才是造成危害的真正原因。但也有人反驳称,这些语言系统的廉价文本生成能力必然会增加其后被分享的风险。
而在 OpenAI 内部,一年半前曾遭遇核心员工集体出走,创办了一家名为 Anthropic 的新公司,致力于提高 AI 安全和可解释性,目前筹资已超过 7 亿美元,业内亦有声音认为,这支“AI 叛逆者联盟”说不定会是另一个 OpenAI。