共计 1656 个字符,预计需要花费 5 分钟才能阅读完成。
欢迎您关注科普中国特别推出的寒假优质栏目“ 为孩子们准备的高新科技课程 ”!
在如今的科技前沿,人工智能正以前所未有的速度转变着我们的生活。从智能语音助手到自动驾驶汽车,从 AI 绘画到机器学习,它为我们带来了一个充满无限可能的未来。本栏目将以简单易懂的方式,通过视频和文字向孩子们讲解人工智能的基本原理、实际应用及其对社会的深远影响。
让我们一同踏上这段 AI 之旅吧!
以下为文字版本:
(阅读时间约为 5 分钟)
自 2022 年底,“ChatGPT”这一名词悄然进入了大众视野。
如果您对此不太了解,或仅仅将其视为一个聊天机器人,那就大错特错了。
多个行业如新闻、法律、教育、客户服务等,已经在生产和服务中引入了 ChatGPT。
那么,究竟什么是 ChatGPT?本期内容将为您详细介绍 ChatGPT 及其背后的技术。
让我们从它的名称开始了解。
“Chat”意为“对话”,可以理解为 Chat GPT 是一个类似于微信或 QQ 的聊天应用。只是,接收您信息的不是朋友,而是一个 AI。
而 G、P、T 才是更为关键的部分,它代表了“Generative Pre-trained Transformer”。
“Generative”意为“生成式”,表明它能根据输入的信息生成文本进行回应。
“Pre-trained”表示“预训练”,即在与用户对话之前,Chat GPT 已经接受了大量文本的训练。
“Transformer” 是一种深度学习模型,可以说 transformer 是整个 GPT 的核心。
要理解“ChatGPT”,我们需要从 AI 如何学习语言谈起。
人类的言语表达源于脑海中的“词汇”,通过挑选词语组合句子。如果简单地让 AI 随机选择词汇,则生成的句子往往是无意义的。
为了使计算机掌握人类语言,研究者们引入了马尔科夫模型。简单来说,马尔科夫模型可以建立一个词与前面词的联系。
例如,根据语料库,“苏打”后面更可能出现“饼干”或“汽水”,而非“桌子”或“胡萝卜”。如果在“苏打”前加上“吃”,那么“饼干”出现的概率又高于“汽水”。通过这种方式生成的句子,比随机生成的更接近人类的表达方式。

图库版权图片,转载使用可能引发版权纠纷
基于这一思路,在 20 世纪 70、80 年代,循环神经网络(RNN)应运而生。该模型能够有效处理词序,并考虑前后词汇的关系。
然而,RNN 也存在不足之处,例如“梯度消失”现象。随着句子变长,它可能会忘记前面的话语。
因此,研究人员对 RNN 进行了改进,推出了长短期记忆网络(LSTM),旨在解决“遗忘”问题。
但这仍然不够。基于 RNN 的模型存在两大问题:学习速度较慢和对词义理解的局限性。
为了解决这些问题,新的神经网络架构 transformer 被提出。基于 transformer 的模型具有极高的学习效率,能够在短时间内掌握大量文本信息。
目前,与人类交互的 GPT 模型经过至少 45TB 的文本数据训练。
另外,transformer 引入了一项称为“自注意力”(self attention)的技术,使其能够通过文章中的其他词汇更好地理解词义,从而更准确地理解我们的表达。
当然,GPT 仍在不断进化。以 GPT-4.0 为例,它展现出更强的逻辑推理能力,甚至能够理解图像内容,未来前景广阔。
实际上,像 GPT 这样参数极为复杂、需要海量文本训练的语言模型被称为大语言模型。除了 GPT,阿里的 PLUG、华为的盘古 -α、百度的 ERNIE 3.0 等同样属于此类模型。
在这些大语言模型的支持下,我们的工作与生活方式可能会发生翻天覆地的变化。
您,准备好迎接这场变革了吗?
策划制作
本文为科普中国 - 创作培育计划的作品
出品|中国科协科普部
监制|中国科学技术出版社有限公司、北京中科星河文化传媒有限公司
作者丨北京云御纪文化传播有限公司
审核丨秦曾昌 北京航空航天大学 自动化科学与电气工程学院 副教授
策划丨符思佳
责编丨符思佳
审校丨徐来 林林