研究人员使用一种称为深度学习的流程来构建通用型人工智能模型该流程训练模型通过示例进行学习 (41)。不同于软件工程深度学习模型可学会根据数据来完成任务而不依赖手写指令。通过处理大量数据如图像、文本或音频这些模型能够发现表示这些数据的方法从而创建对模式(patterns(如形状、词语关联或声音结构的内部表示internal representations帮助模型识别其中的关系并生成与其训练目标一致的输出。然后它们利用这些学到的内部表征作为抽象特征abstractfeatures来分析新的相似数据并以相同风格生成输出。例如根据足够多的 19 世纪浪漫英语诗歌示例进行训练的通用型人工智能模型能够识别这种风格的新诗歌并以类似的风格生成新材料。在更精细的层面上深度学习的工作原理是通过互连的信息处理节点层来处理数据。这些节点通常被称为“神经元”因为它们的设计灵感大致来源于生物大脑“神经网络”中的神经元。随着信息从一层神经元流向下一层模型逐渐将数据转换为更抽象的表现形式representations这些表现形式由学习到的特征feature群组组成即模型在数据中自动发现的模式而非手动编码的模式。例如在图像处理模型中第一层可能会学会检测边缘或基本形状等简单特征而较深的层则结合这些特征来挑选出面部或物体等更复杂的图案。所有层的特征都是通过定义训练程序的优化过程发现的。在训练过程中当模型出错时深度学习算法会调整神经元之间各种连接的强度以提升模型的表现。节点之间每个连接的强度通常称为“权重”。这种分层方法为“深度学习”这一名称的由来事实证明对于以前被认为传统手工编程计算系统和其他早期的符号或基于规则的人工智能方法来说很难完成的任务深度学习在让人工智能系统完成这些任务方面非常有效。现在大多数最先进的通用型人工智能模型都基于一种被称为 “transformer” 的特定神经网络架构 。Transformer 使用“注意力” 机制帮助模型在处理信息时专注于输入数据中最相关的部分例如确定句子中哪些单词对理解其含义最为重要。这种特殊的模型构建方式为翻译、自然语言处理、图像识别和语音识别带来了显著改进最终导致了开发出当今最先进的模型。