AI概念初识

名词

⼈⼯智能(artificial intelligence,AI)

⼤语⾔模型 (large language model,LLM)

⾃然语⾔处理(natural language processing,NLP)

机器学习(machine learning,ML)

深度学习(deep learning,DL)

⼈⼯神经⽹络(artificial neural network)

提示词(prompt) 提示词工程(prompt engineering)

循环神经⽹络(recurrent neural network,RNN)

⻓短期记忆(long short-termmemory,LSTM)⽹络

标记(token)

概念

语言模型与NLP基础

GPT-4 和 ChatGPT 是 NLP 领域中最新的模型类型,NLP 是机器学习和⼈⼯智能的⼀个⼦领域。

AI 是⼀类计算机系统,它能够执⾏通常需要⼈类智能才能完成的任务。

机器学习是 AI 的⼀个⼦集。在机器学习里,我们不再自己写规则,而是让程序从大量例子中自己学会怎么做决定。

深度学习(DL)是机器学习(ML)里的一种,它模仿人脑神经元的连接方式,用 “人工神经网络” 来让电脑自己学习。

深度学习 = 用电脑模拟大脑的神经网络结构,来处理复杂的数据。

深度学习和人工神经网络可以处理⼤量的数据,并且在图像识别、语⾳识别及 NLP 等任务上表现出⾊。

GPT-4 和 ChatGPT 基于⼀种特定的神经⽹络架构,即 Transformer。Transformer 就像阅读机⼀样,它关注句⼦或段落的不同部分,以理解其上下⽂并产⽣连贯的回答。此外,它还可以理解句⼦中的单词顺序和上下⽂意思。这使 Transformer 在语⾔翻译、问题回答和⽂本⽣成等任务中⾮常有效。

NLP 是 AI 的⼀个⼦领域,专注于使计算机能够处理、解释和⽣成⼈类语⾔。现代 NLP 解决⽅案基于 ML 算法。NLP 的⽬标是让计算机能够处理⾃然语⾔⽂本。

NLP任务->⽂本⽣成任务:根据给定的输⼊⽂本(称为提⽰词 )⽣成连贯且相关的输出⽂本。

LLM 是试图完成⽂本⽣成任务的⼀类 ML 模型。LLM 使计算机能够处理、解释和⽣成⼈类语⾔,从⽽提⾼⼈机交互效率。为了做到这⼀
点,LLM 会分析⼤量⽂本数据或基于这些数据进⾏训练,从⽽学习句⼦中各词之间的模式和关系。这个学习过程可以使⽤各种数据源,包括维基百科、Reddit、成千上万本书,甚⾄互联⽹本⾝。在给定输⼊⽂本的情况下,这个学习过程使得 LLM 能够预测最有可能出现的后续单词,从⽽⽣成对输⼊⽂本有意义的回应。于 2023 年发布的⼀些现代语⾔模型⾮常庞⼤,并且已经在⼤量⽂本上进⾏了训练,因此它们可以直接执⾏⼤多数 NLP 任务,如⽂本分类、⾃动翻译、问题回答等。GPT-4 和 ChatGPT 是在⽂本⽣成任务上表现出⾊的 LLM。

理解 Transformer 架构及其在 LLM 中的作⽤

n-gram 模型通过使⽤词频来根据前⾯的词预测句⼦中的下⼀个词,其预测结果是在训练⽂本中紧随前⾯的词出现的频率最⾼的词。

n-gram 模型的理解上下⽂和语法⽅⾯的能力不足,⼈们引⼊了更先进的学习算法,包括循环神经⽹络(recurrent neural network,RNN)和⻓短期记忆(long short-termmemory,LSTM)⽹络。

RNN与LSTM模型有处理大量数据时效率问题。

Transformer 架构能够有效地解决之前的 NLP 模型(如 RNN)存在的⼀个关键问题:很难处理⻓⽂本序列并记住其上下⽂。Transformer 具备⾼效处理和编码上下⽂的能⼒。

Transformer核⼼⽀柱是注意⼒机制。

模型不再将⽂本序列中的所有词视为同等重要,⽽是在任务的每个步骤中关注最相关的词。

交叉注意⼒和⾃注意⼒是基于注意⼒机制的两个架构模块,它们经常出现在 LLM 中。

Transformer 架构⼴泛使⽤了交叉注意⼒模块和⾃注意⼒模块。

交叉注意⼒有助于模型确定输⼊⽂本的不同部分与输出⽂本中下⼀个词的相关性。它就像⼀盏聚光灯,照亮输⼊⽂本中的词或短语,并突出显⽰预测下⼀个词所需的相关信息,同时忽略不重要的细节。

⾃注意⼒机制是指模型能够关注其输⼊⽂本的不同部分。具体到 NLP 领域,⾃注意⼒机制使模型能够评估句⼦中的每个词相⽐于其他词的重要性。这使得模型能够更好地理解各词之间的关系,并根据输⼊⽂本中的多个词构建新概念。

与 RNN 不同,Transformer 架构具有易于并⾏化的优势。这意味着Transformer 架构可以同时处理输⼊⽂本的多个部分,⽽⽆须顺序处理。

基于 Transformer 架构的模型所具备的并⾏处理能⼒与图形处理单元(graphics processing unit,GPU)的架构完美契合,后者专⽤于同时处理多个计算任务。

Transformer 架构由来⾃⾕歌公司的 Ashish Vaswani 等⼈在 2017 年的论⽂“Attention Is All You Need”中提出,最初⽤于序列到序列的任务,如机器翻译任务。

标准的 Transformer 架构有两个主要组件:编码器和解码器,两者都⼗分依赖注意⼒机制。编码器的任务是处理输⼊⽂本,识别有价值的特征,并⽣成有意义的⽂本表⽰,称为嵌⼊(embedding)。解码器使⽤这个嵌⼊来⽣成⼀个输出,⽐如翻译结果或摘要⽂本。这个输出有效地解释了编码信息。

⽣成式预训练 Transformer(Generative Pre-trained Transformer,GPT)是⼀类基于 Transformer 架构的模型,专门利⽤原始架构中的解码器部分。在GPT 中,不存在编码器,因此⽆须通过交叉注意⼒机制来整合编码器产⽣的嵌⼊。也就是说,GPT 仅依赖解码器内部的⾃注意⼒机制来⽣成上下⽂感知的表⽰和预测结果。

NLP 技术的演变历程

GPT模型的标记化和预测步骤

GPT 模型接收⼀段提⽰词作为输⼊,然后⽣成⼀段⽂本作为输出。这个过程被称为⽂本补全。

GPT 模型是如何根据输⼊的提⽰词构建输出⽂本的?主要是⼀个概率问题。

当 GPT 模型收到⼀段提⽰词之后,它⾸先将输⼊拆分成标记(token)。这些标记代表单词、单词的⼀部分、空格或标点符号。

⼏乎每个语⾔模型都配有⾃⼰的分词器。

因为有了注意⼒机制和 Transformer 架构,LLM 能够轻松处理标记并解释它们之间的关系及提⽰词的整体含义。Transformer 架构使模型能够⾼效地识别⽂本中的关键信息和上下⽂。

为了⽣成新的句⼦,LLM 根据提⽰词的上下⽂预测最有可能出现的下⼀个标记。

与之前的循环模型不同,带有注意⼒机制的Transformer 架构使得 LLM 能够将上下⽂作为⼀个整体来考虑。

基于这个上下⽂,模型为每个潜在的后续标记分配⼀个概率分数,然后选择概率最⾼的标记作为序列中的下⼀个标记。重复此过程,这个过程会⼀直重复,直到形成⼀个完整的句⼦。这个过程依赖于 LLM 学习从⼤量⽂本数据中预测下⼀个最有可能出现的单词的能⼒。

GPT模型的标记与预测步骤


AI概念初识
http://hanqichuan.com/2026/01/16/AI/AI概念初识/
作者
韩启川
发布于
2026年1月16日
许可协议