产品视角｜AI对话（一）：理解大年夜措辞模型

文章目录 [+]

本文为此系列弁言，紧张为各技能点的要点汇总，旨在遍及根本技能知识点不含产品不雅观点，对LLM理解的同学可跳过。

一、什么是大措辞模型（LLM）

顾名思义，大措辞模型的特点是规模弘大，可能拥有十亿以上的参数。
由于研究方向不同，在前两年涌现以自然措辞理解任务和自然措辞天生类任务的两条技能线。

产品视角｜AI对话（一）：理解大年夜措辞模型产品视角｜AI对话（一）：理解大年夜措辞模型互联通信

1. 自然措辞理解任务

即包括文本分类、句子关系判断等，实质上是分类任务。
其技能以Bert为代表。
Bert(Bidirectional Encoder Representation from Transfomer)采取双向Transformer Encoder架构。
Bert的优点是可以更好地理解高下文信息，缺陷是长文本处理不足稳定。

产品视角｜AI对话（一）：理解大年夜措辞模型产品视角｜AI对话（一）：理解大年夜措辞模型互联通信

（图片来自网络侵删）

2. 自然措辞天生类任务

可给定输入文本，哀求对应模型天生一串输出的模型。
其技能以GPT为代表。
GPT（Generative Pre-trained Transfomer)利用单向Transfomer Decoder构造。
GPT的优点是演习过程相对大略，可以天生自然流畅的文本。

从两类任务来看，如果仅用自然措辞理解模型，可能无法很好地处理天生任务。
但一个LLM 天生模型是可以兼顾两个任务的处理，以是主流更希望推进的运用方向是结合LLM天生模型来做落地。

附图：Transformer先容

二、市场大措辞模型有哪些

（数据来源：机器之心）

在天生式任务方向按照模型构造的不同可以分为两大类：

1. 基于Causal decoder-only （因果解码器）的Transformer构造

如GPT-4、Claude 2、LLaMA2等大模型

2. 基于Prefix decoder-only （前缀解码器）的Transformer构造

如Chat GLM-6B（清华大学提出的支持中英双语问答的对话措辞模型）

那么两种构造的差异是什么呢？

相同演习tokens的情形下，Prefix decoder用到的tokens数量更少，演习效率较低，效果相对较差。
（演习时Causal decoder构造会在所有Token上打算丢失，而Prefix decoder只会在输出上打算丢失，不打算输入的丢失）

其次模型根本信息（演习数据、数据量、模型参数量、词表大小等）还会成为紧张比较维度，如下图：

（数据来源：机器之心）

列名称：模型名称、发布韶光、模型大小、是否基于哪个模型、适应性调优（IT指令调优、RLHF用于对齐调优-人类反馈强化学习）、预演习数据规模、近期更新、硬件情形、演习时长、评估（ICL高下文学习、CoT思维链）

三、大模型有什么样的演习范式

NLP经历四个演习范式：

第一范式：基于传统机器学习模型的范式，特色工程+算法，须要大量演习数据第二范式：基于深度学习模型的范式，自动获取特色，相对1提高了准确率第三范式：基于【Pre-train（无监督）+fine-tune（有监督）】的范式，pre-train是基于无标注数据演习；fine-tune阶段经由pre-train的初始化往后，后续的参数用有标注的数据进行演习。
小数据集可以演习出好模型。
第四范式（主要，详情请见系列下篇）：基于【Pre-train,Prompt,Predict】的范式，运用Few/Zero Shot ，须要少量（无）的任务数据。

大模型大多运用第三、第四范式为主，第三范式目的是预演习模型以更好地运用不才游任务，而用较多的数据演习新的任务，会导致少量样本学习能力差的问题，以及会造成支配资源的极大摧残浪费蹂躏。

对付第四范式，实质是将所有下贱任务统一成预演习任务，以特定的模板将下贱任务的数据转整天然措辞形式，挖掘预演习模型的本身能力，因此可以降落语义差异以及避免过拟合。

四、大模型评测的标准和方法

产品表现：包括语义语法语境理解、内容准确性、天生质量、性能测试、拟人性和多模态能力；

语义理解包括高下文理解、逻辑推理、多措辞等；内容准确性包括回答内容和结果准确性和陷阱处理；天生质量包括多样性、创造性、专业度等；性能紧张包括回答速率、资源花费等；拟人性紧张针对用户情绪剖析；

模型根本能力：紧张针对算力和数据，包括参数量级、数据量级、数据质量等

其他：紧张针对安全合规，包括安全和隐私处理能力、内容安全性、公正性、隐私保护等

五、评估大模型的安全性

LLM Tustworthiness 字节跳动

可靠性：虚假信息、措辞模型幻觉、不一致、校准失落误、谄媚安全性：暴力、违法、未成年人侵害、成人内容、生理康健问题、隐私陵犯公正性：不公道、刻板偏见、偏好偏见、性能差异抵制滥用：宣扬、网络攻击、社交工程、版权泄露可阐明性和推理：阐明能力不敷、逻辑能力不敷、因果能力不敷社会规范：毒辣措辞、情绪迟缓、文化迟缓稳健性：提示攻击、范式和分布变革、干预效果、投毒攻击

参考文献：

《最新大措辞研究模型综述：T5到GPT-4最全盘点》

《通往AGI之路：大型措辞模型（LLM）技能精要》

《如何评估大模型是否可信？这里总结了七大维度》

《Prompt Learning |深入浅出提示学习要旨及常用方法》

本文由 @JasmineWei 原创发布于大家都是产品经理。
未经作者容许，禁止转载。

题图来自Unsplash，基于CC0协议。

该文不雅观点仅代表作者本人，大家都是产品经理平台仅供应信息存储空间做事。