大模型的必知必会【专业术语】
名称 | 英文 | 解释 |
---|---|---|
大型语言模型 | Large Language Model(LLM) | 一类规模庞大、参数数量众多的深度学习模型,特别是在自然语言处理(NLP)领域。 |
机器视觉 | CV | 主要研究如何让机器“看”并理解图像和视频中的内容。 |
自然语言处理 | NLP | 专注于让机器理解和生成人类的自然语言(如英语、汉语等)。 |
预训练 | Pre-training | 一种机器学习方法,先在大量无标签数据上对模型进行训练,让模型学习到通用的语言结构或图像特征。 之后,这个预训练好的模型可以被微调(fine-tune)来执行特定任务,比如问答、翻译等。 |
参数量 | Parameter Count | 参数量是指模型中所有可学习权重的总数。 开源项目名称中往往带有xB的字样,B代表十亿,7B就是70亿参数量的模型。 大模型往往拥有数亿乃至上千亿的参数,这使得它们能够捕获更复杂的语言或图像模式。 |
Transformer架构 | 一种革命性的神经网络架构,特别适合处理序列数据,如文本。 它通过自注意力机制(Self-Attention Mechanism)让模型能并行处理输入序列中的每个部分,大大提高了处理速度和理解能力。 |
|
微调 | FineTuning | 当一个预训练模型被用于特定任务时,通过在预训练的基础上,使用特定任务的数据对其进行进一步训练,这一过程称为微调。 这样可以让模型学会解决特定问题,同时保留其从大量数据中学到的一般知识。 |
指令微调 | Instruction FineTuning | 针对已经存在的预训练模型,给出额外的指令或者标注数据集来提升模型的性能。 |
上下文理解 | Contextual Understanding | 指模型能够根据句子或图像的上下文来理解单个词语或元素的含义。 大模型在这方面表现出色,能准确把握“这个”具体指代什么,基于前面的文本或图像内容。 |
生成能力 | Generative Capabilities | 大模型不仅能够理解输入,还能生成连贯、有创意的新文本、图像或其他形式的内容。 例如,可以要求模型根据开头生成一个完整的故事。 |
嵌入 | Embedding | 将高维数据(如词汇、句子或图像)转换为低维向量的过程,使得相似的输入在向量空间中距离较近。 这是大模型理解复杂数据的基础。 |
注意力机制 | Attention Mechanism | 一种允许模型在处理输入时有选择地关注某些部分而非平均对待所有部分的技术。 这对于长序列理解和生成至关重要。 |
过拟合 | Overfitting | 学到了数据中的普遍规律,还错误地记忆了训练数据中的噪声和偶然特性。过于依赖训练数据中的特定细节,而没有很好地泛化到新情况。 |
欠拟合 | Underfitting | 未能充分学习到数据中的模式和规律,导致模型在训练数据上表现不佳,同时在新数据上的表现也不会好。这意味着模型太简单,无法捕捉到数据中的复杂关系。 |
过参数化 | Overparameterization | 大模型通常远超完成任务所需的最少参数数量,这种设计有助于模型更好地拟合数据,减少欠拟合风险,但也可能增加过拟合风险。 |
分布式训练 | Distributed Training | 由于计算和内存需求巨大,大模型的训练通常需要在多个GPU或服务器之间分配任务,这称为分布式训练。 |
语料库 | Corpus | 训练机器学习模型所需的数据集,特别是对于语言模型而言,语料库包含大量的文本数据。 高质量、多样化的语料库对于训练出高性能的生成模型至关重要 |
困惑度 | Perplexity | 评估语言模型性能的一个指标,它衡量模型对测试数据的不确定度。一个较低的困惑度表明模型能更好地预测给定文本的概率分布,通常意味着更好的性能。 |
幻觉 | Hallucination | 系统产生的错误感知或不真实的输出,这些输出没有直接依据于输入数据或现实世界的事实,而是源于模型内部的偏差、过拟合、或随机性。 语言模型生成的文本包含了不准确的信息、逻辑错误、或者与上下文不符的内容 |
量化模型技术 | Quantization Techniques | 机器学习和深度学习领域中的一种优化方法,主要用于减少模型的计算资源需求和存储空间占用,同时尽可能地保持模型的性能。 在不改变模型架构的前提下,量化技术通过将模型中的权重和激活值(即神经网络中间层的输出)从高精度的浮点数转换为低精度(如8位、4位甚至1位)的整数表示,从而实现这一目标。 |
GPTQ | Gradient-based Post-Training Quantization | 基于梯度的后训练量化技术。GPTQ通过利用模型的梯度信息来指导量化过程,寻找最佳的低精度权重表示,以此最小化量化后的性能损失。 这种方法可以在不牺牲太多精度的情况下显著减小模型体积,加速推理速度,对于部署大型语言模型特别有用。 |
KV Cache 量化 | Key-Value Cache | 一种用于高效实现自注意力机制(Self-Attention)的关键技术。在自注意力计算过程中,模型需要保存前向传播中的“key”和“value”向量,以便后续计算中重用,这大大减少了计算复杂度。 然而,这些缓存数据占用了大量内存,尤其是在处理长序列时。 |
令牌 | Token | 文本数据处理中最小的、不可分割的意义单位 |
基于人工反馈的强化学习 | RLHF Reinforcement Learning from Human Feedback |
构建人类反馈数据集,训练一个激励模型,模仿人类偏好对结果打分,这是GPT-3后时代大语言模型越来越像人类对话核心技术。 |
涌现 | Emergence | 创发、突现、呈展、演生,是一种现象。许多小实体相互作用后产生了大实体,而这个大实体展现了组成它的小实体所不具有的特性。 模型规模达到一定阈值以上后,会在多步算术、大学考试、单词释义等场景的准确性显著提升,称为涌现。 |
泛化 | Generalization | 模型泛化是指一些模型可以应用(泛化)到其他场景,通常为采用迁移学习、微调等手段实现泛化。 |
思维链 | Chain-of-Thought CoT |
通过让大语言模型(LLM)将一个问题拆解为多个步骤,一步一步分析,逐步得出正确答案。需指出,针对复杂问题,LLM直接给出错误答案的概率比较高。思维链可以看成是一种指令微调。 |
未完待续……
1 | 本文参考文献、工具如下: |