大模型引领NLP研究新范式:从统计机器学习到预训练语言模型

自然语言处理(NLP)研究范式经历了从浅层到深层、从局部到整体、从特定到通用的演进过程。下面我们来详细回顾这一过程。

一、早期的统计机器学习方法(20世纪90年代 - 21世纪初)

  1. 词袋模型(Bag-of-Words)

    • 将文本表示为词频向量,忽略词序和语法
    • 应用:文本分类、情感分析等
  2. N-gram语言模型

    • 基于词的共现频率,计算一个词序列的概率
    • 应用:语音识别、机器翻译、文本生成等
    • 例如,基于Bi-gram的概率计算公式:
      P ( w 1 , w 2 , . . . , w n ) = ∏ i = 1 n P ( w i ∣ w i − 1 ) P(w_1, w_2, ..., w_n) = \prod_{i=1}^n P(w_i | w_{i-1}) P(w1,w2,...,wn)=i=1nP(wiwi1)
  3. 词向量(Word Embedding)

    • 将词映射为低维稠密向量,如Word2Vec、GloVe
    • 词向量可以刻画词之间的语义关系
    • 例如,Word2Vec的Skip-gram模型的目标函数:
      J ( θ ) = 1 T ∑ t = 1 T ∑ − c ≤ j ≤ c , j ≠ 0 log ⁡ P ( w t + j ∣ w t ) J(\theta) = \frac{1}{T} \sum_{t=1}^T \sum_{-c \leq j \leq c, j \neq 0} \log P(w_{t+j} | w_t) J(θ)=T1t=1Tcjc,j=0logP(wt+jwt)

二、深度学习时代(2013年 - 2018年)

  1. 循环神经网络(RNN)

    • 适合处理序列数据,如语言模型、机器翻译
    • 存在梯度消失和梯度爆炸问题
    • 一个简单的RNN前向传播公式:
      h t = tanh ⁡ ( W h h h t − 1 + W x h x t ) h_t = \tanh(W_{hh} h_{t-1} + W_{xh} x_t) ht=tanh(Whhht1+Wxhxt)
      y t = W h y h t y_t = W_{hy} h_t yt=Whyht
  2. 长短期记忆网络(LSTM)

    • 通过引入门控机制,缓解了RNN的梯度问题
    • 广泛应用于序列建模任务
    • LSTM的核心公式:
      f t = σ ( W f ⋅ [ h t − 1 , x t ] + b f ) f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f) ft=σ(Wf[ht1,xt]+bf)
      i t = σ ( W i ⋅ [ h t − 1 , x t ] + b i ) i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i) it=σ(Wi[ht1,xt]+bi)
      C ~ t = tanh ⁡ ( W C ⋅ [ h t − 1 , x t ] + b C ) \tilde{C}_t = \tanh(W_C \cdot [h_{t-1}, x_t] + b_C) C~t=tanh(WC[ht1,xt]+bC)
      C t = f t ∗ C t − 1 + i t ∗ C ~ t C_t = f_t * C_{t-1} + i_t * \tilde{C}_t Ct=ftCt1+itC~t
      o t = σ ( W o ⋅ [ h t − 1 , x t ] + b o ) o_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o) ot=σ(Wo[ht1,xt]+bo)
      h t = o t ∗ tanh ⁡ ( C t ) h_t = o_t * \tanh(C_t) ht=ottanh(Ct)
  3. 注意力机制(Attention Mechanism)

    • 让模型能够聚焦于输入的关键部分
    • 广泛应用于机器翻译、阅读理解等任务
    • 例如,Bahdanau Attention:
      e i j = v a ⊤ tanh ⁡ ( W a s i − 1 + U a h j ) e_{ij} = v_a^\top \tanh(W_a s_{i-1} + U_a h_j) eij=vatanh(Wasi1+Uahj)
      α i j = exp ⁡ ( e i j ) ∑ k = 1 T x exp ⁡ ( e i k ) \alpha_{ij} = \frac{\exp(e_{ij})}{\sum_{k=1}^{T_x} \exp(e_{ik})} αij=k=1Txexp(eik)exp(eij)
      c i = ∑ j = 1 T x α i j h j c_i = \sum_{j=1}^{T_x} \alpha_{ij} h_j ci=j=1Txαijhj
  4. 变形金刚(Transformer)

    • 基于自注意力机制(Self-Attention),摆脱了RNN的序列依赖
    • 并行计算,训练效率高,成为大模型的基础架构
    • Self-Attention的计算公式:
      Q = X W Q , K = X W K , V = X W V Q = X W_Q, K = X W_K, V = X W_V Q=XWQ,K=XWK,V=XWV
      A t t e n t i o n ( Q , K , V ) = s o f t m a x ( Q K T d k ) V Attention(Q, K, V) = softmax(\frac{QK^T}{\sqrt{d_k}})V Attention(Q,K,V)=softmax(dk QKT)V

三、预训练语言模型(2018年 - 至今)

  1. GPT(Generative Pre-training Transformer)

    • 基于Transformer的单向语言模型
    • 在大规模无监督语料上预训练,再针对下游任务微调
    • 开启了预训练语言模型的新时代
  2. BERT(Bidirectional Encoder Representations from Transformers)

    • 基于Masked Language Model(MLM)和Next Sentence Prediction(NSP)的双向预训练
    • 在11项NLP任务上取得SOTA成绩
    • 掀起了预训练语言模型的热潮
  3. 轻量级预训练模型

    • 如DistilBERT、ALBERT、TinyBERT等
    • 在保持性能的同时,大幅减小模型尺寸和推理时间
    • 利于预训练模型的工业落地
  4. 大语言模型(Large Language Model)

    • 如GPT-3、PaLM、ChatGPT等
    • 模型参数规模高达数百亿甚至上千亿
    • 展现出惊人的语言理解和生成能力
    • In-context Learning:无需微调,直接向模型输入少量样本即可执行新任务
    • 赋予NLP更加通用、开放、强大的能力
    • 大模型示意图:
         ┌─────────────────────────────────────────────────────────────────┐
         │                                                                 │
         │                            Pre-training                         │
         │                                                                 │
         │       ┌──────────────────────────────────────────────────┐      │
         │       │            Unsupervised Text Corpora             │      │
         │       └──────────────────────────────────────────────────┘      │
         │                                 │                               │
         │                                 ▼                               │
         │       ┌──────────────────────────────────────────────────┐      │
         │       │              Large Language Model                │      │
         │       │                    (Billions)                    │      │
         │       └──────────────────────────────────────────────────┘      │
         │                                                                 │
         └─────────────────────────────────────────────────────────────────┘
                                           │
                                           ▼
         ┌─────────────────────────────────────────────────────────────────┐
         │                                                                 │
         │                          Downstream Tasks                       │
         │                                                                 │
         │    ┌─────────┐   ┌───────────┐   ┌─────────────┐   ┌──────────┐  │
         │    │ ChatBot │   │ Summarize │   │ Translate  │   │ Classify │  │
         │    └─────────┘   └───────────┘   └─────────────┘   └──────────┘  │
         │                                                                 │
         └─────────────────────────────────────────────────────────────────┘
      

NLP研究范式的演进,反映了人工智能技术的不断进步。从早期的统计机器学习,到深度学习,再到预训练语言模型和大模型,每一次范式的突破都极大地推动了NLP的发展。未来,NLP有望与知识表示、因果推理等技术进一步结合,实现更加强大、智能、可解释的自然语言理解和生成。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/592665.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

my-room-in-3d中的电脑,电视,桌面光带发光原理

1. my-room-in-3d中的电脑,电视,桌面光带发光原理 最近在github中,看到了这样的一个项目; 项目地址 我看到的时候,蛮好奇他这个光带时怎么做的。 最后发现,他是通过,加载一个 lightMap.jpg这个…

大型语言模型的新挑战:AMR语义表示的神秘力量

DeepVisionary 每日深度学习前沿科技推送&顶会论文&数学建模与科技信息前沿资讯分享,与你一起了解前沿科技知识! 引言:AMR在大型语言模型中的作用 在自然语言处理(NLP)的领域中,抽象意义表示&…

查找算法与排序算法

查找算法 二分查找 (要求熟练) // C// 二分查找法(递归实现) int binarySearch(int *nums, int target, int left, int right) // left代表左边界,right代表右边界 {if (left > right) return -1; // 如果左边大于右边,那么…

esp8266与uno使用软串口通信

esp8266的d6和d5分别与uno的5和6管脚连接&#xff1a; uno程序&#xff1a; //uno #include <SoftwareSerial.h> SoftwareSerial s(5,6);//(RX,TX)void setup(){s.begin(9600);Serial.begin(9600); }void loop(){int data50;if (s.available() > 0) {char c s.read(…

【错题集-编程题】比那名居的桃子(滑动窗口 / 前缀和)

牛客对应题目链接&#xff1a;比那名居的桃子 (nowcoder.com) 一、分析题目 1、滑动窗口 由题意得&#xff0c;我们是要枚举所有大小为 k 的子数组&#xff0c;并且求出这段⼦数组中快乐值和羞耻度之和。因此&#xff0c;可以利用滑动窗口的思想&#xff0c;用两个变量维护大小…

【区块链】共识算法简介

共识算法简介 区块链三要素&#xff1a; 去中心化共识算法智能合约 共识算法作为区块链三大核心技术之一&#xff0c;其重要性不言而喻。今天就来简单介绍共识算法的基本知识。 最简单的解释&#xff0c;共识算法就是要让所有节点达成共识&#xff0c;保证少数服从多数&#x…

从零开始学AI绘画,万字Stable Diffusion终极教程(六)

【第6期】知识补充 欢迎来到SD的终极教程&#xff0c;这是我们的第六节课&#xff0c;也是最后一节课 这套课程分为六节课&#xff0c;会系统性的介绍sd的全部功能&#xff0c;让你打下坚实牢靠的基础 1.SD入门 2.关键词 3.Lora模型 4.图生图 5.controlnet 6.知识补充 …

初识C语言——第九天

ASCII定义 在 C 语言中&#xff0c;每个字符都对应一个 ASCII 码。ASCII 码是一个字符集&#xff0c;它定义了许多常用的字符对应的数字编码。这些编码可以表示为整数&#xff0c;也可以表示为字符类型。在 C 语言中&#xff0c;字符类型被定义为一个整数类型&#xff0c;它占…

C/C++开发,opencv-ml库学习,K近邻(KNN)应用

目录 一、k近邻算法 1.1 算法简介 1.2 opencv-k近邻算法 二、cv::ml::KNearest应用 2.1 数据集样本准备 2.2 KNearest应用 2.3 程序编译 2.4 main.cpp全代码 一、k近邻算法 1.1 算法简介 K近邻算法&#xff08;K-Nearest Neighbor&#xff0c;KNN&#xff09;基本原理是…

Vue按照顺序实现多级弹窗(附Demo)

目录 前言1. 单个弹窗2. 多级弹窗 前言 强化各个知识点&#xff0c;以实战融合&#xff0c;以下两个Demo从实战提取 1. 单个弹窗 部署按钮框以及确定的方法即可 截图如下所示&#xff1a; 以下Demo整体逻辑如下&#xff1a; 点击“生成周月计划”按钮会触发showWeekPlanDia…

FLIR LEPTON3.5 热像仪wifi 科研实验测温采集仪

点击查看详情!点击查看详情点击查看详情点击查看详情点击查看详情点击查看详情点击查看详情点击查看详情点击查看详情点击查看详情点击查看详情点击查看详情点击查看详情点击查看详情点击查看详情 1、描述 这是一款桌面科研实验测温热成像多功能热像记录仪&#xff0c;小巧轻便…

STM32微秒级别延时--F407--TIM1

基本配置&#xff1a; TIM1挂载在APB2总线上&#xff0c;150MHz经过15分频&#xff0c;得到10MHz计数频率&#xff0c;由于disable了自动重装载&#xff0c;所以只需要看下一次计数值是多少即可。 void TIM1_Delay_us(uint16_t us) //使用阻塞方式进行延时&#xff0c;ARR值不…

记录vue报错问题 in ./node_modules/axios/lib/platform/index.js

今天这个问题困扰了我许久 报错内容如下&#xff1a; 最初一直以为是我没装axios&#xff0c;又重新装了一次&#xff0c;后面才发现是axios版本原因&#xff0c;真的总是被版本的原因困住真的很烦 解决方法如下&#xff1a; 将axios的版本改为1.5.0 1、打开项目的文件夹“…

Linux命令--查找占磁盘空间最大的文件

原文网址&#xff1a;Linux命令--查找占磁盘空间最大的文件-CSDN博客 简介 本文介绍Linux怎样查找占磁盘空间最大的文件。 1.找到占空间最大的分区 命令 df -h 结果 2.查找分区里最大的文件 法1&#xff1a;直接查找最大的文件 sudo find my_folder -type f -exec du -…

LangChain-RAG学习之 LangChain框架入门

什么是LangChain LangChain是一个强大的框架&#xff0c;旨在帮助开发人员使用语言模型构建端到端的应用程序。它提供了一套工具、组件和接口&#xff0c;可简化创建由大型语言模型 (LLM) 和聊天模型提供支持的应用程序的过程。LangChain 可以轻松管理与语言模型的交互&#x…

使用FastGPT+OneAPI在本地使用Llama3

FastGPT 是一个基于 LLM 大语言模型的知识库问答系统&#xff0c;提供开箱即用的数据处理、模型调用等能力。同时可以通过 Flow 可视化进行工作流编排&#xff0c;从而实现复杂的问答场景&#xff01;他的重要特点就是工作流编排。 工作流编排&#xff1a;基于 Flow 模块的工作…

OneNote导出白色背景文件时将笔记墨迹转换颜色

今天用OneNote导出笔记时发现在文件上做的黑色墨迹笔记全部转成了白色。推测是因为onenote会根据背景色自动转换黑色和白色的墨迹&#xff0c;但是其他颜色好像导出的时候不会转换。 于是&#xff0c;我们首先要转换背景&#xff0c;将黑色背景转成白色背景&#xff0c; 然后将…

国内各种免费AI聊天机器人(ChatGPT)推荐(中)

作者主页&#xff1a;点击&#xff01; 国内免费AI推荐(ChatGPT)专栏&#xff1a;点击&#xff01; 创作时间&#xff1a;2024年4月29日15点20分 随着人工智能技术的不断发展&#xff0c;AI聊天机器人已经逐渐融入我们的日常生活。它们可以提供各种服务&#xff0c;例如聊天、…

【数据结构】链表专题2

前言 本篇博客继续探讨有关链表的专题&#xff0c;这片博客的题&#xff0c;提前打个预防针&#xff0c;有点意思哦&#xff0c;哈哈哈&#xff0c;话不多说&#xff0c;进入正文 &#x1f493; 个人主页&#xff1a;小张同学zkf ⏩ 文章专栏&#xff1a;数据结构 若有问题 评论…

【C语言】分支和循环(上)

【C语言】分支和循环&#xff08;上&#xff09; 1、if语句1.2 else1.3分支中包含多条语句1.4嵌套if1.5悬空else问题 2、关系操作符3、条件操作符4、逻辑操作符&#xff1a;与、或、非&#xff08;取反&#xff09;&#xff08;&&&#xff0c;||&#xff0c;&#xff0…
最新文章