首页 / 科技信息 / 大语言模型LLM 的发展历程 /

大语言模型LLM 的发展历程

内容来源: 游戏站长  |   发布时间: 2026-02-28 16:28

一、LLM 的发展历程(按时代划分)

  阶段 1:统计语言模型时代(1990s–2017)

  这是 LLM 的“石器时代”,AI 不懂真正的语言,只能做数学统计。

  代表模型

  n-gram 语言模型(Google、IBM 等)

  Word2Vec(2013,Google)

  GloVe(2014,Stanford)

  RNN / LSTM / GRU 语言模型(2014–2017)

  特点

  靠概率计算词序列

  记忆短、不能长文本

  不理解上下文

  算不上“现代 LLM”

  阶段 2:预训练 + 微调时代(2018 – 2020)

  这是现代 LLM 的起点,标志性突破是Transformer 架构。

  关键论文

  2017:Attention is All You Need(Google)

  这是 LLM 的“总祖宗”。

  代表模型(按时间)

  1. ELMo(2018,AI2)

  第一个双向语言表示模型。

  2. BERT(2018,Google)

  革命性突破,理解能力极强。

  3. GPT-1(2018,OpenAI)

  首次提出“生成式预训练 + 下游微调”路线。

  4. GPT-2(2019,OpenAI)

  第一次展示长文本生成能力,震惊世界。

  5. T5(2019,Google)

  将所有任务统一为“文本到文本”。

  6. RoBERTa(2019,Meta)

  优化后的更强 BERT。

  特点

  需要针对每个任务做微调

  模型规模比以前大了 100 倍

  LLM 时代开始露出雏形

  阶段 3:大规模生成式 LLM(2020 – 2022)

  真正意义上的 LLM 时代,从 GPT-3 开始。

  代表模型

  1. GPT-3(2020,OpenAI)

  175B 参数

  少样本学习(few-shot learning)出现

  第一款真正意义的大型语言模型

  2. GPT-J / GPT-NeoX(EleutherAI)

  开源替代 GPT-3 的路线

  3. PaLM(2022,Google)

  540B 参数

  多语言、多任务能力增强

  4. BLOOM(2022,HuggingFace)

  大型开源 LLM

  特点

  模型规模爆炸式增长

  不需要微调,也能完成任务

  AI 开始具备“泛化能力”

  阶段 4:对齐训练 + RLHF + ChatGPT 时代(2022 – 至今)

  这是 LLM 的“普及时代”。

  代表模型

  1. ChatGPT(GPT-3.5 + RLHF)(2022,OpenAI)

  人类反馈强化学习(RLHF)

  AI 第一次可以自然对话

  全球普及

  2. GPT-4(2023,OpenAI)

  逻辑、推理、安全性全面升级

  成为最强商用模型之一

  3. Claude(Anthropic)

  更安全的对齐技术(Constitutional AI)

  4. Google Gemini(2023–2024,Google)

  多模态能力极强

  强调跨文本、图像、音频的统一模型

  5. Llama 系列(Meta,2023–2024)

  开源革命

  让整个行业进入大模型民主化时代

  6. DeepSeek(2024–2025,中国)

  性价比和性能突破

  强调高效训练与推理技术

  特点

  AI 第一次变成人类可使用的工具

  对齐技术的成熟(AI 更听话、更安全)

  模型多模态化

  阶段 5:多模态统一 + Agent + 推理增强(2024 – 未来)

  这是现在正在发生的阶段。

  代表方向与模型

  GPT-5(OpenAI,预计 2025)

  Gemini Ultra 系列(Google)

  Claude 3 家族(Anthropic)

  多 Agent 系统(AutoGPT、DevIn 等)

  R1 / DeepSeek R1 系列(中国)

  大规模推理模型(Reasoning LLM)

  特点

  AI 具备自主推理能力

  多模态统一(文字、图像、视频、音频全部打通)

  Agent 能自动执行任务

  更接近“通用人工智能 AGI”

相关文章

  • AI时代,GEO的探索、痛点和方法

    内容来源: 游戏站长  |   发布时间: 2026-02-28

    随着ChatGPT等生成式AI工具的崛起,用户获取信息的入口正在发生颠覆性变革。一个全新的战场—生成式引擎优化(GEO),已然成为所有希望在AI时代保持品牌竞争力的企业必须面对的核心议题。  《AI 透镜研究》系列,是一枚多层镀膜的认知镜头,对准飞速演化的人工智能现场:探究融资背后的产品真实价值、追踪调研AI公司的组织创新变革、记录和放大人与AI的协作实践。从新的镜头看见 AI 细节与趋势

  • 大模型背后的“新搜索”生意,水有多深

    内容来源: 游戏站长  |   发布时间: 2026-02-28

    “我们做了这么多品牌相关的内容,怎么才能在大模型的回答中被展示出来?”  近期,这个问题成为很多企业老板给营销部门定下的KPI,也就是“怎么做GEO”。  十多年前,老板们曾最关心的是“怎么做SEO”。这个微妙的变化,折射出一个现象:搜索引擎的“权力中心”正逐步从传统的网页索引向生成式AI模型迁移。  Similarweb显示, 2025 年 7 月chatgpt . com 的月访问量约 57

  • 传统搜索、AI搜索、以及GEO

    内容来源: 游戏站长  |   发布时间: 2026-02-28

    在当下所有通用AI对话产品的界面上,”联网搜索”已成为标配功能。  这个看似简单的按钮背后,隐藏着大模型连接现实世界的密钥——没有实时信息获取能力,再强大的AI模型也只能是知识停留在训练截止日的”数字化石”。  鲜为人知的是,目前国内超过60%的AI应用,包括DeepSeek的C端应用,联网搜索能力是通过集成博查AI的Search API实现的。  大模型需要通过这类API

  • LLM 是什么,与RAG的关系

    内容来源: 游戏站长  |   发布时间: 2026-02-28

    一、LLM 的科学解释  LLM(Large Language Model,大型语言模型)是一类基于深度学习 Transformer 架构的超大规模参数模型,通过在海量语料上训练,学习语言的统计结构,从而具备自然语言理解与生成能力。  其核心科学特征包括:  超大参数规模  通常拥有 数十亿—万亿级参数,通过这些参数存储语言模式和世界知识。  基于 Transformer  依赖

  • 检索增强生成RAG 的科学解释

    内容来源: 游戏站长  |   发布时间: 2026-02-28

    RAG 的科学解释(Retrieval-Augmented Generation)  RAG(检索增强生成)是一种将信息检索(Retrieval)与生成式模型(Generation)结合的混合式架构。  其核心思想是:  在大型语言模型生成答案之前,先从外部知识库中检索与问题相关的文档,把这些真实文档作为上下文输入,再由模型进行生成。  因此,RAG 的输出 = 模型自身知识 +

  • 西部数码网站管理助手

    内容来源: 游戏站长  |   发布时间: 2026-03-01

    当前版本:V4.301 (2020-7-21升级版)  运行平台:Win2003(32位)、Win2008/Win2012/win2016/win2019(64位)  适用范围:拥有云主机同时又缺乏管理技术的站长、拥有多个网站的服务器管理员  软件性质:共享软件,未注册前能管理2个网站;  注册版不限网站个数:1800元/ip/年,使用西部数码云主机/VPS免费赠送该软件