AI 论文学习

基于 31 篇经典论文的七阶段 AI 学习路径指南，帮助初学者构建系统化的理论框架

本学习手册面向 AI 初学者和爱好者，基于 31 篇人工智能领域的经典论文，构建了一个从零基础到系统掌握的学习路径。无论是计算机相关专业学生、希望转型的技术人员，还是需要梳理知识体系的研究者与产品经理，都可以借助该指南建立扎实的理论基础。

向阳乔木老师精心整理了全部论文资源，特别感谢他的分享，可在文档合集中获取原文链接与补充材料。

适用人群

AI 与机器学习初学者
希望向 AI 领域转型的工程师
需要系统梳理理论的研究人员
AI 产品经理与技术决策者

学习成果

理解深度学习的核心概念与发展脉络
掌握 Transformer、大语言模型与扩散模型等前沿技术
建立完整的 AI 知识体系并具备阅读最新论文的能力

七阶段学习路径

阶段一：基础概念（Foundation）

阶段目标： 建立深度学习基础认知，理解词嵌入、序列模型与卷积网络。
建议时长： 2 周

论文清单

Efficient Estimation of Word Representations in Vector Space (Word2Vec, 2013)
- 核心要点：提出 CBOW 与 Skip-gram 模型，将词语映射到连续向量空间。
- 解决的问题：传统 one-hot 编码无法表达词语语义关系。
- 创新点：通过神经网络学习词嵌入，可捕捉 "king - man + woman ≈ queen" 等语义规律。
- 为什么重要：为现代 NLP 奠定基础。
Sequence to Sequence Learning with Neural Networks (Seq2Seq, 2014)
- 核心要点：使用 LSTM 构建编码器-解码器架构以处理变长序列。
- 解决的问题：如何将一个序列映射到另一长度不同的序列。
- 创新点：通过中间向量压缩源序列，再解码生成目标序列。
- 为什么重要：开启序列到序列学习范式。
Deep Residual Learning for Image Recognition (ResNet, 2015)
- 核心要点：引入残差连接解决深度网络退化问题。
- 公式：H(x) = F(x) + x。
- 为什么重要：残差连接成为现代网络的标准组件。
ImageNet Large Scale Visual Recognition Challenge (ILSVRC, 2015)
- 核心要点：介绍计算机视觉领域最重要的基准测试。
- 为什么重要：理解统一评估如何推动研究进步。

学习建议

聚焦词嵌入、编码器-解码器与残差连接三大概念。
使用 Gensim 训练 Word2Vec，并用 PyTorch 实现简单 Seq2Seq。
绘制 ResNet 架构，帮助理解信息流动。
通过里程碑问题自检：残差连接为何有效？Seq2Seq 如何工作？

阶段二：Transformer 革命（The Transformer Era）

阶段目标： 深入理解自注意力机制，掌握现代 AI 核心架构。
建议时长： 1 至 2 周

论文清单

Attention Is All You Need (Transformer, 2017)
- 核心要点：完全基于注意力机制的架构，抛弃 RNN 与 CNN。
- 创新点：自注意力、位置编码、多头注意力；公式 Attention(Q,K,V) = softmax(QK^T/√d_k)V。
- 为什么重要：现代模型大多以 Transformer 为基础。
BERT: Pre-training of Deep Bidirectional Transformers (2018)
- 核心要点：双向 Transformer 预训练与下游任务微调。
- 创新点：Masked Language Modeling 与 Next Sentence Prediction。
- 为什么重要：开创预训练-微调时代。

学习建议

彻底理解自注意力的计算流程，可手动推导小矩阵案例。
思考三个关键问题：为什么需要 Q/K/V？为何要除以 √d_k？多头注意力如何组合信息？
使用 Hugging Face Transformers 微调 BERT。
能够手绘 Transformer 架构并讲解 MLM 训练步骤。

阶段三：大语言模型基础（Large Language Models）

阶段目标： 理解规模定律、涌现能力与对齐技术。
建议时长： 2 至 3 周

论文清单

Scaling Laws for Neural Language Models (2020)：性能与参数量、数据量、计算量呈幂律关系，指导 GPT-3、GPT-4 等超大模型的训练决策。
Language Models are Few-Shot Learners (GPT-3, 2020)：1750 亿参数展示少样本能力，引出 in-context learning 与涌现现象。
Training Compute-Optimal Large Language Models (Chinchilla, 2022)：强调数据量的重要性，提出参数与 token 数的最佳匹配策略。
Training Language Models to Follow Instructions with Human Feedback (InstructGPT/RLHF, 2022)：通过监督微调、奖励模型与 PPO 三步提升模型对齐能力。

学习建议

建立对幂律关系的数学直觉。
对比 GPT-3、Chinchilla 与 InstructGPT 的训练策略。
在 ChatGPT API 中尝试不同提示策略体验涌现能力。
能够解释涌现能力与 RLHF 流程。

阶段四：扩展技术（Scaling and Efficiency）

阶段目标： 掌握训练与部署大模型的工程技术。
建议时长： 2 周

论文清单

LoRA: Low-Rank Adaptation of Large Language Models (2021)：冻结预训练权重并训练低秩矩阵，高效微调大模型。
Distilling the Knowledge in a Neural Network (2015)：通过软标签与温度系数进行知识蒸馏。
ZeRO: Memory Optimizations Toward Training Trillion Parameter Models (2020)：分区优化器状态、梯度与参数以突破显存限制。
Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer (2017)：门控激活少量专家以提升模型容量。
Google's Neural Machine Translation System (2016)：展示研究成果落地生产的工程实践。

学习建议

以工程视角理解论文，关注如何平衡资源与效果。
比较 LoRA 与全量微调、蒸馏与剪枝、MoE 与密集模型的优劣。
实操示例：使用 PEFT 实现 LoRA，使用 DeepSpeed 探索 ZeRO。
能阐述 LoRA 节省内存的方式与 ZeRO 的三个阶段。

阶段五：推理增强（Reasoning Enhancement）

阶段目标： 通过提示工程与推理框架增强 LLM 能力。
建议时长： 1 周

论文清单

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (CoT, 2022)：在提示中加入推理步骤示例，显著提升复杂任务表现。
ReAct: Synergizing Reasoning and Acting in Language Models (2023)：交替执行思考与行动，引入 Thought、Action、Observation 循环。 18-19. Context Engineering 2.0 与 A Survey of Context Engineering：提出提示模板、上下文窗口管理与多轮对话策略。

学习建议

在 ChatGPT 中实际测试不同 CoT 提示。
对比有无 CoT 的输出差异，理解其有效性。
尝试 LangChain、AutoGPT 等 Agent 框架。
能设计有效的 CoT 提示并解释 ReAct 流程。

阶段六：多模态与扩散模型（Multimodal & Diffusion）

阶段目标： 掌握视觉语言模型与图像生成技术。
建议时长： 3 至 4 周

论文清单

An Image is Worth 16x16 Words (ViT, 2020)：将图像切片后用 Transformer 处理，统一视觉与语言架构。
Learning Transferable Visual Models From Natural Language Supervision (CLIP, 2021)：通过图像-文本对比学习实现零样本迁移。
Deep Unsupervised Learning using Nonequilibrium Thermodynamics (2015)：扩散模型的理论奠基。
Denoising Diffusion Probabilistic Models (DDPM, 2020)：提出实用化训练与采样方法。
High-Resolution Image Synthesis with Latent Diffusion Models (Stable Diffusion, 2022)：在潜在空间进行扩散，大幅降低成本。 25-26. Scalable Diffusion Models with Transformers (DiT, 2023)：使用 Transformer 作为扩散模型主干。
Two-Stream Convolutional Networks for Action Recognition in Videos (2014)：通过双流网络建模视频中的时序动态。

学习建议

多观察生成样例，建立视觉直觉。
先理解扩散模型的总体流程，再深入公式。
使用 Stable Diffusion WebUI 或 Hugging Face Diffusers 进行实践。
能解释 CLIP 如何对齐视觉与语言，并描述扩散模型的正向与反向过程。

阶段七：专题与前沿（Special Topics）

阶段目标： 拓展视野，理解迁移学习与 AI 发展哲学。
建议时长： 1 至 2 周

论文清单

One-Shot Adaptation of Supervised Deep Convolutional Models (2013)：Few-shot Learning 的早期探索，强调度量学习思想。
Feeds, Feelings, and Focus：展示 AI 在社交媒体与用户行为分析中的业务价值。
The Bitter Lesson (2019)：强调通用方法与大规模计算的重要性，是 AI 研究的重要哲学参考。
A Note on Plane Partition Diamonds (2024)：展示 AI 研究的数学基础，可作为兴趣拓展阅读。

学习建议

结合前面阶段的论文，思考 The Bitter Lesson 提出的观点。
讨论 AI 技术的伦理与社会影响。
总结个人学习笔记，形成知识图谱。

最后建议

不求一次性完全理解，先达到 70% 的掌握程度再逐步深化。
理论与实践结合，持续动手实验验证概念。
用笔记或思维导图连接不同论文与概念。
参与学习社区或讨论群体以获得新视角。
持续关注新论文与技术动态，保持好奇心与热情。

目录