AI 论文学习
基于 31 篇经典论文的七阶段 AI 学习路径指南,帮助初学者构建系统化的理论框架
本学习手册面向 AI 初学者和爱好者,基于 31 篇人工智能领域的经典论文,构建了一个从零基础到系统掌握的学习路径。无论是计算机相关专业学生、希望转型的技术人员,还是需要梳理知识体系的研究者与产品经理,都可以借助该指南建立扎实的理论基础。
向阳乔木老师精心整理了全部论文资源,特别感谢他的分享,可在文档合集 中获取原文链接与补充材料。
适用人群
- AI 与机器学习初学者
- 希望向 AI 领域转型的工程师
- 需要系统梳理理论的研究人员
- AI 产品经理与技术决策者
学习成果
- 理解深度学习的核心概念与发展脉络
- 掌握 Transformer、大语言模型与扩散模型等前沿技术
- 建立完整的 AI 知识体系并具备阅读最新论文的能力
七阶段学习路径
阶段一:基础概念(Foundation)
阶段目标: 建立深度学习基础认知,理解词嵌入、序列模型与卷积网络。
建议时长: 2 周
论文清单
-
Efficient Estimation of Word Representations in Vector Space (Word2Vec, 2013)
- 核心要点:提出 CBOW 与 Skip-gram 模型,将词语映射到连续向量空间。
- 解决的问题:传统 one-hot 编码无法表达词语语义关系。
- 创新点:通过神经网络学习词嵌入,可捕捉 "king - man + woman ≈ queen" 等语义规律。
- 为什么重要:为现代 NLP 奠定基础。
-
Sequence to Sequence Learning with Neural Networks (Seq2Seq, 2014)
- 核心要点:使用 LSTM 构建编码器-解码器架构以处理变长序列。
- 解决的问题:如何将一个序列映射到另一长度不同的序列。
- 创新点:通过中间向量压缩源序列,再解码生成目标序列。
- 为什么重要:开启序列到序列学习范式。
-
Deep Residual Learning for Image Recognition (ResNet, 2015)
- 核心要点:引入残差连接解决深度网络退化问题。
- 公式:H(x) = F(x) + x。
- 为什么重要:残差连接成为现代网络的标准组件。
-
ImageNet Large Scale Visual Recognition Challenge (ILSVRC, 2015)
- 核心要点:介绍计算机视觉领域最重要的基准测试。
- 为什么重要:理解统一评估如何推动研究进步。
学习建议
- 聚焦词嵌入、编码器-解码器与残差连接三大概念。
- 使用 Gensim 训练 Word2Vec,并用 PyTorch 实现简单 Seq2Seq。
- 绘制 ResNet 架构,帮助理解信息流动。
- 通过里程碑问题自检:残差连接为何有效?Seq2Seq 如何工作?
阶段二:Transformer 革命(The Transformer Era)
阶段目标: 深入理解自注意力机制,掌握现代 AI 核心架构。
建议时长: 1 至 2 周
论文清单
-
Attention Is All You Need (Transformer, 2017)
- 核心要点:完全基于注意力机制的架构,抛弃 RNN 与 CNN。
- 创新点:自注意力、位置编码、多头注意力;公式 Attention(Q,K,V) = softmax(QK^T/√d_k)V。
- 为什么重要:现代模型大多以 Transformer 为基础。
-
BERT: Pre-training of Deep Bidirectional Transformers (2018)
- 核心要点:双向 Transformer 预训练与下游任务微调。
- 创新点:Masked Language Modeling 与 Next Sentence Prediction。
- 为什么重要:开创预训练-微调时代。
学习建议
- 彻底理解自注意力的计算流程,可手动推导小矩阵案例。
- 思考三个关键问题:为什么需要 Q/K/V?为何要除以 √d_k?多头注意力如何组合信息?
- 使用 Hugging Face Transformers 微调 BERT。
- 能够手绘 Transformer 架构并讲解 MLM 训练步骤。
阶段三:大语言模型基础(Large Language Models)
阶段目标: 理解规模定律、涌现能力与对齐技术。
建议时长: 2 至 3 周
论文清单
- Scaling Laws for Neural Language Models (2020):性能与参数量、数据量、计算量呈幂律关系,指导 GPT-3、GPT-4 等超大模型的训练决策。
- Language Models are Few-Shot Learners (GPT-3, 2020):1750 亿参数展示少样本能力,引出 in-context learning 与涌现现象。
- Training Compute-Optimal Large Language Models (Chinchilla, 2022):强调数据量的重要性,提出参数与 token 数的最佳匹配策略。
- Training Language Models to Follow Instructions with Human Feedback (InstructGPT/RLHF, 2022):通过监督微调、奖励模型与 PPO 三步提升模型对齐能力。
学习建议
- 建立对幂律关系的数学直觉。
- 对比 GPT-3、Chinchilla 与 InstructGPT 的训练策略。
- 在 ChatGPT API 中尝试不同提示策略体验涌现能力。
- 能够解释涌现能力与 RLHF 流程。
阶段四:扩展技术(Scaling and Efficiency)
阶段目标: 掌握训练与部署大模型的工程技术。
建议时长: 2 周
论文清单
- LoRA: Low-Rank Adaptation of Large Language Models (2021):冻结预训练权重并训练低秩矩阵,高效微调大模型。
- Distilling the Knowledge in a Neural Network (2015):通过软标签与温度系数进行知识蒸馏。
- ZeRO: Memory Optimizations Toward Training Trillion Parameter Models (2020):分区优化器状态、梯度与参数以突破显存限制。
- Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer (2017):门控激活少量专家以提升模型容量。
- Google's Neural Machine Translation System (2016):展示研究成果落地生产的工程实践。
学习建议
- 以工程视角理解论文,关注如何平衡资源与效果。
- 比较 LoRA 与全量微调、蒸馏与剪枝、MoE 与密集模型的优劣。
- 实操示例:使用 PEFT 实现 LoRA,使用 DeepSpeed 探索 ZeRO。
- 能阐述 LoRA 节省内存的方式与 ZeRO 的三个阶段。
阶段五:推理增强(Reasoning Enhancement)
阶段目标: 通过提示工程与推理框架增强 LLM 能力。
建议时长: 1 周
论文清单
- Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (CoT, 2022):在提示中加入推理步骤示例,显著提升复杂任务表现。
- ReAct: Synergizing Reasoning and Acting in Language Models (2023):交替执行思考与行动,引入 Thought、Action、Observation 循环。 18-19. Context Engineering 2.0 与 A Survey of Context Engineering:提出提示模板、上下文窗口管理与多轮对话策略。
学习建议
- 在 ChatGPT 中实际测试不同 CoT 提示。
- 对比有无 CoT 的输出差异,理解其有效性。
- 尝试 LangChain、AutoGPT 等 Agent 框架。
- 能设计有效的 CoT 提示并解释 ReAct 流程。
阶段六:多模态与扩散模型(Multimodal & Diffusion)
阶段目标: 掌握视觉语言模型与图像生成技术。
建议时长: 3 至 4 周
论文清单
- An Image is Worth 16x16 Words (ViT, 2020):将图像切片后用 Transformer 处理,统一视觉与语言架构。
- Learning Transferable Visual Models From Natural Language Supervision (CLIP, 2021):通过图像-文本对比学习实现零样本迁移。
- Deep Unsupervised Learning using Nonequilibrium Thermodynamics (2015):扩散模型的理论奠基。
- Denoising Diffusion Probabilistic Models (DDPM, 2020):提出实用化训练与采样方法。
- High-Resolution Image Synthesis with Latent Diffusion Models (Stable Diffusion, 2022):在潜在空间进行扩散,大幅降低成本。 25-26. Scalable Diffusion Models with Transformers (DiT, 2023):使用 Transformer 作为扩散模型主干。
- Two-Stream Convolutional Networks for Action Recognition in Videos (2014):通过双流网络建模视频中的时序动态。
学习建议
- 多观察生成样例,建立视觉直觉。
- 先理解扩散模型的总体流程,再深入公式。
- 使用 Stable Diffusion WebUI 或 Hugging Face Diffusers 进行实践。
- 能解释 CLIP 如何对齐视觉与语言,并描述扩散模型的正向与反向过程。
阶段七:专题与前沿(Special Topics)
阶段目标: 拓展视野,理解迁移学习与 AI 发展哲学。
建议时长: 1 至 2 周
论文清单
- One-Shot Adaptation of Supervised Deep Convolutional Models (2013):Few-shot Learning 的早期探索,强调度量学习思想。
- Feeds, Feelings, and Focus:展示 AI 在社交媒体与用户行为分析中的业务价值。
- The Bitter Lesson (2019):强调通用方法与大规模计算的重要性,是 AI 研究的重要哲学参考。
- A Note on Plane Partition Diamonds (2024):展示 AI 研究的数学基础,可作为兴趣拓展阅读。
学习建议
- 结合前面阶段的论文,思考 The Bitter Lesson 提出的观点。
- 讨论 AI 技术的伦理与社会影响。
- 总结个人学习笔记,形成知识图谱。
最后建议
- 不求一次性完全理解,先达到 70% 的掌握程度再逐步深化。
- 理论与实践结合,持续动手实验验证概念。
- 用笔记或思维导图连接不同论文与概念。
- 参与学习社区或讨论群体以获得新视角。
- 持续关注新论文与技术动态,保持好奇心与热情。
极客杰尼知识库