2024年度复盘丨AI工程师阅读清单

在人工智能领域，每一天都充满了令人目不暇接的创新与突破，但如何在众多研究成果中找到对实际工程工作最有价值的资源，始终是AI从业者的一大挑战。为此，我们结合硅谷科技评论（SVTR.AI）创投库，精心策划了一份“AI工程必读文献”清单，囊括了10大热门领域的50篇高质量论文、模型和博客文章。这不仅是一份学习计划，更是一张通往技术前沿的导航图。

这份清单的设计初衷非常明确：帮助AI工程师们以最少的时间投入，获得最大化的知识增量。我们挑选的内容不仅仅代表当前领域的核心技术和趋势，更特别注重它们的工程可操作性。从LLMs到Benchmarks，从Prompting到RAG，再到生成式AI的应用领域（如CodeGen、视觉、语音和扩散模型），每一篇都经过严格筛选和注解，确保读者能够迅速掌握其关键要点，理解背后的工程价值。

以下是关于前沿大语言模型（LLMs）发展的重要论文列表，涵盖了从最早的模型到最新的趋势。这些论文和模型的选择帮助AI工程师了解行业的关键里程碑、竞争格局以及开放模型的发展路径。

在构建和评估AI模型的过程中，基准测试（Benchmarks）和评估方法（Evaluations）是不可或缺的工具。以下是2025年主流实验室和研究人员重点关注的评估基准和工具，帮助AI工程师了解性能测试中的关键领域。

MMLU（Massive Multitask Language Understanding）是主要的知识基准测试之一，与 GPQA 和 BIG-Bench 并列。这些基准测试主要用于评估模型在广泛任务中的知识覆盖范围和准确性。

2025版本包括：

MuSR 是长上下文处理评估的重要工具，与 LongBench、BABILong 和 RULER 并列。MuSR 和其他工具帮助测试模型在长文本和复杂场景下的记忆与推理能力。

关键问题：

MATH 是一个包含数学竞赛问题的基准数据集。MATH 数据集帮助评估模型的逻辑推理和精确计算能力，是前沿实验室的热门测试基准。

2025聚焦点：

IFEval 是领先的指令跟随能力评估工具，也是唯一被 Apple 采用的外部基准。IFEval 评估模型对自然语言指令的理解与执行能力，是工程应用的重要指标。

补充工具MT-Bench：作为一种间接形式的指令跟随评估。

ARC AGI 挑战是一种著名的抽象推理基准测试，通常被视为“智商测试”。这一基准测试模型在抽象推理和逻辑能力上的潜力和瓶颈。这也是OpenAI最新的o3模型测试基准。

尽管许多基准迅速饱和，但 ARC 挑战具有持久性，仍然是评估 AGI 能力的核心工具之一。

探讨私有评估（Private Evals）、竞技场评估（Arena Evals）和产品化评估（Product Evals）的重要性。

值得注意的是，所有基准测试都与其背后的数据集息息相关。例如：

在大语言模型（LLMs）中，提示设计、上下文学习（ICL, In-Context Learning）和推理链（Chain of Thought, CoT）是提升模型性能、适应不同任务的重要方法。本节整合了相关论文和资源，帮助工程师系统掌握这三大领域。

检索增强生成（RAG）是当前 AI 工程领域中重要的技术方向之一，其核心在于将信息检索（IR）的传统方法与生成式 AI 模型相结合，解决了许多生成任务中的信息准确性和覆盖性问题。本节总结了相关的重要资源和方法，帮助工程师全面理解 RAG 的技术及其实践。

智能体（Agents）是 2024 年生成式 AI 技术发展的重要领域，其核心在于赋予模型长效记忆、工具使用能力及复杂任务执行的能力。本节将整理当前顶尖的智能体设计、评估方法及其应用资源，为 AI 工程师提供系统化学习路径。

SWE-Bench 论文现已成为 Anthropic、Devin 和 OpenAI 等机构采用的高知名度智能体评估基准。起初是一个编程评估基准，但现已发展为测试智能体能力（而非单纯测试 LLM 能力）的工具。扩展版本：

开创了智能体使用工具和功能调用的研究方向，提出了 ReAct 架构。后续发展：

Nvidia 的 Voyager 论文提出了三大认知架构组件：

技能库和学习路径可被视为智能体工作流记忆的一种形式，适用于复杂任务的分解和管理。

Anthropic 的总结，这是一篇 2024 年末的优秀综述，强调以下关键要素：

扩展阅读：OpenAI 的 Swarm 架构，探讨了多智能体协作的可能性。

代码生成是大语言模型（LLMs）在实际工程领域的重要应用之一。本节汇总了与代码生成相关的核心论文、基准和工具，为 AI 工程师提供全面的学习资源和实践指导。

The Stack 论文： The Pile 的开源代码版本，专注于代码生成数据集的构建。

后续版本：The Stack v2 和 StarCoder 延续了该系列的开放代码生成工作，为研究者提供高质量的数据资源。

CriticGPT 论文：阐述了 LLM 在生成代码时可能引发的安全问题。

解决方案：

视觉领域（Vision）作为 AI 的重要分支，尽管近年来语言模型（LLM）的进展更为显著，但视觉模型（特别是多模态模型）依然占据重要地位。本节汇总视觉领域的核心工作、评估基准和前沿技术，为 AI 工程师提供学习和实践方向。

相关评估基准：

语音技术在生成式 AI 中正变得越来越重要，包括自动��音识别（ASR）和文本到语音（TTS）等领域。本节汇总语音技术的核心论文、领先模型和行业资源，为 AI 工程师提供系统化的学习方向和实践指导。

图像和视频扩散模型（Diffusion Models）是生成式 AI 在视觉内容生成中的重要技术方向。本节涵盖关键论文、前沿技术和行业资源，帮助 AI 工程师系统学习扩散模型的核心方法及其在图像和视频生成中的应用。

DALL-E / DALL-E-2 / DALL-E-3 论文：

微调是使生成式 AI 模型适应特定任务或场景的重要技术路径。本节总结当前微调的核心方法、工具和相关资源，帮助 AI 工程师掌握从基础到进阶的微调技术。

LoRA (Low-Rank Adaptation) 和 QLoRA (Quantized LoRA)：当前微调模型的事实标准，以较低成本实现高效的模型适配。

实践建议：

DPO (Direct Preference Optimization)�� 作为 PPO（Proximal Policy Optimization）的替代方法，现已被 OpenAI 用于偏好微调。

尽管效率稍逊于 PPO，但实现较为简单，是偏好驱动微调的主流选择。

ReFT (Representation Fine-Tuning)：提出一种不直接微调模型层，而是专注于特征的微调方法。

更高效地调整模型表现，特别是在资源有限的情况下。

Orca 3 和 AgentInstruct 论文：使用合成数据进行微调的典型案例。

关联资源：参阅 NeurIPS 会议的 Synthetic Data 主题，获取高质量的微调数据生成方法。

附录：50篇论文下载链接

Honorable mentions: AI2 (Olmo, Molmo, OlmOE, Tülu 3, Olmo 2), Grok, Amazon Nova, Yi, Reka, Jamba, Cohere, Nemotron, Microsoft Phi, HuggingFace SmolLM - mostly lower in ranking or lack papers. Alpaca and Vicuna are historical interest, while Mamba 1/2 and RWKV are potential future interest. If time allows, we recommend the Scaling Law literature: Kaplan, Chinchilla, Emergence / Mirage, Post-Chinchilla laws.

We covered many of these in Benchmarks 101 and Benchmarks 201, while our Carlini, LMArena, and Braintrust episodes covered private, arena, and product evals (read LLM-as-Judge and the Applied LLMs essay). Benchmarks are linked to Datasets.

Note: The GPT3 paper (“Language Models are Few-Shot Learners”) should already have introduced In-Context Learning (ICL) - a close cousin of prompting. We also consider prompt injections required knowledge — Lilian Weng, Simon W.

Section 3 is one area where reading disparate papers may not be as useful as having more practical guides - we recommend Lilian Weng, Eugene Yan, and Anthropic’s Prompt Engineering Tutorial and AI Engineer Workshop.

RAG is the bread and butter of AI Engineering at work in 2024, so there are a LOT of industry resources and practical experience you will be expected to have. LlamaIndex (course) and LangChain (video) have perhaps invested the most in educational resources. You should also be familiar with the perennial RAG vs Long Context debate.

We covered many of the 2024 SOTA agent designs at NeurIPS. Note that we skipped bikeshedding agent definitions, but if you really need one, you could use mine.

CodeGen is another field where much of the frontier has moved from research to industry and practical engineering advice on codegen and code agents like Devin are only found in industry blogposts and talks rather than research papers.

Much frontier VLM work these days is no longer published (the last we really got was GPT4V system card and derivative papers). We recommend having working experience with vision capabilities of 4o (including finetuning 4o vision), Claude 3.5 Sonnet/Haiku, Gemini 2.0 Flash, and o1. Others: Pixtral, Llama 3.2, Moondream, QVQ.

We do recommend diversifying from the big labs here for now - try Daily, Livekit, Vapi, Assembly, Deepgram, Fireworks, Cartesia, Elevenlabs etc. See the State of Voice 2024. While NotebookLM’s voice model is not public, we got the deepest description of the modeling process that we know of.

With Gemini 2.0 also being natively voice and vision multimodal, the Voice and Vision modalities are on a clear path to merging in 2025 and beyond.

We also highly recommend familiarity with ComfyUI (upcoming episode). Text Diffusion, Music Diffusion, and autoregressive image generation are niche but rising.

We recommend going thru the Unsloth notebooks and HuggingFace’s How to fine-tune open LLMs for more on the full process. This is obviously an endlessly deep rabbit hole that, at the extreme, overlaps with the Research Scientist track.