mobile wallpaper 1mobile wallpaper 2mobile wallpaper 3mobile wallpaper 4
19494 字
54 分钟
机器学习与 AI 系列参考资料总索引
2025-07-29

说明#

这份索引整理了两部分内容:

  • src/data/blog/zh/machine-learning 下各系列文章中出现的显式参考资料、参考资源、外部资源,以及少量承担关键论证作用的正文外链
  • 参考系列 AI 是怎么回事 16 篇文章中的主要参考资料与关键外部链接

这不是标准学术参考文献格式,而是一份面向技术写作者和知识库维护者的 来源地图。每一项尽量包含:

  • 来源名称
  • URL
  • 来源类型
  • 来源所在文章
  • 1-3 句概述:它讲什么、为什么重要、在文章里承担什么作用

来源类型说明#

  • 论文:原始研究论文、技术报告、系统综述
  • 官方文档:API 文档、模型文档、SDK 文档、规范文档
  • 官方博客/公告:厂商公告、研究博客、发布说明
  • 代码仓库:GitHub 仓库、示例项目、实现代码
  • 数据集/基准:benchmark、leaderboard、数据集官网
  • 教程/课程:解释型长文、课程页面、可视化教程
  • 新闻报道:媒体报道、案例追踪、事件复盘
  • 机构报告/政策:标准、法规、行业报告、安全指南
  • 百科/维基:Wikipedia 等背景资料页

第一部分:本地 machine-learning 目录参考资料索引#

0.1 总览与 README#

00-系列导读.md#

  • OpenAI API 文档

    • URL: https://platform.openai.com/docs
    • 类型:官方文档
    • 概述:作为整套学习路线的 API 入门入口,支撑“从模型调用到应用开发”的实践方向。
  • Anthropic Claude 文档

    • URL: https://docs.anthropic.com/
    • 类型:官方文档
    • 概述:为 Claude 模型、工具调用和 Agent 能力提供官方来源,是多模型对比时的重要基线。
  • Google Gemini 文档

    • URL: https://ai.google.dev/docs
    • 类型:官方文档
    • 概述:补足 Gemini 模型在多模态、上下文窗口和 API 使用上的官方信息。
  • LangChain 文档

    • URL: https://python.langchain.com/
    • 类型:官方文档
    • 时间:持续更新
    • 层次:L4-知识与工具层
    • 机制:工具调用机制、检索机制
    • Tags: topic:agent topic:rag layer:knowledge mechanism:tool-use mechanism:retrieval type:doc status:engineering
    • 概述:承接路线图中 RAG、Agent、应用开发的工程部分,是框架层的重要实践入口。
  • Hugging Face 文档

    • URL: https://huggingface.co/docs
    • 类型:官方文档
    • 概述:作为模型、数据集和推理部署生态的总入口,适合做更深入的工具链延伸阅读。
  • Attention Is All You Need

    • URL: https://arxiv.org/abs/1706.03762
    • 类型:论文
    • 时间:2017
    • 层次:L1-模型机制层
    • 机制:注意力机制、架构机制
    • Tags: topic:architecture topic:transformer layer:model mechanism:attention mechanism:architecture type:paper time:2017 status:foundational
    • 概述:Transformer 开山之作,也是整个 LLM 学习路线最重要的原点之一。
  • GPT-3

    • URL: https://arxiv.org/abs/2005.14165
    • 类型:论文
    • 时间:2020
    • 层次:L0-范式层
    • 机制:架构机制
    • Tags: topic:transformer topic:inference layer:paradigm mechanism:architecture type:paper time:2020 status:foundational
    • 概述:用来说明 few-shot learning 与大规模预训练如何推动通用大模型进入主流。
  • InstructGPT

    • URL: https://arxiv.org/abs/2203.02155
    • 类型:论文
    • 时间:2022
    • 层次:L2-训练与对齐层
    • 机制:对齐机制
    • Tags: topic:alignment topic:rlhf layer:training mechanism:alignment type:paper time:2022 status:foundational
    • 概述:解释“从会续写到会听指令”的关键转折,是 RLHF 进入产品化的代表作。
  • Chain of Thought

    • URL: https://arxiv.org/abs/2201.11903
    • 类型:论文
    • 时间:2022
    • 层次:L3-推理与解码层
    • 机制:推理机制
    • Tags: topic:reasoning topic:cot layer:inference mechanism:reasoning type:paper time:2022 status:foundational
    • 概述:是推理增强路线的代表论文,为后续 Prompt、推理模型和 Agent 奠定背景。
  • DeepSeek R1

    • URL: https://arxiv.org/abs/2501.12948
    • 类型:论文
    • 时间:2025 Q1
    • 层次:L2-训练与对齐层
    • 机制:对齐机制、推理机制
    • Tags: topic:reasoning topic:alignment layer:training mechanism:alignment mechanism:reasoning type:paper time:2025Q1 status:frontier
    • 概述:作为开源推理模型的代表,为这套目录补上近年的重要技术节点。
  • The Illustrated Transformer

  • Attention? Attention!

  • Stanford CS224N

  • Fast.ai

    • URL: https://www.fast.ai/
    • 类型:课程
    • 概述:补充偏实践导向的机器学习学习路径,适合与论文和官方文档形成互补。
  • LangChain

    • URL: https://github.com/langchain-ai/langchain
    • 类型:代码仓库
    • 时间:2022-2026
    • 层次:L4-知识与工具层
    • 机制:工具调用机制、检索机制
    • Tags: topic:agent topic:rag layer:knowledge mechanism:tool-use mechanism:retrieval type:repo status:engineering
    • 概述:LLM 应用开发框架的代表仓库,承接应用开发和 Agent 系列的工程实践。
  • AutoGen

  • LlamaIndex

    • URL: https://github.com/run-llama/llama_index
    • 类型:代码仓库
    • 时间:2023-2026
    • 层次:L4-知识与工具层
    • 机制:检索机制、索引机制
    • Tags: topic:rag topic:retrieval layer:knowledge mechanism:retrieval mechanism:indexing type:repo status:engineering
    • 概述:RAG 和文档索引方向的代表框架,是知识增强应用的高频基础设施。
  • Hugging Face Transformers

agent-guide/00-系列导读.md#

  • OpenAI Agents SDK

    • URL: https://openai.github.io/openai-agents-python/
    • 类型:官方文档
    • 时间:2025-2026
    • 层次:L4-知识与工具层
    • 机制:工具调用机制、环境交互机制
    • Tags: topic:agent topic:tool-use layer:knowledge mechanism:tool-use mechanism:environment-interaction type:doc status:engineering
    • 概述:作为 Agent SDK 与 handoff 能力的直接参考,帮助读者理解现代 Agent 工程接口。
  • LangChain Agents

  • AutoGen 文档

  • CrewAI 文档

    • URL: https://docs.crewai.com/
    • 类型:官方文档
    • 概述:强调 role-based 的团队式 Agent 设计,在多角色协作场景下很有代表性。
  • MCP SDK

    • URL: https://modelcontextprotocol.io/
    • 类型:官方文档
    • 时间:2024-2026
    • 层次:L4-知识与工具层
    • 机制:协议机制
    • Tags: topic:mcp topic:agent layer:knowledge mechanism:protocol type:doc time:2025 status:foundational
    • 概述:作为 MCP 协议入口,支撑“标准化工具接入”这一核心工程主题。
  • ReAct

    • URL: https://arxiv.org/abs/2210.03629
    • 类型:论文
    • 时间:2022
    • 层次:L3-推理与解码层
    • 机制:推理机制、工具调用机制
    • Tags: topic:reasoning topic:agent layer:inference mechanism:reasoning mechanism:tool-use type:paper time:2022 status:foundational
    • 概述:整套 Agent 指南最核心的方法论来源,定义了“推理 + 行动”的基本闭环。
  • Generative Agents

    • URL: https://arxiv.org/abs/2304.03442
    • 类型:论文
    • 时间:2023
    • 层次:L4-知识与工具层
    • 机制:记忆机制、Agent 机制
    • Tags: topic:agent topic:memory layer:knowledge mechanism:memory mechanism:agent type:paper time:2023 status:foundational
    • 概述:为记忆、反思和虚拟社会行为提供经典案例,是 Agent 研究中的高辨识度论文。
  • Attention Residuals

  • DeepSeek-R1

    • URL: https://arxiv.org/abs/2501.12948
    • 类型:论文
    • 概述:体现了推理模型如何影响 Agent 设计和执行能力,是应用层和模型层的连接点。
  • MRKL Systems

    • URL: https://arxiv.org/abs/2205.00445
    • 类型:论文
    • 时间:2022
    • 层次:L4-知识与工具层
    • 机制:工具调用机制、模块化机制
    • Tags: topic:agent topic:tool-use layer:knowledge mechanism:tool-use mechanism:modularity type:paper time:2022 status:foundational
    • 概述:把 LLM 与工具系统的组合上升为模块化神经符号架构,是 Tool Use 和 Agent 设计的思想前身。
  • LangChain

  • AutoGen

  • CrewAI

  • Attention-Residuals (Kimi)

  • Kimi 发布 Attention Residuals:颠覆十年残差连接

  • OpenAI o3 发布公告

  • Anthropic Claude 4 发布

  • Google Gemini 2.0 发布

  • DeepSeek R1 开源公告

llm-paper-history/00-系列导读.md#

llm-security/00-系列导读.md#

  • GCG: Greedy Coordinate Gradient

  • Prompt Injection Attacks

    • URL: https://www.jailbreaksearch.com/
    • 类型:案例库/安全站点
    • 概述:汇集越狱与注入攻击样例,帮助读者理解攻击面是如何演化和传播的。
  • Cursor Security Advisory

    • URL: https://cursor.sh/security
    • 类型:官方文档
    • 概述:把安全话题从论文攻击带入真实产品漏洞与安全通告层面。

llm/index.md#

0.2 llm-guide#

llm-guide/01-ai-history.md#

llm-guide/02-how-llm-works.md#

  • Attention Is All You Need

  • Tokenizer Tool

  • The Illustrated Transformer

  • The Curious Case of Neural Text Degeneration

  • FlashAttention

    • URL: https://arxiv.org/abs/2205.14135
    • 类型:论文
    • 概述:把“模型原理”延伸到“推理优化”,帮助读者理解现代大模型为什么能更高效运行。
  • Fast Inference from Transformers via Speculative Decoding

    • URL: https://arxiv.org/abs/2211.17192
    • 类型:论文
    • 概述:作为推测解码起点,用于说明大模型生成速度并非只能靠更强硬件提升。
  • LLM.int8()

llm-guide/03-choose-model.md#

llm-guide/04-prompt-engineering.md#

llm-guide/05-rag.md#

llm-guide/06-function-calling.md#

  • OpenAI Function Calling 文档

    • URL: https://platform.openai.com/docs/guides/function-calling
    • 类型:官方文档
    • 时间:持续更新
    • 层次:L4-知识与工具层
    • 机制:工具调用机制
    • Tags: topic:tool-use layer:knowledge mechanism:tool-use type:doc status:engineering
    • 概述:定义模型如何通过结构化参数调用函数,是工具调用章节的核心来源。
  • Anthropic Tool Use 文档

    • URL: https://docs.anthropic.com/en/docs/build-with-claude/tool-use
    • 类型:官方文档
    • 时间:持续更新
    • 层次:L4-知识与工具层
    • 机制:工具调用机制
    • Tags: topic:tool-use layer:knowledge mechanism:tool-use type:doc status:engineering
    • 概述:作为 Tool Use 方向的官方实现文档,与 OpenAI 路线形成对照。
  • Anthropic Computer Use

    • URL: https://docs.anthropic.com/en/docs/agents-and-tools/computer-use
    • 类型:官方文档
    • 时间:2025
    • 层次:L4-知识与工具层
    • 机制:工具调用机制、环境交互机制
    • Tags: topic:agent topic:computer-use layer:knowledge mechanism:tool-use mechanism:environment-interaction type:doc time:2025 status:frontier
    • 概述:把工具调用扩展到 GUI 操作层,代表工具使用能力的新边界。
  • MCP 官方文档

    • URL: https://modelcontextprotocol.io/
    • 类型:官方文档
    • 时间:2024-2026
    • 层次:L4-知识与工具层
    • 机制:协议机制
    • Tags: topic:mcp topic:agent layer:knowledge mechanism:protocol type:doc time:2025 status:foundational
    • 概述:说明工具接入进一步标准化后的协议方向。

llm-guide/07-ai-agent.md#

llm-guide/08-memory-mcp-ecosystem.md#

  • MemGPT: Towards LLMs as Operating Systems

  • MCP 官方文档

  • A2A Protocol

    • URL: https://google.github.io/A2A/
    • 类型:官方文档
    • 概述:扩展生态层的通信视角,说明未来不仅是工具接入,还有 Agent 互联。
  • DPO

  • EU AI Act

llm-guide/09-ai-programming.md#

llm-guide/10-build-ai-app.md#

llm-guide/11-fine-tuning.md#

  • LoRA

    • URL: https://arxiv.org/abs/2106.09685
    • 类型:论文
    • 时间:2021
    • 层次:L2-训练与对齐层
    • 机制:微调机制
    • Tags: topic:finetuning topic:lora layer:training mechanism:finetuning type:paper time:2021 status:foundational
    • 概述:参数高效微调的经典方法,是整篇微调文章的理论支点。
  • QLoRA

    • URL: https://arxiv.org/abs/2305.14314
    • 类型:论文
    • 时间:2023
    • 层次:L2-训练与对齐层
    • 机制:微调机制、量化机制
    • Tags: topic:finetuning topic:qlora layer:training mechanism:finetuning mechanism:quantization type:paper time:2023 status:foundational
    • 概述:说明在有限显存环境下微调大模型的可行路线。
  • DPO

    • URL: https://arxiv.org/abs/2305.18290
    • 类型:论文
    • 时间:2023
    • 层次:L2-训练与对齐层
    • 机制:对齐机制
    • Tags: topic:alignment topic:dpo layer:training mechanism:alignment type:paper time:2023 status:foundational
    • 概述:为偏好优化和对齐方法部分提供更简洁的训练范式。
  • Axolotl

  • LLaMA-Factory

  • Unsloth

  • OpenAI Fine-tuning 文档

0.3 agent-guide#

agent-guide/14-Agent架构模式.md#

agent-guide/15-Agent评估体系.md#

  • GAIA Benchmark

  • API-Bank

  • AgentBench

    • URL: https://arxiv.org/abs/2308.03688
    • 类型:论文
    • 概述:这里改为 AgentBench 论文入口,用来补齐早期体系化 Agent 评测的代表来源,避免保留无效链接。

agent-guide/16-Agent可观测性与调试.md#

  • LangSmith

  • Langfuse

    • URL: https://langfuse.com
    • 类型:官方文档
    • 概述:适合做开源、可自部署的可观测性方案。
  • OpenTelemetry for AI

    • URL: https://opentelemetry.io
    • 类型:官方文档
    • 概述:说明 AI 应用也可以接入通用可观测规范,而不是只能依赖专有平台。

agent-guide/17-Agent成本优化.md#

agent-guide/18-Agent可靠性设计.md#

agent-guide/19-Agent测试策略.md#

agent-guide/20-Agent安全防御.md#

0.4 llm-paper-history#

llm-paper-history/24-SpeculativeDecoding推理加速.md#

llm-paper-history/25-T5与FLAN指令微调.md#

llm-paper-history/26-Qwen与InternLM开源模型.md#

llm-paper-history/27-PaLM2技术报告.md#

llm-paper-history/28-AlphaCode编程竞赛.md#

llm-paper-history/29-Mistral7B小而美.md#

llm-paper-history/30-Grok与LLaMA3开源新星.md#

  • LLaMA 3 论文

  • Command R 技术报告

  • Grok-1 公告

    • URL: https://x.ai/grok-1
    • 类型:官方博客/公告
    • 概述:对应 xAI 路线的公开发布入口。

llm-paper-history/31-RAG与LongContext知识增强.md#

llm-paper-history/32-o1o3推理时代.md#

llm-paper-history/33-PromptEngineering提示工程.md#

0.5 llm-security#

llm-security/01-提示注入与越狱攻击.md#

  • Prompt Injection Attacks

llm-security/02-系统提示词泄露与数据提取.md#

  • Cursor Security Advisory
    • URL: https://cursor.sh/security
    • 类型:官方文档
    • 概述:适合补充现代 AI 工具在系统提示与权限边界上的现实风险。

llm-security/03-代码执行与基础设施攻击.md#

  • Cursor Security Advisory
    • URL: https://cursor.sh/security
    • 类型:官方文档
    • 概述:作为产品级漏洞例子,说明代码代理场景的攻击后果更接近传统安全问题。

llm-security/04-对抗性自动化攻击.md#

llm-security/05-数据泄露与供应链攻击.md#

  • Cursor Security Advisory

llm-security/06-特定领域高危漏洞.md#

llm-security/07-AI驱动的自动化攻击.md#

  • Prompt Injection Attacks

0.6 llm 旧系列#

llm/004-calculate-llm-cost.md#

llm/005-master-prompt-engineering.md#

  • Learn Prompting
    • URL: https://learnprompting.org/
    • 类型:教程/课程
    • 概述:较系统的提示工程学习站点,适合作为入门和练习材料。

llm/006-rag-knowledge-injection.md#

llm/009-boost-dev-efficiency.md#

llm/010-build-ai-application.md#

0.7 独立文章#

ai-vup.md#

machine-learning-101.md#

  • scikit-learn 官网
    • URL: https://scikit-learn.org/stable/
    • 类型:官方文档
    • 概述:作为传统机器学习实战工具链的权威入口,适合做进一步练习与项目实验。

ML系统设计.md#

  • 未发现显式 参考资料 区或稳定外部链接。
    • 概述:这篇文章更偏内部方法总结和架构梳理,不以外部资料为主要论证方式。后续如果要长期维护,建议补上特征存储、模型注册、监控、漂移检测等方向的官方与开源参考链接。

第二部分:AI 是怎么回事 系列参考资料索引#

0.8 第 1 篇:AI 到底聪明在哪——从手机人脸识别说起#

  • Sobel operator - Wikipedia

    • URL: https://en.wikipedia.org/wiki/Sobel_operator
    • 类型:百科/维基
    • 概述:用于说明 Sobel 算子这一经典边缘检测方法的历史来源和基本定位,支撑文章从“边缘检测”切入解释计算机视觉。
  • Artificial neuron - Wikipedia

  • ImageNet Classification with Deep Convolutional Neural Networks

  • AlexNet - Wikipedia

  • FaceNet

    • URL: https://arxiv.org/abs/1503.03832
    • 类型:论文
    • 时间:2015
    • 层次:L1-模型机制层
    • 机制:架构机制
    • Tags: topic:architecture layer:model mechanism:architecture type:paper time:2015 status:foundational
    • 概述:作为人脸识别代表工作,用来说明“人脸向量”与高准确率识别的关系。
  • LFW

    • URL: https://vis-www.cs.umass.edu/lfw/
    • 类型:数据集/基准
    • 时间:2007
    • 层次:L5-系统工程层
    • 机制:评测机制
    • Tags: topic:eval layer:system mechanism:evaluation type:benchmark time:2007 status:foundational
    • 概述:给出人脸识别测试集的权威出处,支撑 FaceNet 在真实数据上的效果描述。
  • Learning representations by back-propagating errors

    • URL: https://www.nature.com/articles/323533a0
    • 类型:论文
    • 时间:1986
    • 层次:L2-训练与对齐层
    • 机制:对齐机制
    • Tags: topic:architecture layer:training mechanism:alignment type:paper time:1986 status:foundational
    • 概述:作为反向传播奠基论文,支撑文章对“模型如何学习”的解释。
  • ImageNet: A Large-Scale Hierarchical Image Database

    • URL: https://www.image-net.org/static_files/papers/imagenet_cvpr09.pdf
    • 类型:论文
    • 时间:2009
    • 层次:L5-系统工程层
    • 机制:评测机制
    • Tags: topic:eval layer:system mechanism:evaluation type:paper time:2009 status:foundational
    • 概述:为海量标注数据在视觉突破中的作用提供正式学术来源。
  • The data that transformed AI research — and possibly the world

  • Large-scale Deep Unsupervised Learning using Graphics Processors

  • NVIDIA GeForce GTX 580 - VideoCardz

0.9 第 2 篇:AI 怎么读懂文字——国王减去男人等于什么#

0.10 第 3 篇:AI 是怎么突然变厉害的——2012 所有人以为他们作弊了#

0.11 第 4 篇:神经网络到底是什么——6000 万个旋钮的真相#

0.12 第 5 篇:AI 是怎么学会的——从做错一道题说起#

0.13 第 6 篇:ChatGPT 为什么能对话——一篇引用 17 万次的论文#

0.14 第 7 篇:AI 为什么会撒谎——一个律师被 ChatGPT 骗了#

0.15 第 8 篇:ChatGPT 回答你的三秒钟里,发生了什么?#

  • 前 1-7 篇文章站内交叉引用
    • 类型:站内交叉引用
    • 概述:这篇文章本身几乎不新增外部来源,而是综合前 1-7 篇已经建立的来源体系,完成第一章的总收束。

0.16 第 9 篇:AI 到底有多聪明?——一份让 AI 研究者也困惑的成绩单#

  • GPT-4 Technical Report

    • URL: https://openai.com/index/gpt-4-research/
    • 类型:官方博客/公告
    • 时间:2023
    • 层次:L0-范式层
    • 机制:架构机制
    • Tags: topic:architecture topic:reasoning layer:paradigm mechanism:architecture type:doc time:2023 status:foundational
    • 概述:用作 GPT-4 在标准化考试中表现的官方来源,是“高分表现”部分的核心证据。
  • Introducing GPT-5.2

  • GSM-Symbolic

    • URL: https://machinelearning.apple.com/research/gsm-symbolic
    • 类型:官方博客/公告
    • 时间:2025
    • 层次:L5-系统工程层
    • 机制:评测机制、推理机制
    • Tags: topic:reasoning topic:eval layer:system mechanism:evaluation mechanism:reasoning type:paper time:2025 status:frontier
    • 概述:用来说明模型可能是在匹配题型,而不是真正掌握推理规则。
  • The Illusion of Thinking

    • URL: https://machinelearning.apple.com/research/illusion-of-thinking
    • 类型:官方博客/公告
    • 时间:2025
    • 层次:L5-系统工程层
    • 机制:评测机制、推理机制
    • Tags: topic:reasoning topic:eval layer:system mechanism:evaluation mechanism:reasoning type:paper time:2025 status:frontier
    • 概述:支撑“复杂度稍高就崩溃”的批判性论证,是这一篇的关键反例来源。
  • ARC Prize 2025 Results Analysis

    • URL: https://arcprize.org/blog/arc-prize-2025-results-analysis
    • 类型:数据集/基准
    • 时间:2025
    • 层次:L5-系统工程层
    • 机制:评测机制
    • Tags: topic:eval topic:reasoning layer:system mechanism:evaluation type:benchmark time:2025 status:frontier
    • 概述:用于说明当前模型在抽象推理与组合泛化上仍明显落后。
  • MMLU-Pro Leaderboard

    • URL: https://artificialanalysis.ai/evaluations/mmlu-pro
    • 类型:数据集/基准
    • 时间:2025
    • 层次:L5-系统工程层
    • 机制:评测机制
    • Tags: topic:eval topic:reasoning layer:system mechanism:evaluation type:benchmark time:2025 status:frontier
    • 概述:给出更难 benchmark 上的横向比较结果。
  • Humanity’s Last Exam

    • URL: https://agi.safe.ai/
    • 类型:数据集/基准
    • 时间:2025
    • 层次:L5-系统工程层
    • 机制:评测机制
    • Tags: topic:eval topic:reasoning layer:system mechanism:evaluation type:benchmark time:2025 status:frontier
    • 概述:用来强调“更难评测”的提出本身,就是对旧 benchmark 被做穿的回应。

0.17 第 10 篇:AI 能“创造”吗?——从一团噪声到一幅画#

  • Denoising Diffusion Probabilistic Models

    • URL: https://arxiv.org/abs/2006.11239
    • 类型:论文
    • 时间:2020
    • 层次:L1-模型机制层
    • 机制:架构机制
    • Tags: topic:multimodal layer:model mechanism:architecture type:paper time:2020 status:foundational
    • 概述:本篇最核心的技术来源,用来解释 AI 绘画本质上是“去噪”而不是“凭空作画”。
  • Latent Diffusion Models

    • URL: https://arxiv.org/abs/2112.10752
    • 类型:论文
    • 时间:2021
    • 层次:L1-模型机制层
    • 机制:架构机制
    • Tags: topic:multimodal layer:model mechanism:architecture type:paper time:2021 status:foundational
    • 概述:解释 Stable Diffusion 这类模型如何在潜在空间中高效生成图像。
  • CLIP

    • URL: https://openai.com/index/clip/
    • 类型:官方博客/公告
    • 时间:2021
    • 层次:L1-模型机制层
    • 机制:多模态机制
    • Tags: topic:multimodal layer:model mechanism:multimodal type:doc time:2021 status:foundational
    • 概述:用于说明文本如何成为图像生成的指导信号。
  • Why AI hands are nightmares

  • Stable Diffusion with Diffusers

0.18 第 11 篇:为什么 AI 能赢世界冠军,却开不好车?#

  • AlphaGo versus Lee Sedol

    • URL: https://en.wikipedia.org/wiki/AlphaGo_versus_Lee_Sedol
    • 类型:百科/维基
    • 时间:2016
    • 层次:L0-范式层
    • 机制:搜索机制
    • Tags: topic:reasoning layer:paradigm mechanism:search type:wiki time:2016 status:reference
    • 概述:提供围棋世界冠军对战的背景与结果,是“封闭规则任务中 AI 极强”的代表案例。
  • Highly accurate protein structure prediction with AlphaFold

    • URL: https://www.nature.com/articles/s41586-021-03819-2
    • 类型:论文
    • 时间:2021
    • 层次:L0-范式层
    • 机制:架构机制
    • Tags: topic:architecture topic:multimodal layer:paradigm mechanism:architecture type:paper time:2021 status:foundational
    • 概述:支撑 AlphaFold 在蛋白质结构预测上的突破性表现,是“结构明确任务中 AI 极强”的另一支点。
  • Nobel Prize in Chemistry 2024

  • Tesla Vehicle Safety Report

  • Waymo crash data comparison

  • List of Tesla Autopilot crashes

  • skin cancer diagnosis meta-analysis

  • Whisper

    • URL: https://arxiv.org/abs/2212.04356
    • 类型:论文
    • 时间:2022
    • 层次:L1-模型机制层
    • 机制:语音理解机制
    • Tags: topic:multimodal topic:speech layer:model mechanism:speech-understanding type:paper time:2022 status:foundational
    • 概述:作为语音识别强场景的代表,补充“AI 擅长什么”的能力谱系。

0.19 第 12 篇:这个框架会过时吗?——AI 的天花板和你的判断力#

0.20 第 13 篇:怎么让 AI 听懂你的话——同一个 AI 为什么他用得比你好 10 倍#

  • Chain-of-Thought Prompting

    • URL: https://arxiv.org/abs/2201.11903
    • 类型:论文
    • 时间:2022
    • 层次:L3-推理与解码层
    • 机制:推理机制
    • Tags: topic:reasoning topic:cot layer:inference mechanism:reasoning type:paper time:2022 status:foundational
    • 概述:支撑“显式展示中间步骤会提升推理表现”的主论点。
  • Language Models are Few-Shot Learners

  • Self-Consistency

    • URL: https://arxiv.org/abs/2203.11171
    • 类型:论文
    • 时间:2022
    • 层次:L3-推理与解码层
    • 机制:推理机制、搜索机制
    • Tags: topic:reasoning topic:cot layer:inference mechanism:reasoning mechanism:search type:paper time:2022 status:foundational
    • 概述:说明多次推理取一致答案的价值。
  • The Prompt Report

  • When “A Helpful Assistant” Is Not Really Helpful

  • Playing Pretend: Expert Personas Don’t Improve Factual Accuracy

  • The Impact of Prompt Bloat on LLM Output Quality

0.21 第 14 篇:怎么跟 AI 协作不翻车——AI 说的话你该信几分#

0.22 第 15 篇:AI 写代码有多厉害?——快了 55%,但错多了 75%#

0.23 第 16 篇:AI 会取代我们吗——它不懂孤独是什么意思#


第三部分:标准化核心参考图谱(按方向 / 时间线 / 层次 / 机制)#

这一部分是整份文件的 规范层。与前两部分“按文章回溯来源”不同,这里把关键资源统一标准化,所有关键条目都尽量包含:时间 / 层次 / 机制 / Tags

0.24 标准字段说明#

  • 时间:优先使用 年份年份 + 季度,例如 20172025 Q12026 Q1
  • 层次
    • L0-范式层:整体范式、任务框架、技术路线
    • L1-模型机制层:模型内部结构、注意力、位置编码、架构创新
    • L2-训练与对齐层:预训练、后训练、偏好优化、微调
    • L3-推理与解码层:CoT、搜索、采样、解码、test-time compute
    • L4-知识与工具层:RAG、Tool Use、MCP、A2A、外部系统接入
    • L5-系统工程层:serving、部署、观测、评测、性能优化、本地运行
    • L6-安全与治理层:攻击、防御、合规、组织治理
  • 机制:对资源主要作用点的归类,如 注意力机制推理机制检索机制协议机制
  • Tags:统一使用:
    • topic:*
    • layer:*
    • mechanism:*
    • type:*
    • time:*
    • status:*

0.25 基础架构与模型机制#

时间线#

  • 2017 Transformer
  • 2019-2023 MQA / GQA / 稀疏与高效注意力
  • 2021-2024 RoPE / 长上下文位置编码扩展
  • 2022 DeepNet / 深层稳定训练
  • 2026 Q1 Attention Residuals

核心资源#

  • Attention Is All You Need

    • URL: https://arxiv.org/abs/1706.03762
    • 类型:论文
    • 时间:2017
    • 层次:L1-模型机制层
    • 机制:注意力机制、架构机制
    • Tags: topic:architecture topic:transformer layer:model mechanism:attention mechanism:architecture type:paper time:2017 status:foundational
    • 概述:Transformer 原点,定义了自注意力与并行化建模,是整个现代 LLM 体系的起点。
  • RoFormer: Enhanced Transformer with Rotary Position Embedding

    • URL: https://arxiv.org/abs/2104.09864
    • 类型:论文
    • 时间:2021
    • 层次:L1-模型机制层
    • 机制:位置编码机制
    • Tags: topic:architecture topic:long-context layer:model mechanism:position-encoding type:paper time:2021 status:foundational
    • 概述:RoPE 是近年主流开源与商用模型广泛采用的位置编码机制,也是长上下文扩展技术的重要基底。
  • YaRN: Efficient Context Window Extension of Large Language Models

    • URL: https://arxiv.org/abs/2309.00071
    • 类型:论文
    • 时间:2023
    • 层次:L1-模型机制层
    • 机制:位置编码机制、长上下文机制
    • Tags: topic:long-context layer:model mechanism:position-encoding mechanism:long-context type:paper time:2023 status:frontier
    • 概述:代表 RoPE 外推与长上下文扩展的一条重要工程路线,适合与 Long Context 相关文章配套阅读。
  • DeepNet: Scaling Transformers to 1,000 Layers

    • URL: https://arxiv.org/abs/2203.00555
    • 类型:论文
    • 时间:2022
    • 层次:L1-模型机制层
    • 机制:架构机制、深层稳定性机制
    • Tags: topic:architecture topic:scaling layer:model mechanism:architecture mechanism:stability type:paper time:2022 status:foundational
    • 概述:深层 Transformer 稳定训练谱系中的关键论文,适合与 AttnRes 一起建立“为什么深层会稀释”的背景。
  • Fast Transformer Decoding: One Write-Head is All You Need

    • URL: https://arxiv.org/abs/1911.06507
    • 类型:论文
    • 时间:2019
    • 层次:L1-模型机制层
    • 机制:注意力机制、推理加速机制
    • Tags: topic:architecture topic:inference layer:model mechanism:attention mechanism:inference-acceleration type:paper time:2019 status:foundational
    • 概述:MQA 的代表性来源,直接影响后续长上下文和推理性能优化。
  • GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints

    • URL: https://arxiv.org/abs/2305.13245
    • 类型:论文
    • 时间:2023
    • 层次:L1-模型机制层
    • 机制:注意力机制、推理加速机制
    • Tags: topic:architecture topic:inference layer:model mechanism:attention mechanism:inference-acceleration type:paper time:2023 status:foundational
    • 概述:GQA 是 MHA 与 MQA 的折中路线,已经成为很多现代模型的默认工程配置。
  • FlashAttention

    • URL: https://arxiv.org/abs/2205.14135
    • 类型:论文
    • 时间:2022
    • 层次:L1-模型机制层
    • 机制:注意力机制、推理加速机制
    • Tags: topic:attention topic:serving layer:model mechanism:attention mechanism:inference-acceleration type:paper time:2022 status:foundational
    • 概述:把 IO-aware 思想带入注意力计算,是训练与推理性能优化的关键工作。
  • Attention Residuals

    • URL: https://arxiv.org/abs/2603.15031
    • 类型:论文
    • 时间:2026 Q1
    • 层次:L1-模型机制层
    • 机制:注意力机制、架构机制、深层稳定性机制
    • Tags: topic:architecture topic:reasoning layer:model mechanism:attention mechanism:architecture mechanism:stability type:paper time:2026Q1 status:frontier
    • 概述:Kimi 团队提出的 AttnRes 用内容相关的深度注意力替代固定残差累加,目标是缓解 PreNorm 深层网络中的信息稀释问题。
  • MoonshotAI/Attention-Residuals

    • URL: https://github.com/MoonshotAI/Attention-Residuals
    • 类型:代码仓库
    • 时间:2026 Q1
    • 层次:L1-模型机制层
    • 机制:注意力机制、架构机制
    • Tags: topic:architecture topic:kimi layer:model mechanism:attention mechanism:architecture type:repo time:2026Q1 status:frontier
    • 概述:AttnRes 官方仓库,包含论文 PDF、结构示意图和 Block AttnRes 伪代码,是跟进这条新架构路线的第一手工程入口。

0.26 推理机制与测试时计算#

时间线#

  • 2022 CoT / Zero-shot CoT / Self-Consistency / ReAct
  • 2023 Tree of Thoughts / verifier / deliberate reasoning 扩展
  • 2024-2025 o 系列、R1、reasoning models 商用化
  • 2025-2026 reasoning 批判、互动式 reasoning benchmark、新的评测框架

核心资源#

  • Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

    • URL: https://arxiv.org/abs/2201.11903
    • 类型:论文
    • 时间:2022
    • 层次:L3-推理与解码层
    • 机制:推理机制
    • Tags: topic:reasoning topic:cot layer:inference mechanism:reasoning type:paper time:2022 status:foundational
    • 概述:思维链奠基论文,是 prompting、reasoning、agent planning 三条线共同的前史。
  • Large Language Models are Zero-Shot Reasoners

    • URL: https://arxiv.org/abs/2205.11916
    • 类型:论文
    • 时间:2022
    • 层次:L3-推理与解码层
    • 机制:推理机制
    • Tags: topic:reasoning topic:cot layer:inference mechanism:reasoning type:paper time:2022 status:foundational
    • 概述:证明即使不给示例,简单触发语句也能显著提升推理质量,是 reasoning 技巧普及的重要起点。
  • Self-Consistency Improves Chain of Thought Reasoning in Language Models

    • URL: https://arxiv.org/abs/2203.11171
    • 类型:论文
    • 时间:2022
    • 层次:L3-推理与解码层
    • 机制:推理机制、搜索机制
    • Tags: topic:reasoning topic:cot layer:inference mechanism:reasoning mechanism:search type:paper time:2022 status:foundational
    • 概述:把“多次推理再投票”系统化,是 test-time compute 的早期代表思路。
  • Tree of Thoughts

    • URL: https://arxiv.org/abs/2305.10601
    • 类型:论文
    • 时间:2023
    • 层次:L3-推理与解码层
    • 机制:推理机制、搜索机制
    • Tags: topic:reasoning topic:search layer:inference mechanism:reasoning mechanism:search type:paper time:2023 status:foundational
    • 概述:把线性思维链扩展到树搜索,是结构化 deliberation 的经典入口。
  • ReAct

    • URL: https://arxiv.org/abs/2210.03629
    • 类型:论文
    • 时间:2022
    • 层次:L3-推理与解码层
    • 机制:推理机制、工具调用机制
    • Tags: topic:reasoning topic:agent layer:inference mechanism:reasoning mechanism:tool-use type:paper time:2022 status:foundational
    • 概述:把 reasoning 与 acting 结合起来,是 Agent 路线最重要的原型论文之一。
  • Learning to Reason with LLMs

    • URL: https://openai.com/index/learning-to-reason-with-llms/
    • 类型:官方博客/公告
    • 时间:2024-2025
    • 层次:L3-推理与解码层
    • 机制:推理机制、测试时计算机制
    • Tags: topic:reasoning topic:test-time-compute layer:inference mechanism:reasoning mechanism:search type:doc time:2025 status:frontier
    • 概述:OpenAI 对 reasoning models 路线的公开解释材料,适合连接 CoT 方法史与产品化 reasoning models。
  • Introducing o3 and o4-mini

    • URL: https://openai.com/index/introducing-o3-and-o4-mini/
    • 类型:官方博客/公告
    • 时间:2025
    • 层次:L3-推理与解码层
    • 机制:推理机制、测试时计算机制
    • Tags: topic:reasoning topic:o-series layer:inference mechanism:reasoning mechanism:test-time-compute type:doc time:2025 status:frontier
    • 概述:推理模型商用化的重要节点,适合作为 reasoning 时代的产品化时间戳。
  • DeepSeek-R1

    • URL: https://arxiv.org/abs/2501.12948
    • 类型:论文
    • 时间:2025 Q1
    • 层次:L2-训练与对齐层
    • 机制:对齐机制、推理训练机制
    • Tags: topic:reasoning topic:alignment layer:training mechanism:alignment mechanism:reasoning type:paper time:2025Q1 status:frontier
    • 概述:是开源推理模型与后训练强化学习结合的重要节点,也适合作为 reasoning 训练路线的核心材料。
  • GSM-Symbolic

    • URL: https://machinelearning.apple.com/research/gsm-symbolic
    • 类型:官方博客/公告
    • 时间:2025
    • 层次:L5-系统工程层
    • 机制:评测机制、推理批判机制
    • Tags: topic:reasoning topic:eval layer:system mechanism:evaluation mechanism:reasoning type:paper time:2025 status:frontier
    • 概述:提醒 reasoning benchmark 的高分并不必然意味着真正的抽象理解,是思维链路线的重要反思资料。
  • The Illusion of Thinking

    • URL: https://machinelearning.apple.com/research/illusion-of-thinking
    • 类型:官方博客/公告
    • 时间:2025
    • 层次:L5-系统工程层
    • 机制:评测机制、推理批判机制
    • Tags: topic:reasoning topic:eval layer:system mechanism:evaluation mechanism:reasoning type:paper time:2025 status:frontier
    • 概述:用更严苛任务设定重新审视 reasoning models 的边界,是 2025 年必须保留的批判性材料。
  • ARC Prize

    • URL: https://arcprize.org/
    • 类型:数据集/基准
    • 时间:持续更新
    • 层次:L5-系统工程层
    • 机制:评测机制
    • Tags: topic:eval topic:reasoning layer:system mechanism:evaluation type:benchmark status:frontier
    • 概述:抽象推理与组合泛化 benchmark,是 reasoning 讨论里最值得长期跟踪的 harder benchmark 之一。
  • ARC-AGI-3

    • URL: https://arcprize.org/arc-agi/3
    • 类型:数据集/基准
    • 时间:2026 Q1
    • 层次:L5-系统工程层
    • 机制:评测机制、交互式推理机制
    • Tags: topic:eval topic:interactive-reasoning layer:system mechanism:evaluation mechanism:reasoning type:benchmark time:2026Q1 status:frontier
    • 概述:ARC-AGI-3 把 benchmark 从静态题目推进到交互式推理环境,是 agentic reasoning 时代值得重点关注的新评测方向。

0.27 RAG、长上下文与知识增强#

时间线#

  • 2020 RAG / Longformer
  • 2021-2023 RoPE / YaRN / 长上下文扩展工程化
  • 2023-2024 long context 使用边界开始被系统评测,Self-RAG / CRAG 出现
  • 2024 GraphRAG / Contextual Retrieval
  • 2025-2026 long context 与 RAG 的重新分工、rerank / hybrid retrieval 再受重视

核心资源#

  • Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

    • URL: https://arxiv.org/abs/2005.11401
    • 类型:论文
    • 时间:2020
    • 层次:L4-知识与工具层
    • 机制:检索机制
    • Tags: topic:rag topic:retrieval layer:knowledge mechanism:retrieval type:paper time:2020 status:foundational
    • 概述:RAG 的起点,定义了“先查资料再生成”的标准框架。
  • Longformer

    • URL: https://arxiv.org/abs/2004.05150
    • 类型:论文
    • 时间:2020
    • 层次:L1-模型机制层
    • 机制:长上下文机制、注意力机制
    • Tags: topic:long-context layer:model mechanism:attention mechanism:long-context type:paper time:2020 status:foundational
    • 概述:代表长文档建模路线的早期经典工作,适合和 RAG 起点形成对照。
  • Lost in the Middle: How Language Models Use Long Contexts

    • URL: https://arxiv.org/abs/2307.03172
    • 类型:论文
    • 时间:2023
    • 层次:L5-系统工程层
    • 机制:评测机制
    • Tags: topic:long-context topic:eval layer:system mechanism:evaluation type:paper time:2023 status:foundational
    • 概述:这是长上下文能力讨论里最常被引用的反例论文之一,说明“上下文窗口很大”不等于“模型能稳定利用上下文中间信息”。
  • Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection

    • URL: https://arxiv.org/abs/2310.11511
    • 类型:论文
    • 时间:2023
    • 层次:L4-知识与工具层
    • 机制:检索机制、推理机制
    • Tags: topic:rag topic:reasoning layer:knowledge mechanism:retrieval mechanism:reasoning type:paper time:2023 status:foundational
    • 概述:Self-RAG 让模型在检索、生成和自我批判之间形成闭环,是 RAG 从“外接资料”走向“带反思控制的知识增强系统”的代表工作。
  • Corrective Retrieval Augmented Generation

    • URL: https://arxiv.org/abs/2401.15884
    • 类型:论文
    • 时间:2024
    • 层次:L4-知识与工具层
    • 机制:检索机制、重排机制
    • Tags: topic:rag topic:retrieval layer:knowledge mechanism:retrieval mechanism:reranking type:paper time:2024 status:frontier
    • 概述:CRAG 把“检索结果本身可能有问题”纳入系统设计,是 RAG 从简单拼接资料走向检索纠错和质量控制的重要节点。
  • LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding

    • URL: https://arxiv.org/abs/2308.14508
    • 类型:论文
    • 时间:2023
    • 层次:L5-系统工程层
    • 机制:评测机制
    • Tags: topic:long-context topic:eval layer:system mechanism:evaluation type:paper time:2023 status:foundational
    • 概述:LongBench 是长上下文能力评测的高频基准之一,适合用来补齐“长 context 能力不能只看厂商公告”的验证层。
  • GraphRAG

  • Introducing Contextual Retrieval

    • URL: https://www.anthropic.com/news/contextual-retrieval
    • 类型:官方博客/公告
    • 时间:2024
    • 层次:L4-知识与工具层
    • 机制:检索机制、重排机制
    • Tags: topic:rag topic:retrieval layer:knowledge mechanism:retrieval mechanism:reranking type:doc time:2024 status:frontier
    • 概述:强调 chunk 之外的上下文增强,是提升 RAG 召回质量的工程型参考。
  • LangChain RAG 文档

    • URL: https://python.langchain.com/docs/tutorials/rag/
    • 类型:官方文档
    • 时间:持续更新
    • 层次:L4-知识与工具层
    • 机制:检索机制
    • Tags: topic:rag layer:knowledge mechanism:retrieval type:doc status:engineering
    • 概述:适合把 RAG 从论文概念推进到应用原型。
  • LlamaIndex 文档

    • URL: https://docs.llamaindex.ai/
    • 类型:官方文档
    • 时间:持续更新
    • 层次:L4-知识与工具层
    • 机制:检索机制、索引机制
    • Tags: topic:rag layer:knowledge mechanism:retrieval mechanism:indexing type:doc status:engineering
    • 概述:更偏文档工程与索引层,是知识增强应用的重要实现资料。
  • Cohere Rerank Guide

    • URL: https://www.cohere.com/documents/rerank-guide.pdf
    • 类型:教程/课程
    • 时间:2024-2025
    • 层次:L4-知识与工具层
    • 机制:重排机制
    • Tags: topic:rag topic:reranking layer:knowledge mechanism:reranking type:doc status:engineering
    • 概述:适合补齐“召回之后如何排序”这一 RAG 实践里常被忽视但很关键的层次。

0.28 Agent、工具调用与协议#

时间线#

  • 2022 MRKL / ReAct
  • 2023 Generative Agents / Toolformer / Memory 扩展
  • 2024 MCP
  • 2025-2026 A2A / Computer Use / tool-native agent protocols

核心资源#

  • MRKL Systems

    • URL: https://arxiv.org/abs/2205.00445
    • 类型:论文
    • 时间:2022
    • 层次:L4-知识与工具层
    • 机制:工具调用机制、模块化机制
    • Tags: topic:agent topic:tool-use layer:knowledge mechanism:tool-use mechanism:modularity type:paper time:2022 status:foundational
    • 概述:把 LLM 与工具系统组合成模块化架构,是 Agent 工程很早的思想来源。
  • Toolformer

    • URL: https://arxiv.org/abs/2302.04761
    • 类型:论文
    • 时间:2023
    • 层次:L4-知识与工具层
    • 机制:工具调用机制
    • Tags: topic:tool-use topic:agent layer:knowledge mechanism:tool-use type:paper time:2023 status:foundational
    • 概述:说明模型如何在训练层面学会使用工具,是 Tool Use 方向的重要早期论文。
  • Generative Agents

    • URL: https://arxiv.org/abs/2304.03442
    • 类型:论文
    • 时间:2023
    • 层次:L4-知识与工具层
    • 机制:记忆机制、Agent 机制
    • Tags: topic:agent topic:memory layer:knowledge mechanism:memory mechanism:agent type:paper time:2023 status:foundational
    • 概述:记忆、反思、行为连续性在 Agent 系统中的经典代表。
  • OpenAI Function Calling

    • URL: https://platform.openai.com/docs/guides/function-calling
    • 类型:官方文档
    • 时间:持续更新
    • 层次:L4-知识与工具层
    • 机制:工具调用机制
    • Tags: topic:tool-use layer:knowledge mechanism:tool-use type:doc status:engineering
    • 概述:主流平台的结构化工具调用接口,是“模型做决策,应用做执行”的基础工程资料。
  • Anthropic Tool Use

    • URL: https://docs.anthropic.com/en/docs/build-with-claude/tool-use
    • 类型:官方文档
    • 时间:持续更新
    • 层次:L4-知识与工具层
    • 机制:工具调用机制
    • Tags: topic:tool-use layer:knowledge mechanism:tool-use type:doc status:engineering
    • 概述:Claude 体系下的 Tool Use 文档,是 OpenAI 路线的重要补充。
  • Anthropic Computer Use

    • URL: https://docs.anthropic.com/en/docs/agents-and-tools/computer-use
    • 类型:官方文档
    • 时间:2025
    • 层次:L4-知识与工具层
    • 机制:工具调用机制、环境交互机制
    • Tags: topic:agent topic:computer-use layer:knowledge mechanism:tool-use mechanism:environment-interaction type:doc time:2025 status:frontier
    • 概述:把工具使用从 API 层推进到 GUI/桌面环境,是 agentic systems 的重要边界扩展。
  • Model Context Protocol (MCP)

    • URL: https://modelcontextprotocol.io/
    • 类型:官方文档
    • 时间:2024-2026
    • 层次:L4-知识与工具层
    • 机制:协议机制
    • Tags: topic:mcp topic:agent layer:knowledge mechanism:protocol type:doc time:2025 status:foundational
    • 概述:MCP 已成为 AI 应用连接外部工具、资源和工作流的重要标准接口,是协议层必须保留的核心资源。
  • A2A Protocol

    • URL: https://google.github.io/A2A/
    • 类型:官方文档
    • 时间:2025
    • 层次:L4-知识与工具层
    • 机制:协议机制、Agent 协作机制
    • Tags: topic:a2a topic:agent layer:knowledge mechanism:protocol mechanism:agent-collaboration type:doc time:2025 status:frontier
    • 概述:把“工具协议”进一步扩展到“Agent 与 Agent 通信”,是多智能体标准化方向的重要资料。

0.29 推理系统、部署工程与本地运行#

时间线#

  • 2023 PagedAttention / vLLM
  • 2024 SGLang / llama.cpp 工程成熟
  • 2025 TensorRT-LLM、SGLang、vLLM 在生产级场景进一步稳定
  • 2026 Q1 本地模型管理、长上下文 serving、推理模型 serving、多模态 serving 继续融合

核心资源#

  • Efficient Memory Management for Large Language Model Serving with PagedAttention

    • URL: https://arxiv.org/abs/2309.06180
    • 类型:论文
    • 时间:2023
    • 层次:L5-系统工程层
    • 机制:部署服务机制、KV cache 机制
    • Tags: topic:serving topic:vllm layer:system mechanism:serving mechanism:kv-cache type:paper time:2023 status:foundational
    • 概述:PagedAttention 是现代 LLM serving 栈的标志性工作,也是 vLLM 理论核心。
  • vLLM

    • URL: https://github.com/vllm-project/vllm
    • 类型:代码仓库
    • 时间:2023-2026
    • 层次:L5-系统工程层
    • 机制:部署服务机制、KV cache 机制、连续批处理机制
    • Tags: topic:serving topic:vllm layer:system mechanism:serving mechanism:kv-cache mechanism:continuous-batching type:repo status:foundational
    • 概述:当前最重要的开源 LLM serving 引擎之一,已经把 PagedAttention、prefix caching、LoRA、reasoning outputs、多模态和 OpenAI-compatible serving 融合为一套成熟工程栈。
  • vLLM Docs

    • URL: https://docs.vllm.ai/
    • 类型:官方文档
    • 时间:2026
    • 层次:L5-系统工程层
    • 机制:部署服务机制、可观测机制、多模态 serving 机制
    • Tags: topic:serving topic:vllm layer:system mechanism:serving mechanism:observability mechanism:multimodal-serving type:doc time:2026 status:frontier
    • 概述:到 2026 年,vLLM 文档已经覆盖 reasoning outputs、MCP tools、OpenTelemetry、多模态和分布式 serving,是非常值得长期跟踪的工程资料源。
  • SGLang

    • URL: https://github.com/sgl-project/sglang
    • 类型:代码仓库
    • 时间:2024-2026
    • 层次:L5-系统工程层
    • 机制:部署服务机制、结构化解码机制、前缀缓存机制
    • Tags: topic:serving topic:sglang layer:system mechanism:serving mechanism:structured-decoding mechanism:prefix-caching type:repo status:frontier
    • 概述:SGLang 已从高性能 serving engine 发展成覆盖 reasoning parser、structured outputs、RL rollout backend、多模态 serving 的综合 runtime。
  • SGLang Docs

    • URL: https://docs.sglang.io/
    • 类型:官方文档
    • 时间:2026
    • 层次:L5-系统工程层
    • 机制:部署服务机制、结构化解码机制、多模态 serving 机制
    • Tags: topic:serving topic:sglang layer:system mechanism:serving mechanism:structured-decoding mechanism:multimodal-serving type:doc time:2026 status:frontier
    • 概述:到 2026 年,SGLang 文档已经把长上下文、多模态、reasoning parser、observability、RL 系统与 serving 主栈连成一个完整体系。
  • TensorRT-LLM

    • URL: https://github.com/NVIDIA/TensorRT-LLM
    • 类型:代码仓库
    • 时间:2023-2026
    • 层次:L5-系统工程层
    • 机制:部署服务机制、推理加速机制、量化机制
    • Tags: topic:serving topic:tensorrt-llm layer:system mechanism:serving mechanism:inference-acceleration mechanism:quantization type:repo status:frontier
    • 概述:生产级 GPU 集群部署的重要路线,尤其适合补齐 Blackwell、MoE、长上下文和 inference-time compute 的优化资料。
  • llama.cpp

    • URL: https://github.com/ggml-org/llama.cpp
    • 类型:代码仓库
    • 时间:2023-2026
    • 层次:L5-系统工程层
    • 机制:本地推理机制、量化机制、边缘部署机制
    • Tags: topic:local-llm topic:serving layer:system mechanism:edge-inference mechanism:quantization mechanism:serving type:repo status:foundational
    • 概述:本地推理生态的,适合补齐 GGUF、低比特量化、边缘部署与跨平台本地运行这一条路线。
  • Ollama

    • URL: https://github.com/ollama/ollama
    • 类型:代码仓库
    • 时间:2023-2026
    • 层次:L5-系统工程层
    • 机制:本地模型管理机制、部署服务机制
    • Tags: topic:local-llm topic:ollama layer:system mechanism:model-management mechanism:serving type:repo status:engineering
    • 概述:Ollama 显著降低了本地模型管理、API 暴露与开发者接入成本,已经成为本地模型工程的默认入口之一。
  • Ollama API

    • URL: https://docs.ollama.com/api
    • 类型:官方文档
    • 时间:2026
    • 层次:L5-系统工程层
    • 机制:部署服务机制、本地 API 机制
    • Tags: topic:local-llm topic:ollama layer:system mechanism:serving mechanism:api type:doc time:2026 status:engineering
    • 概述:适合作为本地模型 API 化的标准入口,尤其适合搭配 Open WebUI、Continue、Open WebUI 等生态工具使用。
  • Open WebUI

    • URL: https://github.com/open-webui/open-webui
    • 类型:代码仓库
    • 时间:2024-2026
    • 层次:L5-系统工程层
    • 机制:本地部署机制、RAG 集成机制、可观测机制
    • Tags: topic:local-llm topic:ui layer:system mechanism:serving mechanism:retrieval mechanism:observability type:repo status:engineering
    • 概述:Open WebUI 已成为本地模型、RAG、Ollama/OpenAI-compatible API 结合的高频 UI 层方案,也适合补入“本地部署实践”方向。

0.30 训练、微调与对齐#

时间线#

  • 2021 LoRA
  • 2022 RLHF / InstructGPT / Constitutional AI
  • 2023 QLoRA / DPO
  • 2025 DeepSeek R1 / reasoning post-training 成为主线

核心资源#

  • Training language models to follow instructions with human feedback

    • URL: https://arxiv.org/abs/2203.02155
    • 类型:论文
    • 时间:2022
    • 层次:L2-训练与对齐层
    • 机制:对齐机制
    • Tags: topic:alignment topic:rlhf layer:training mechanism:alignment type:paper time:2022 status:foundational
    • 概述:RLHF 进入产品主线的标志性论文。
  • Constitutional AI

    • URL: https://arxiv.org/abs/2212.08073
    • 类型:论文
    • 时间:2022
    • 层次:L2-训练与对齐层
    • 机制:对齐机制
    • Tags: topic:alignment topic:constitutional-ai layer:training mechanism:alignment type:paper time:2022 status:foundational
    • 概述:Anthropic 路线的核心来源,适合补齐“对齐不只是 RLHF”这一视角。
  • LoRA

    • URL: https://arxiv.org/abs/2106.09685
    • 类型:论文
    • 时间:2021
    • 层次:L2-训练与对齐层
    • 机制:微调机制
    • Tags: topic:finetuning topic:lora layer:training mechanism:finetuning type:paper time:2021 status:foundational
    • 概述:参数高效微调起点,仍是理解 PEFT 体系的第一篇必读论文。
  • QLoRA

    • URL: https://arxiv.org/abs/2305.14314
    • 类型:论文
    • 时间:2023
    • 层次:L2-训练与对齐层
    • 机制:微调机制、量化机制
    • Tags: topic:finetuning topic:qlora layer:training mechanism:finetuning mechanism:quantization type:paper time:2023 status:foundational
    • 概述:把量化与微调结合起来,显著降低大模型微调门槛。
  • DPO: Direct Preference Optimization

    • URL: https://arxiv.org/abs/2305.18290
    • 类型:论文
    • 时间:2023
    • 层次:L2-训练与对齐层
    • 机制:对齐机制
    • Tags: topic:alignment topic:dpo layer:training mechanism:alignment type:paper time:2023 status:foundational
    • 概述:偏好优化的重要简化路线,是很多现代对齐实践的共同基础。

0.31 评测、可观测性与可靠性#

时间线#

  • 2020-2021 MMLU / HumanEval
  • 2024-2025 GAIA / agent benchmark / observability 进入主流
  • 2024-2025 应用级 eval、RAG eval、software engineering benchmark 快速丰富
  • 2024-2025 tool-agent-user 交互 benchmark 与浏览器/企业任务 benchmark 继续补强
  • 2026 interactive reasoning eval 与 production tracing 深度结合

核心资源#

  • MMLU

    • URL: https://arxiv.org/abs/2009.03300
    • 类型:论文
    • 时间:2020
    • 层次:L5-系统工程层
    • 机制:评测机制
    • Tags: topic:eval layer:system mechanism:evaluation type:paper time:2020 status:foundational
    • 概述:通用知识 benchmark 经典来源,但更适合作为基础 benchmark,而非最终能力结论。
  • HumanEval

    • URL: https://arxiv.org/abs/2107.03374
    • 类型:论文
    • 时间:2021
    • 层次:L5-系统工程层
    • 机制:评测机制
    • Tags: topic:eval topic:coding layer:system mechanism:evaluation type:paper time:2021 status:foundational
    • 概述:代码生成 benchmark 的经典来源,是 AI 编程讨论的常用底座。
  • GAIA

    • URL: https://huggingface.co/benchmarks/gaia
    • 类型:数据集/基准
    • 时间:2024-2025
    • 层次:L5-系统工程层
    • 机制:评测机制
    • Tags: topic:eval topic:agent layer:system mechanism:evaluation type:benchmark status:frontier
    • 概述:更贴近真实任务和工具使用,是 Agent 评测里很值得保留的 benchmark。
  • API-Bank

    • URL: https://arxiv.org/abs/2304.09142
    • 类型:论文
    • 时间:2023
    • 层次:L5-系统工程层
    • 机制:评测机制、工具调用评测机制
    • Tags: topic:eval topic:agent layer:system mechanism:evaluation mechanism:tool-use type:paper time:2023 status:frontier
    • 概述:把工具调用正确性纳入 benchmark 视角,是 Agent 时代很重要的评测补充。
  • SWE-bench: Can Language Models Resolve Real-World GitHub Issues?

    • URL: https://arxiv.org/abs/2310.06770
    • 类型:论文
    • 时间:2023
    • 层次:L5-系统工程层
    • 机制:评测机制
    • Tags: topic:eval topic:coding topic:agent layer:system mechanism:evaluation type:paper time:2023 status:foundational
    • 概述:SWE-bench 已成为软件工程 Agent 评测的核心基准之一,适合把 AI 编程讨论从 demo 级任务推进到真实仓库 issue 修复场景。
  • WebArena: A Realistic Web Environment for Building Autonomous Agents

    • URL: https://arxiv.org/abs/2307.13854
    • 类型:论文
    • 时间:2023
    • 层次:L5-系统工程层
    • 机制:评测机制、环境交互机制
    • Tags: topic:eval topic:agent layer:system mechanism:evaluation mechanism:environment-interaction type:paper time:2023 status:foundational
    • 概述:WebArena 是网页环境 Agent 的代表 benchmark,适合补齐浏览器操作、跨页面导航和复杂任务分解这一类真实交互评测。
  • tau-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains

    • URL: https://arxiv.org/abs/2406.12045
    • 类型:论文
    • 时间:2024
    • 层次:L5-系统工程层
    • 机制:评测机制、工具调用机制
    • Tags: topic:eval topic:agent topic:tool-use layer:system mechanism:evaluation mechanism:tool-use type:paper time:2024 status:frontier
    • 概述:tau-bench 把 agent 评测推进到“工具、用户、业务规则”三者同时存在的真实交互语境,是企业型 agent 评测的重要补充。
  • OpenAI Evals

    • URL: https://github.com/openai/evals
    • 类型:代码仓库
    • 时间:2023-2026
    • 层次:L5-系统工程层
    • 机制:评测机制
    • Tags: topic:eval layer:system mechanism:evaluation type:repo status:engineering
    • 概述:OpenAI Evals 是应用侧自定义评测与回归测试的重要开源入口,适合连接模型 benchmark 与产品级质量验证。
  • HELM: Holistic Evaluation of Language Models

    • URL: https://arxiv.org/abs/2211.09110
    • 类型:论文
    • 时间:2022
    • 层次:L5-系统工程层
    • 机制:评测机制
    • Tags: topic:eval layer:system mechanism:evaluation type:paper time:2022 status:foundational
    • 概述:HELM 强调“评测不只看一个分数”,而要同时关注准确性、鲁棒性、公平性、校准等多维指标,是评测方法论的骨架级资源。
  • RAGAS

    • URL: https://github.com/explodinggradients/ragas
    • 类型:代码仓库
    • 时间:2024-2026
    • 层次:L5-系统工程层
    • 机制:评测机制
    • Tags: topic:eval topic:rag layer:system mechanism:evaluation type:repo status:engineering
    • 概述:RAGAS 已成为 RAG 应用评测的高频工具,适合补齐回答质量、上下文利用、faithfulness 等应用层指标。
  • DeepEval

    • URL: https://github.com/confident-ai/deepeval
    • 类型:代码仓库
    • 时间:2024-2026
    • 层次:L5-系统工程层
    • 机制:评测机制
    • Tags: topic:eval topic:agent layer:system mechanism:evaluation type:repo status:engineering
    • 概述:DeepEval 适合把 LLM 应用测试做成更接近单元测试和 CI 的流程,是应用层 eval 工程化的重要补充。
  • promptfoo

    • URL: https://github.com/promptfoo/promptfoo
    • 类型:代码仓库
    • 时间:2024-2026
    • 层次:L5-系统工程层
    • 机制:评测机制
    • Tags: topic:eval topic:security layer:system mechanism:evaluation type:repo status:engineering
    • 概述:promptfoo 同时覆盖 prompt 测试、红队测试和回归比较,适合连接质量评测与安全评测两条线。
  • LangSmith

    • URL: https://docs.smith.langchain.com/
    • 类型:官方文档
    • 时间:持续更新
    • 层次:L5-系统工程层
    • 机制:可观测机制
    • Tags: topic:observability topic:agent layer:system mechanism:observability type:doc status:engineering
    • 概述:适合追踪链路、prompt、tool 调用与运行轨迹,是 AI 应用调试的主流平台之一。
  • Langfuse

    • URL: https://langfuse.com/
    • 类型:官方文档
    • 时间:持续更新
    • 层次:L5-系统工程层
    • 机制:可观测机制
    • Tags: topic:observability layer:system mechanism:observability type:doc status:engineering
    • 概述:开源可自部署,适合构建自有 AI 观测与标注分析体系。
  • OpenTelemetry

    • URL: https://opentelemetry.io/
    • 类型:官方文档
    • 时间:持续更新
    • 层次:L5-系统工程层
    • 机制:可观测机制
    • Tags: topic:observability layer:system mechanism:observability type:doc status:foundational
    • 概述:把 AI 系统观测纳入通用 tracing 标准,是生产级统一观测栈的关键底座。

0.32 安全、攻击与治理#

时间线#

  • 2023 prompt injection / jailbreak 体系化
  • 2024-2025 tool / plugin / agent attack surface 成为主线
  • 2025-2026 governance、risk management、supply chain 与 overreliance 更系统化

核心资源#

  • GCG: Greedy Coordinate Gradient

    • URL: https://arxiv.org/abs/2307.04757
    • 类型:论文
    • 时间:2023
    • 层次:L6-安全与治理层
    • 机制:安全攻击机制
    • Tags: topic:security topic:jailbreak layer:security mechanism:security-attack type:paper time:2023 status:foundational
    • 概述:自动化越狱攻击的重要代表工作,是从手工 prompt 越狱走向搜索式攻击的关键节点。
  • Prompt Injection Attacks

    • URL: https://www.jailbreaksearch.com/
    • 类型:案例库/安全站点
    • 时间:持续更新
    • 层次:L6-安全与治理层
    • 机制:安全攻击机制
    • Tags: topic:security topic:prompt-injection layer:security mechanism:security-attack type:benchmark status:engineering
    • 概述:适合长期追踪提示注入与越狱样式,是安全专题的实战样例库。
  • Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection

    • URL: https://arxiv.org/abs/2302.12173
    • 类型:论文
    • 时间:2023
    • 层次:L6-安全与治理层
    • 机制:安全攻击机制
    • Tags: topic:security topic:prompt-injection layer:security mechanism:security-attack type:paper time:2023 status:foundational
    • 概述:这是现实世界间接提示注入讨论里最关键的论文之一,明确说明攻击者可以借助外部内容污染模型行为,而不需要直接接触系统提示词。
  • OWASP Top 10 for Large Language Model Applications / OWASP GenAI Security Project

    • URL: https://owasp.org/www-project-top-10-for-large-language-model-applications/
    • 类型:机构报告/政策
    • 时间:2023-2025
    • 层次:L6-安全与治理层
    • 机制:安全防御机制、治理合规机制
    • Tags: topic:security topic:governance layer:security mechanism:security-defense mechanism:governance type:policy status:foundational
    • 概述:最适合开发者快速建立 LLM 应用安全面地图的开放指南之一,应作为安全章节的基础框架资源。
  • NIST AI Risk Management Framework

    • URL: https://www.nist.gov/itl/ai-risk-management-framework
    • 类型:机构报告/政策
    • 时间:2023-2025
    • 层次:L6-安全与治理层
    • 机制:治理合规机制
    • Tags: topic:governance topic:risk-management layer:security mechanism:governance type:policy status:foundational
    • 概述:适合把 AI 风险讨论从技术漏洞扩展到组织治理、流程控制与生命周期管理。
  • EU AI Act

    • URL: https://artificialintelligenceact.eu/
    • 类型:机构报告/政策
    • 时间:2024-2025
    • 层次:L6-安全与治理层
    • 机制:治理合规机制
    • Tags: topic:governance topic:compliance layer:security mechanism:governance type:policy status:frontier
    • 概述:全球 AI 合规讨论中最值得长期跟踪的法规资源之一。

0.33 多模态、实时交互与本地应用层#

时间线#

  • 2022 Whisper 等单模态基础能力成熟
  • 2024 Gemini 2.0 / agentic multimodal 叙事
  • 2024-2025 realtime voice / video agent 基础设施快速成熟
  • 2025 Claude 4 / coding + reasoning + agent workflows
  • 2026 本地多模态与实时交互工程逐渐主流化

核心资源#

  • Whisper

    • URL: https://arxiv.org/abs/2212.04356
    • 类型:论文
    • 时间:2022
    • 层次:L1-模型机制层
    • 机制:语音理解机制
    • Tags: topic:multimodal topic:speech layer:model mechanism:speech-understanding type:paper time:2022 status:foundational
    • 概述:语音识别的代表模型,是实时语音 Agent / 多模态助手的重要基础来源。
  • Introducing Gemini 2.0: our new AI model for the agentic era

  • LiveKit Agents

    • URL: https://docs.livekit.io/agents/
    • 类型:官方文档
    • 时间:2025-2026
    • 层次:L5-系统工程层
    • 机制:多模态 serving 机制、环境交互机制
    • Tags: topic:multimodal topic:agent topic:speech layer:system mechanism:multimodal-serving mechanism:environment-interaction type:doc status:engineering
    • 概述:LiveKit Agents 是实时语音、视频和多模态 agent 的高频基础设施入口,适合补齐“LLM 应用不只是一问一答,还包括实时交互系统”的工程主线。
  • Introducing Claude 4

    • URL: https://www.anthropic.com/news/claude-4
    • 类型:官方博客/公告
    • 时间:2025 Q2
    • 层次:L0-范式层
    • 机制:推理机制、工具调用机制、记忆机制
    • Tags: topic:reasoning topic:agent topic:claude layer:paradigm mechanism:reasoning mechanism:tool-use mechanism:memory type:doc time:2025Q2 status:frontier
    • 概述:Claude 4 把 extended thinking with tool use、memory files、Claude Code 和 MCP connector 串到一起,是 2025 年 agent workflow 方向的重要产品节点。

0.34 2025-2026 前沿增补速查#

2026 Q1#

  • Attention Residuals:深层 Transformer 稳定性与架构创新
  • ARC-AGI-3:从静态 reasoning benchmark 走向交互式 reasoning benchmark
  • vLLM Docs (2026 dev preview):reasoning outputs、OpenTelemetry、多模态、MCP tools
  • SGLang Docs (Mar 25, 2026):reasoning parser、structured outputs for reasoning models、HiCache、多模态 serving
  • llama.cpp b8508:本地推理、多模态、GGUF、本地 OpenAI-compatible API 强化
  • Ollama v0.18.x:本地模型 API、集成本地 agent 工具生态扩张

2025#

  • DeepSeek-R1 / DeepSeek-V3:开源推理与后训练强化学习主线
  • A2A Protocol:多 Agent 标准化通信
  • Anthropic Computer Use / Claude 4:action-oriented agents 与 coding agents
  • o3 / o4-mini:推理模型产品化节点
  • OWASP GenAI Security:安全与治理框架升级
  • Apple reasoning critique:reasoning 热潮中的关键反思材料

0.35 反向 Tag 索引建议#

后续继续维护时,建议新增一个按 Tag 检索的小索引,至少保留这些主键:

  • topic:reasoning
  • topic:rag
  • topic:agent
  • topic:serving
  • topic:local-llm
  • topic:security
  • topic:multimodal
  • mechanism:attention
  • mechanism:retrieval
  • mechanism:tool-use
  • mechanism:observability
  • layer:model
  • layer:training
  • layer:inference
  • layer:knowledge
  • layer:system
  • layer:security

第四部分:高频核心来源清单#

下面这些来源在两套内容体系里反复出现,已经构成你的 AI 知识库的“参考主骨架”:

  • Attention Is All You Need:几乎所有原理线、论文线、入门线都会回到它
  • GPT-3 / InstructGPT / Chain-of-Thought / ReAct:分别对应规模化、对齐、推理、Agent 四条主线
  • RAGLoRAQLoRADPO:对应知识增强、微调、对齐三大应用实践路线
  • OpenAI / Anthropic / Google 官方文档:构成工程实践部分最稳定的产品与接口依据
  • LangChain / LangGraph / LlamaIndex / AutoGen / CrewAI / MCP:构成应用架构与 Agent 工程的基础设施层
  • vLLM / SGLang / TensorRT-LLM / llama.cpp / Ollama:构成 2026 时点最值得持续维护的推理部署工程主栈
  • The Illustrated Transformerhappy-llmPrompt Engineering Guide:构成教程型、解释型材料的高频辅助层
  • ARC PrizeMMLUHumanEvalGAIAAPI-Bank:构成能力和系统评估层的 benchmark 骨架
  • Cursor Security AdvisoryGCGPrompt Injection AttacksOWASP GenAI Security:构成安全专题中最有现实感的攻击与治理来源

第五部分:如何使用这份索引#

如果你后续要继续建设 machine-learning 知识库,我建议这样用这份索引:

  • 入门系列 时,优先使用:论文 + 官方文档 + 高质量教程
  • 工程系列 时,优先使用:官方文档 + 开源仓库 + benchmark + 事故案例
  • 论文解读系列 时,优先使用:原论文 + 官方实现 + 后续工作 + 批评文章
  • 安全与可靠性系列 时,优先使用:攻击论文 + 安全通告 + CVE + 事故复盘 + 防御文档
  • 行业案例系列 时,优先使用:产品公告 + 架构文档 + benchmark + 行业报告 + 法规/合规材料

一篇高质量技术文章,最好同时包含这四层来源:

  1. 原始来源:论文、技术报告、官方规范
  2. 实现来源:官方文档、SDK、代码仓库
  3. 验证来源:benchmark、数据集、评测报告
  4. 现实来源:新闻、案例、事故、法规、行业报告

这样写出来的文章,会比单纯“转述概念”更稳、更耐看,也更适合长期维护。


参考#

支持与分享

如果这篇文章对你有帮助,欢迎支持作者或分享给更多人

机器学习与 AI 系列参考资料总索引
https://blog.souloss.com/posts/machine-learning/reference-compendium/
作者
Souloss
发布于
2025-07-29
许可协议
CC BY-NC-SA 4.0

部分信息可能已经过时