llm – 博瑾狐的小窝

在

码途随笔

关于Norm的解析

2026年5月4日
434 words

可以说，如果没有残差连接和 Layer Normalization（层归一化）这样一刚一柔的黄金组合...

在

码途随笔

从 SGD 到 AdamW 的优化器

2026年5月3日
397 words

写在前面在上一篇文章中，我们讨论了如何用数据并行、张量并行和流水线并行，把一个大模型“拆开”放到成...

在

码途随笔

数据并行、张量并行和流水线并行解析

2026年5月2日
231 words

写在前面目前为止的文章都在聊一件事：单个模型内部的“微观世界” ——Embedding怎么工作、A...

在

码途随笔

MoE架构解析

2026年5月1日
199 words

如果说我们之前拆解的所有Transformer组件——从FFN到Attention——都是为了让单个...

在

码途随笔

从“重复劳动”到“智能记忆”：KV Cache与PagedAttention深度解析

2026年4月30日
361 words

写在前面在前面的六篇文章中，我们完整拆解了Transformer的静态架构——从Tokenizer...

在

码途随笔

残差连接、Pre-Norm与Post-Norm

2026年4月29日
234 words

写在前面在前几篇文章中，我们像拆解一个精密的机械表一样，一步步解剖了 LLM 的各个核心组件：从 ...

在

码途随笔

注意力即一切：从 MHA 到 GQA

2026年4月28日
540 words

写在前面终于，我们来到了 Transformer 最核心、最“灵魂”的部分——Attention（...

在

码途随笔

FFN 与 SwiGLU 解析

2026年4月27日
568 words

写在前面在之前的系列文章中，我们从 Tokenizer 讲到 Embedding 再到 RoPE，...

在

码途随笔

RAG 相关技术：从检索增强到可控知识注入

2026年4月27日
93 words

一篇关于 RAG 的学习笔记：RAG 不是把向量数据库接到模型前面那么简单，而是一条从知识组织、召回...

在

码途随笔

Embedding 与 RoPE 解析

2026年4月26日
354 words

写在前面在前两篇文章中，我们分别拆解了 LLM 的整体架构，又专门深挖了 Tokenizer。现在...

博瑾狐的小窝