博客 - Hyacehila

从 AI Agent Demo 到大规模服务：后端能力全景图

2026-04-19

6928字 · 24分钟

智能体系统

这是一份后端学习笔记的第一篇，研究把 AI Agent 从 Demo 变成大规模服务，到底需要哪些后端能力，今天的后端技术又分别如何解决这些问题。后面将会开始逐步学习相关技术。

#Backend #Agents #Databases +4

国家级网络审查机制与抗审查代理协议的攻防演进

2026-04-14

8116字 · 28分钟

随笔与观察

国家级网络审查与抗审查协议的对抗，本质上不是某几个工具的替换史，而是一场围绕识别、伪装、探测、成本与生态展开的长期系统工程博弈。

#Network Security

Claude Code or Codex：编码模型差异如何变成产品体验的不同

2026-04-10

4407字 · 15分钟

随笔与观察

一篇面向开发者的研究综述：从 Claude 系列与 GPT 系列在编码场景中的能力差异出发，理解这些差异如何投射到 Claude Code 与 Codex 的 agent runtime、任务执行边界、上下文组织和工作流体验中。

#Claude Code #Codex #Agents +1

Spec 不是新范式：Vibe Coding、SDD 与 AI 时代的软件工程转向

2026-04-07

4739字 · 16分钟

智能体系统

AI 时代的软件工程并没有走向 Spec-first，而是在代码生成成本坍塌后转向 feedback-first：先用原型和集成反馈发现真实需求，再把已结晶的约束反向提炼成活文档、契约与 ADR。

#Software Engineering #Vibe Coding #Spec-Driven Development +3

Harness 到底是什么：从 model + harness 到工程、产品与用户友好外壳

2026-04-04

6242字 · 21分钟

智能体系统

LangChain 的 `agent = model + harness` 是正确的，但只在最粗粒度上成立；一旦进入真实工程问题，更有解释力的拆分往往是工程 harness、产品 harness、用户友好 harness，以及 task interface。

#Agents #Harness #Runtime +2

Three Gate Problem

2026-03-29

1026字 · 4分钟

数据科学

三门问题最迷惑人的地方，不是算不出 2/3，而是主持人开门以后，人会本能地把局面看成 50/50。真正关键在于，主持人的行动不是随机事件，而是一次带约束的信息披露。

#Statistical Inference #Methodology

《科幻短篇*3》

2026-03-28

9195字 · 31分钟

随笔与观察

科幻短篇*3，灵感来源于被Anthropic封号后；包括大纲在内，以下全部均有GenAI辅助撰写，直接用的Claude Code和Codex CLI。

#Society

生成式 AI 不会直接终结工作，它先重排劳动，再放大需求

2026-03-26

3656字 · 13分钟

随笔与观察

凯恩斯低估的不是生产率，而是人类欲望与社会分工的弹性。生成式 AI 更可能压缩旧任务、重排劳动结构，并催生新的服务与需求，而不是直接瓦解整个社会。

#Society #Methodology

Reward 与 Training 在真实 Agent 中如何闭环：从数据治理到在线 RL

2026-03-22

10372字 · 35分钟

训练与对齐

这一篇不再把论文逐篇串讲，而是按真实系统的训练流水线来重写：从 3000 万历史 query 的数据治理，到工具环境、reward 与 verifier 设计，再到 verified trajectories、SFT、curriculum、online RL 与 benchmark audit。

#Reward Modeling #Data Curation #Evaluation +1

Agentic RL：为什么训练闭环比训练算法更重要

2026-03-21

5383字 · 18分钟

训练与对齐

当 LLM 从回答问题变成在环境中持续行动，真正决定系统上限的往往不是某个 loss 的名字，而是从数据治理、环境合同、反馈栈到 online RL 再到蒸馏回流的这条训练闭环有没有被接对。

#Reinforcement Learning #Agentic RL #Training Pipeline +1

从 Working Memory 到长期记忆：Agent Memory 的全景图

2026-03-21

10847字 · 37分钟

智能体系统

Memory 不是外挂数据库，而是围绕 Working Memory 展开的认知生命周期管理，难点在写入、更新、检索与治理。

#Agents #Context Engineering #Retrieval +1

给 LLM 戴上确定性枷锁的外围工程：从 Claude Code 看 Agent Harness

2026-03-20

9467字 · 32分钟

智能体系统

真正把 Agent 压成可交付系统的，不是核心 loop，而是围绕 LLM 不确定性搭出来的外围工程：把语言请求进一步下沉成工具契约、知识路由、生命周期验证、隔离恢复与自治治理。

#Agents #Harness #Claude Code +3

从 LSH 到 K-center-greedy：语义嵌入如何做数据去重、清洗与样本筛选

2026-03-19

4319字 · 15分钟

智能体系统

语义嵌入不只是用来做检索。无论是 LSH 初筛、Faiss 语义去重，还是 K-center-greedy 样本筛选，本质上都在利用同一个表示空间处理冗余、覆盖与召回问题。

#Embeddings #Data Curation

Reward 设计的演化：从 RLHF 到 RLVR，监督对象如何被重写

2026-03-19

11051字 · 37分钟

训练与对齐

这篇文章把 reward 主线一次讲到底：从 OpenAI 的 RLHF 奠基，到 PRM 与 RLVR，再到 LLM as Judge、Rubrics as Rewards 与 ArenaRL。真正的主线不是“谁来打分”，而是 reward 本身应该怎样被给出、被组织、被约束。

#Alignment #Reward Modeling #Reinforcement Learning

Model Is Good Enough：2026 年，AI 真正稀缺的是应用而不是更大的模型

2026-03-18

4891字 · 17分钟

随笔与观察

Model 已经跨过够用阈值。2026 年更稀缺的，不是下一个更大的基模，而是那些能真正进入工作流与生活、并反过来生产数据与反馈的应用。

#Society #Agents

从黑盒预测器到可追溯医疗 Agent：医疗AI的未来

2026-03-18

6259字 · 21分钟

智能体系统

按技术演进梳理医疗 AI 如何从黑盒预测器走向可追溯医疗 Agent。

#Agents #Multimodality #Interpretability

行为审计与行为解码：从 Reward 之后到 Agent 可观测性

2026-03-17

7277字 · 25分钟

智能体系统

Reward 负责把目标写进优化器，但它不负责证明模型真的学会了正确目标。本文从初学者视角重写行为审计与行为解码：为什么 reward 之后还需要后验校验，Anthropic 与 Transluce 两条路线分别在补什么空白。

#Agents #Evaluation #Reward Modeling

AEnvironment：Agent 需要一个统一的环境层吗？

2026-03-16

5795字 · 20分钟

智能体系统

AEnvironment 不是在和 LangChain 争谁来写 agent loop，它在回答另一个问题：agent 通过什么统一边界接触世界。这个问题值得认真讨论，但答案未必是它。

#Agents #MCP #Reinforcement Learning +1

LLM 对齐中的强化学习：从奖励信号到优势估计

2026-03-16

7134字 · 24分钟

训练与对齐

从 reward、baseline、advantage 与 normalization 这条信号链出发，解释为什么 LLM 对齐中的 RL 算法总在重写奖励信号。

#Alignment #Reinforcement Learning #Reward Modeling

为什么更好的 Simulator 往往是 Learning + Rules：从 PDE、光线追踪到 DLSS

2026-03-15

8364字 · 28分钟

机器学习

更好的 simulator 往往不是纯规则，也不是纯学习，而是把守恒、几何、因果、边界条件与渲染/求解结构当作归纳偏置，交给 learning 去补昂贵、模糊或难解析的部分。

#Scientific ML #Methodology

训练模型时的样本不均衡：从统计学习到长尾学习的处理方案

2026-03-14

9756字 · 33分钟

机器学习

“训练集类别不均衡并不只是少数类太少这么简单。本文从统计学习、稀有事件建模、长尾深度学习与概率校准四条线梳理样本不均衡的研究脉络，并给出可执行的选型框架，说明何时该采样、何时该重加权、何时该调阈值与做校准。”

#Imbalanced Learning #Statistical Inference #Methodology

从 Bagging 到 Stacking：集成学习学习笔记

2026-03-12

5773字 · 20分钟

机器学习

把 Random Forest、GBDT、XGBoost 与 Stacking 放回同一张图里：一篇集成学习学习笔记。

#Ensemble Learning #Methodology

从 MCP 到 Agent Skills：为什么 Agent 又需要一种新的上下文工程协议？

2026-03-10

9847字 · 33分钟

智能体系统

Agent Skills 的爆火不是因为它比 MCP 更先进，而是因为它把能力封装做得足够简单。它是上下文工程中重要的一环，但不是新的统一协议，更不是 Agent 的终局。

#MCP #Agents #Context Engineering +1

从 RL Agent 到 LLM Agent：The Second Half 之后的范式转移与不确定性建模

2026-03-09

11795字 · 40分钟

智能体系统

从RL Agent到LLM Agent的演进不是简单的模型替换，而是学习信号从数值空间迁移到语言空间的范式转换。The Second Half 之后，开放世界研究、语言空间推理与混合架构共同证明：预训练先验、评估与记忆正在重写智能体的主范式

#Agents #Reinforcement Learning #Tool Use

Context is All You Need：智能体的上下文工程

2026-03-06

4296字 · 15分钟

智能体系统

聚焦 Working Memory 的工程化管理：如何组织 Memory Manager、混合检索、写入更新、遗忘治理与评估闭环。

#Agents #Context Engineering

LLM 工具使用的技术演进：从 Toolformer 到 ToolLLM

2026-03-05

2288字 · 8分钟

智能体系统

梳理 LLM Tool Use 领域的研究脉络——从 Toolformer 的自监督学习、Gorilla 的微调+检索、Tulip Agent 的递归分解，到 ToolLLM 的大规模框架，以及为什么这条研究路线正在被模型能力提升和 MCP 所取代。

#Agents #Tool Use

参数高效微调（PEFT）：从 Adapter 到 LoRA 的技术演进

2026-03-05

3871字 · 13分钟

训练与对齐

梳理参数高效微调（PEFT）领域的核心方法演进——从 Adapter、Prefix-Tuning 到 LoRA、Prompt Tuning、P-Tuning v2 与 AdaLoRA，理解不同技术路线的设计哲学与适用场景。

#Fine-Tuning #Model Mechanics

从智能体的认知结构到智能体框架

2026-03-03

11648字 · 39分钟

智能体系统

本文从认知架构（CoALA）出发，探讨了纯Agent与Workflow的优劣，并深入分析了智能体框架的工程价值、瓶颈及下一代基础设施的构建思路。

#Agents #Tool Use #Context Engineering

AI Agent 时代的检索与爬虫工具

2026-03-03

2192字 · 8分钟

智能体系统

当搜索与抓取 API 的接口逐渐趋同，Tavily、Exa、Grok/xAI、Firecrawl、Nimble 与 Crawl4AI 的差异主要体现在答案生成、搜索提取、实时检索、文档清洗与抓取控制等不同层次。本文按定位、适用场景与接入成本比较它们。

#Agents #Retrieval #Data Curation

Agent 时代的基础设施建设

2026-03-02

1710字 · 6分钟

智能体系统

从“模型即服务”走向“智能体即服务”，探讨 AI Agent 的基础能力将会沉淀为新时代的基础设施的必然趋势

#Agents #Tool Use #Context Engineering

空间数据分析

2026-03-02

9074字 · 31分钟

数据科学

对空间数据分析的基本概念、空间总体特性、抽样和插值方法进行了系统的整理和详细介绍。

#Spatial Data #Methodology

让Agent变得可行，大模型结构化输出与受限解码技术

2026-02-28

5279字 · 18分钟

智能体系统

本文探讨了AI Agent中大语言模型结构化输出的必要性与面临的挑战，分析了从早期的提示词工程到现代受限解码技术的发展，帮助开发者跳出低效的重试机制，实现可靠的结构化数据生成。

#Agents #Tool Use #Reasoning

SHaply与SHAP——模型解释性的SOTA工具

2026-02-27

7680字 · 26分钟

机器学习

本文详细介绍了Shapley值的理论基础及其在机器学习中的应用SHAP，探讨了其优势与局限性，并分享了实际工程中的指导指南。

#Interpretability #Methodology

为什么数据总在“骗”你？——反直觉的检查悖论

2026-02-26

1333字 · 5分钟

数据科学

你是否经常觉得，自己等公交的时间总是比官方公布的平均间隔长？或者学校宣传的“平均小班授课”，到了自己身上却总是上百人的大课？这其实并非你的运气糟糕，而是一个普遍存在于统计学中的陷阱——检查悖论（Inspection Paradox）

#Statistical Inference #Methodology

Why Language Models Hallucinate

2026-02-24

1913字 · 7分钟

基础模型

基于 OpenAI 团队论文《Why Language Models Hallucinate》：幻觉并非单纯源于数据噪声或模型缺陷，而是现代训练范式与二元评估机制带来的统计压力——系统性惩罚不确定性表达，从而奖励瞎猜。

#Reasoning #Model Mechanics

LLM 推理与训练的本质：从 Surrogate 到强化学习的几何空间

2026-02-23

7207字 · 25分钟

基础模型

从Loss 只是 Surrogate的视角出发，回顾 Test-Time Compute (TTS) 如何控制泛化误差，并结合 CMU 的能力边缘理论揭示 RL 后训练的边界；微观剖析策略熵坍缩现象与 Meta 的 Three-Gate 理论，了解RL和SFT在微观的差异。

#Reasoning #Alignment #Reinforcement Learning

大模型的 Loss Landscape 是什么样的？

2026-02-22

7503字 · 26分钟

基础模型

基于论文 Unveiling the Basin-Like Loss Landscape in Large Language Models，系统解读大模型 loss landscape 中的 basin 现象：为什么大多数方向上的微调相对安全、为什么最坏方向上的少量对抗数据能迅速摧毁能力，以及这对对齐、越狱与预训练意味着什么。

#Fine-Tuning #Alignment #Model Mechanics

Compression for AGI：压缩即智能

2026-02-20

1163字 · 4分钟

基础模型

整理 Jack Rae 在《Compression for AGI》中的核心观点：基础模型训练可以理解为对有效信息的无损压缩；压缩率越高（loss 越低），模型越可能呈现更强的泛化与智能行为。

#Pre-Training #Model Mechanics

卡尔曼滤波：从阿波罗登月到全球气象预报

2026-02-19

5533字 · 19分钟

数据科学

状态估计是现代科技的基石。本文深入浅出地介绍了卡尔曼滤波(KF)、扩展卡尔曼滤波(EKF)、无迹卡尔曼滤波(UKF)以及集合卡尔曼滤波(EnKF)的原理与应用。

#Time Series #Statistical Inference

聊聊齐普夫定律：从伏尼契手稿到外星文明

2026-02-18

2565字 · 9分钟

数据科学

伏尼契手稿是胡乱涂鸦还是失落的语言？外星人信号长什么样？这一切都指向同一个统计学定律。

#Statistical Inference #Methodology

如何与统计学家分享数据 (How to Share Data with a Statistician)

2026-02-17

3021字 · 11分钟

数据科学

本文转载自 Jeff Leek 的经典文章，详细介绍了在与统计学家合作分析数据前，应该如何准备和整理数据（Raw Data, Tidy Data, Code Book）。

#Data Curation #Statistical Inference #Methodology

统计推断的计算革命：详解 Jackknife, Bootstrap 与 Subsampling

2026-02-16

3717字 · 13分钟

数据科学

无需繁冗的分布假设，如何估计统计量的误差？本文深入剖析 Jackknife、Bootstrap 与 Subsampling 三种重抽样方法，从数学原理到渐进性质，探讨计算力如何替代解析推导成为统计推断的新引擎。

#Resampling #Statistical Inference

MCP (Model Context Protocol)

2026-02-16

10555字 · 36分钟

智能体系统

本文详细介绍了MCP（Model Context Protocol）的架构与实现，包括Host、Client、Server的核心概念与Python SDK实战，并深入探讨了从MCP到Agent Skills的技术演进与未来思考。

#MCP #Agents #Context Engineering

统计学的应用与应用的统计学

2026-02-14

4586字 · 16分钟

数据科学

探讨统计学在追求理论完美的过程中如何逐渐偏离了应用的初衷，以及数据科学与机器学习是如何在大数据时代接过了'应用的统计学'这一接力棒，重新回归解决现实问题的本质。

#Methodology #Statistical Inference

数据科学的第60年

2026-02-13

7187字 · 24分钟

数据科学

回顾数据科学60年的发展历程，从John Tukey的预言到David Donoho的广义数据科学。探讨统计学与计算机科学的融合，以及数据科学作为第四范式的科学本质与未来。

#Methodology #Society

LDA主题模型：文本数据的生成密码

2026-02-12

1609字 · 6分钟

数据科学

作为概率图模型的集大成者，LDA 将贝叶斯先验与潜变量模型完美融合，破解了非结构化文本背后的“主题结构”。本文利用 Plate Notation 细致剖析了其生成过程，并推导了基于折叠吉布斯采样的推断算法。

#Graphical Models #Methodology

马尔可夫随机场：无向图模型与空间相关性

2026-02-11

1753字 · 6分钟

数据科学

当变量间的关系不再具有明确的方向性，而是呈现出对称的空间相关性时，我们需要无向图模型。本文详细阐述了马尔可夫随机场的数学定义、Hammersley-Clifford 定理、吉布斯分布以及其在图像与物理领域的应用。

#Graphical Models #Spatial Data

隐马尔可夫模型：时间序列的概率解析

2026-02-10

1761字 · 6分钟

数据科学

当概率图模型遇上时间序列，便诞生了能够描述动态系统的隐马尔可夫模型 (HMM)。本文深入解析了 HMM 的双重随机过程结构，并详细推导了解决评估、解码与学习这三大核心问题的数学算法。

#Graphical Models #Time Series

贝叶斯网络：从概率图到因果推断

2026-02-09

1962字 · 7分钟

数据科学

贝叶斯网络作为一种概率图模型，通过有向无环图将概率与因果关系结合，成为实现因果推断的重要工具。本文深入探讨了其结构表示、条件独立性原理以及参数与结构的学习算法。

#Graphical Models #Statistical Inference

统计学常用评估指标R方，它从不衡量模型与真实世界的拟合程度

2026-02-08

1616字 · 6分钟

数据科学

R方不只是模型误差的函数，它的定义中还隐含了两个模型的比较：一个是当前被分析的模型，一个是所谓的常数模型，即只利用因变量均值进行预测的模型。基于此，R方从不衡量模型与真实世界的拟合程度。

#Linear Models #Statistical Inference

常见的统计检验本质上都是线性模型 (Common statistical tests are linear models)

2026-02-07

1339字 · 5分钟

数据科学

转载自 Jonas Kristoffer Lindeløv 的文章。揭示了 t 检验、ANOVA、卡方检验等常用统计方法背后的统一线性模型原理。

#Linear Models #Statistical Inference

基础预测模型的基本限制：多模态与严谨评估的必要性

2026-02-06

1909字 · 7分钟

机器学习

深度学习在时间序列预测中真的总是有效吗？本文基于 Christoph Bergmeir 在 NeurIPS 2024 的演讲，探讨了基础预测模型的局限性、评估中的陷阱，以及为何多模态上下文才是未来的方向。

#Time Series #Methodology

从主成分回归 (PCR) 到偏最小二乘 (PLS)

2026-02-05

1928字 · 7分钟

数据科学

当数据存在多重共线性时，PCR 和 PLSR 都是常用的降维回归方法。本文详细推导了 PCR 与 PLSR 的数学原理，分析了 PCR “只看 X 不看 Y” 的潜在缺陷，并直观解释了 PLSR 如何通过引入因变量相关性来解决这一问题。

#Linear Models #Dimensionality Reduction

数字不会撒谎，但撒谎的人会编数字：从本福特定律聊聊统计造假识别

2026-02-04

3678字 · 13分钟

数据科学

当数据看起来太过“完美”时，往往意味着它可能偏离了真实。本文将从本福特定律开始，揭示那些隐藏在造假数据背后的统计学指纹。

#Statistical Inference #Methodology

The Illustrated Guide to a Ph.D.

2026-01-31

401字 · 2分钟

随笔与观察

每年秋天，Matt Might 都要向新一批博士生解释什么是博士学位。用来描绘从小学到博士毕业的知识积累过程。

#Society #Methodology

Neural Scaling Laws：从 Kaplan 到 Chinchilla

2026-01-26

9537字 · 32分钟

基础模型

本文从 Kaplan 定律到 Chinchilla 修正，介绍关于ScalingLaw的研究，并且简单讨论一下TreeModel与ScalingLaw的关系。

#Pre-Training #Model Mechanics

The Statistical Crisis in Science

2026-01-24

3478字 · 12分钟

数据科学

假设检验很强大，但它依赖前提；p 值显著也不等于“结论正确”的概；任何不精通统计学的人都可能在无意中进行统计造假。

#Statistical Inference #Methodology #Society

表格数据上仍旧是SOTA：XGBoost、LightGBM 与 CatBoost

2026-01-22

8838字 · 30分钟

机器学习

为什么结构化表格数据场景里，提升树至今仍常是最强 baseline？本文聚焦 XGBoost、LightGBM 与 CatBoost，讨论它们各自的技术重心、工程取舍与最佳战场。

#Ensemble Learning #Methodology

从 LLM 到 VLM,语言模型如何实现视觉理解

2026-01-19

12970字 · 44分钟

基础模型

深入剖析从纯语言模型到视觉-语言模型的技术演进路径,涵盖CLIP、VLM到JEPA的核心原理与架构创新。

#Multimodality #Model Mechanics

从欧氏空间到流形拓扑：高维数据的降维之旅

2026-01-16

3670字 · 13分钟

机器学习

深入剖析从线性保持(PCA/MDS)到非线性流形(t-SNE/UMAP)的降维技术演进,探讨这些方法背后的数学直觉与技术细节

#Dimensionality Reduction #Methodology

安斯库姆四重奏：可视化的力量与统计错觉

2026-01-14

2082字 · 7分钟

数据科学

数值计算是精确的，图表是粗略的？统计学家 Francis Anscombe 用四组神奇的数据集打破了这一成见。本文将通过安斯库姆四重奏（Anscombe's Quartet）深入探讨探索性数据分析（EDA）在统计推断中的必要性。

#Data Visualization #Statistical Inference

多元时间序列的 SVD 分解与模式

2026-01-12

1087字 · 4分钟

数据科学

对于一个 n×T 的时间序列矩阵 X，SVD 分解可以得到 X=UΣV^T。本文将详细解释得到的矩阵在时空模式挖掘中的物理意义，包括空间模式 U、时间模式 V 以及奇异值 Σ 的含义。

#Time Series #Dimensionality Reduction

统计与真理：如何运用偶然性 (Statistics and Truth)

2026-01-10

5943字 · 20分钟

数据科学

在终极的分析中，一切知识都是历史；在抽象的意义下，一切科学都是数学；在理性的基础上，所有的判断都是统计学。—— C.R. Rao。本文重读这本统计学经典，回顾整个统计学的历史以及整个发展中产生的诸多问题。

#Statistical Inference #Methodology

问卷的信效度分析与结构方程模型 (SEM)

2026-01-08

2813字 · 10分钟

数据科学

在问卷研究中，信度和效度是衡量问卷质量的两个黄金标准。本文介绍了信度分析、效度分析以及验证性因子分析（CFA）与结构方程模型（SEM）的核心概念与流程。

#Statistical Inference #Linear Models

高维数据与高维统计：挑战、理论与方法

2026-01-06

2143字 · 8分钟

数据科学

在大数据时代，数据的维度常常远超样本量，这种“高维小样本”情形对传统统计方法构成了严峻挑战。本文探讨了高维数据带来的计算、感知与统计维度的三重挑战，并介绍了统计学界通过降维、正则化与稀疏性假设等方法进行的理论重构与创新。

#Statistical Inference #Methodology

LLM 是否带来技术平权？(Does LLM Bring Equality?)

2026-01-04

1617字 · 6分钟

随笔与观察

ChatGPT 发布以来，AI 被誉为知识的民主化工具。本文探讨大型语言模型（LLM）究竟是促进了知识和技能的普惠，还是加剧了现有的社会不平等，并分析 DeepSeek 等开源模型在其中的调节作用。

#Society #Methodology

Re0-05 : TRL GRPOTrainer（实战篇）

2025-12-31

3938字 · 14分钟

训练与对齐

GRPO 实战：GRPOTrainer、监控调试与完整示例

#Reinforcement Learning #Alignment #Reward Modeling

Re0-04 : TRL GRPOTrainer（原理篇）

2025-12-30

6828字 · 23分钟

训练与对齐

GRPO 原理：在线采样、群组相对优势与奖励系统

#Reinforcement Learning #Alignment #Reward Modeling

Re0-03 : HuggingFace TRL DPOTrainer

2025-12-29

4047字 · 14分钟

训练与对齐

详解使用 TRL DPOTrainer微调LLM：实现简单的偏好对齐

#Fine-Tuning #Alignment

Re0-02 : HuggingFace TRL SFTTrainer

2025-12-28

2785字 · 10分钟

训练与对齐

详解使用 TRL SFTTrainer微调LLM：Loss Masking、Flash-Attention

#Fine-Tuning #Alignment

Re0-01 : HuggingFace Transformers Trainer

2025-12-27

2906字 · 10分钟

训练与对齐

详解使用 Transformers Trainer微调LLM：Loss Masking、量化与LoRA

#Fine-Tuning #Pre-Training

第一篇博客（An Example）

2025-12-26

339字 · 2分钟

随笔与观察

这是博客的第一篇文章，也是后续写作规范的一个示例与说明。

#Methodology #Society

记录学习、思考与成长

后端学习笔记

Agent时代的基础设施

Reward and Training

LLM ESSENCE

概率图模型 (Probabilistic Graphical Models)

Re0 : 从0开始的LLM Finetuning

从 AI Agent Demo 到大规模服务：后端能力全景图

国家级网络审查机制与抗审查代理协议的攻防演进

Claude Code or Codex：编码模型差异如何变成产品体验的不同

Spec 不是新范式：Vibe Coding、SDD 与 AI 时代的软件工程转向

Harness 到底是什么：从 model + harness 到工程、产品与用户友好外壳

Three Gate Problem

《科幻短篇*3》

生成式 AI 不会直接终结工作，它先重排劳动，再放大需求

Reward 与 Training 在真实 Agent 中如何闭环：从数据治理到在线 RL

Agentic RL：为什么训练闭环比训练算法更重要

从 Working Memory 到长期记忆：Agent Memory 的全景图

给 LLM 戴上确定性枷锁的外围工程：从 Claude Code 看 Agent Harness

从 LSH 到 K-center-greedy：语义嵌入如何做数据去重、清洗与样本筛选

Reward 设计的演化：从 RLHF 到 RLVR，监督对象如何被重写

Model Is Good Enough：2026 年，AI 真正稀缺的是应用而不是更大的模型

从黑盒预测器到可追溯医疗 Agent：医疗AI的未来

行为审计与行为解码：从 Reward 之后到 Agent 可观测性

AEnvironment：Agent 需要一个统一的环境层吗？

LLM 对齐中的强化学习：从奖励信号到优势估计

为什么更好的 Simulator 往往是 Learning + Rules：从 PDE、光线追踪到 DLSS

训练模型时的样本不均衡：从统计学习到长尾学习的处理方案

从 Bagging 到 Stacking：集成学习学习笔记

从 MCP 到 Agent Skills：为什么 Agent 又需要一种新的上下文工程协议？

从 RL Agent 到 LLM Agent：The Second Half 之后的范式转移与不确定性建模

Context is All You Need：智能体的上下文工程

LLM 工具使用的技术演进：从 Toolformer 到 ToolLLM

参数高效微调（PEFT）：从 Adapter 到 LoRA 的技术演进

从智能体的认知结构到智能体框架

AI Agent 时代的检索与爬虫工具

Agent 时代的基础设施建设

空间数据分析

让Agent变得可行，大模型结构化输出与受限解码技术

SHaply与SHAP——模型解释性的SOTA工具

为什么数据总在“骗”你？——反直觉的检查悖论

Why Language Models Hallucinate

LLM 推理与训练的本质：从 Surrogate 到强化学习的几何空间

大模型的 Loss Landscape 是什么样的？

Compression for AGI：压缩即智能

卡尔曼滤波：从阿波罗登月到全球气象预报

聊聊齐普夫定律：从伏尼契手稿到外星文明

如何与统计学家分享数据 (How to Share Data with a Statistician)

统计推断的计算革命：详解 Jackknife, Bootstrap 与 Subsampling

MCP (Model Context Protocol)

统计学的应用与应用的统计学

数据科学的第60年

LDA主题模型：文本数据的生成密码

马尔可夫随机场：无向图模型与空间相关性

隐马尔可夫模型：时间序列的概率解析

贝叶斯网络：从概率图到因果推断

统计学常用评估指标R方，它从不衡量模型与真实世界的拟合程度

常见的统计检验本质上都是线性模型 (Common statistical tests are linear models)

基础预测模型的基本限制：多模态与严谨评估的必要性

从主成分回归 (PCR) 到偏最小二乘 (PLS)

数字不会撒谎，但撒谎的人会编数字：从本福特定律聊聊统计造假识别

The Illustrated Guide to a Ph.D.

Neural Scaling Laws：从 Kaplan 到 Chinchilla

The Statistical Crisis in Science

表格数据上仍旧是SOTA：XGBoost、LightGBM 与 CatBoost

从 LLM 到 VLM,语言模型如何实现视觉理解

从欧氏空间到流形拓扑：高维数据的降维之旅

安斯库姆四重奏：可视化的力量与统计错觉

多元时间序列的 SVD 分解与模式

统计与真理：如何运用偶然性 (Statistics and Truth)

问卷的信效度分析与结构方程模型 (SEM)

高维数据与高维统计：挑战、理论与方法

LLM 是否带来技术平权？(Does LLM Bring Equality?)

Re0-05 : TRL GRPOTrainer（实战篇）

Re0-04 : TRL GRPOTrainer（原理篇）

Re0-03 : HuggingFace TRL DPOTrainer

Re0-02 : HuggingFace TRL SFTTrainer

Re0-01 : HuggingFace Transformers Trainer

第一篇博客（An Example）