博客

记录学习、思考与成长

分享我在数据科学、机器学习、LLM Agent等领域的探索与见解

分类:
标签:

后端学习笔记

1 篇文章
2026-04-19 ~ 2026-04-19
#Backend #Agents #Databases #Go

Agent时代的基础设施

9 篇文章
2026-04-04 ~ 2026-03-02
#Agents #Tool Use #Context Engineering #Retrieval

Reward and Training

4 篇文章
2026-03-22 ~ 2026-03-16
#Alignment #Reinforcement Learning #Reward Modeling #Agentic RL

LLM ESSENCE

5 篇文章
2026-02-24 ~ 2026-01-26
#Pre-Training #Model Mechanics #Fine-Tuning #Alignment

概率图模型 (Probabilistic Graphical Models)

4 篇文章
2026-02-12 ~ 2026-02-09
#Graphical Models #Statistical Inference #Time Series #Spatial Data

Re0 : 从0开始的LLM Finetuning

5 篇文章
2025-12-31 ~ 2025-12-27
#Fine-Tuning #Pre-Training #Alignment #Reinforcement Learning

从 AI Agent Demo 到大规模服务:后端能力全景图

这是一份后端学习笔记的第一篇,研究把 AI Agent 从 Demo 变成大规模服务,到底需要哪些后端能力,今天的后端技术又分别如何解决这些问题。后面将会开始逐步学习相关技术。

国家级网络审查机制与抗审查代理协议的攻防演进

国家级网络审查与抗审查协议的对抗,本质上不是某几个工具的替换史,而是一场围绕识别、伪装、探测、成本与生态展开的长期系统工程博弈。

Claude Code or Codex:编码模型差异如何变成产品体验的不同

一篇面向开发者的研究综述:从 Claude 系列与 GPT 系列在编码场景中的能力差异出发,理解这些差异如何投射到 Claude Code 与 Codex 的 agent runtime、任务执行边界、上下文组织和工作流体验中。

Spec 不是新范式:Vibe Coding、SDD 与 AI 时代的软件工程转向

AI 时代的软件工程并没有走向 Spec-first,而是在代码生成成本坍塌后转向 feedback-first:先用原型和集成反馈发现真实需求,再把已结晶的约束反向提炼成活文档、契约与 ADR。

Harness 到底是什么:从 model + harness 到工程、产品与用户友好外壳

LangChain 的 `agent = model + harness` 是正确的,但只在最粗粒度上成立;一旦进入真实工程问题,更有解释力的拆分往往是工程 harness、产品 harness、用户友好 harness,以及 task interface。

Three Gate Problem

三门问题最迷惑人的地方,不是算不出 2/3,而是主持人开门以后,人会本能地把局面看成 50/50。真正关键在于,主持人的行动不是随机事件,而是一次带约束的信息披露。

《科幻短篇*3》

科幻短篇*3,灵感来源于被Anthropic封号后;包括大纲在内,以下全部均有GenAI辅助撰写,直接用的Claude Code和Codex CLI。

生成式 AI 不会直接终结工作,它先重排劳动,再放大需求

凯恩斯低估的不是生产率,而是人类欲望与社会分工的弹性。生成式 AI 更可能压缩旧任务、重排劳动结构,并催生新的服务与需求,而不是直接瓦解整个社会。

Reward 与 Training 在真实 Agent 中如何闭环:从数据治理到在线 RL

这一篇不再把论文逐篇串讲,而是按真实系统的训练流水线来重写:从 3000 万历史 query 的数据治理,到工具环境、reward 与 verifier 设计,再到 verified trajectories、SFT、curriculum、online RL 与 benchmark audit。

Agentic RL:为什么训练闭环比训练算法更重要

当 LLM 从回答问题变成在环境中持续行动,真正决定系统上限的往往不是某个 loss 的名字,而是从数据治理、环境合同、反馈栈到 online RL 再到蒸馏回流的这条训练闭环有没有被接对。

从 Working Memory 到长期记忆:Agent Memory 的全景图

Memory 不是外挂数据库,而是围绕 Working Memory 展开的认知生命周期管理,难点在写入、更新、检索与治理。

给 LLM 戴上确定性枷锁的外围工程:从 Claude Code 看 Agent Harness

真正把 Agent 压成可交付系统的,不是核心 loop,而是围绕 LLM 不确定性搭出来的外围工程:把语言请求进一步下沉成工具契约、知识路由、生命周期验证、隔离恢复与自治治理。

从 LSH 到 K-center-greedy:语义嵌入如何做数据去重、清洗与样本筛选

语义嵌入不只是用来做检索。无论是 LSH 初筛、Faiss 语义去重,还是 K-center-greedy 样本筛选,本质上都在利用同一个表示空间处理冗余、覆盖与召回问题。

Reward 设计的演化:从 RLHF 到 RLVR,监督对象如何被重写

这篇文章把 reward 主线一次讲到底:从 OpenAI 的 RLHF 奠基,到 PRM 与 RLVR,再到 LLM as Judge、Rubrics as Rewards 与 ArenaRL。真正的主线不是“谁来打分”,而是 reward 本身应该怎样被给出、被组织、被约束。

Model Is Good Enough:2026 年,AI 真正稀缺的是应用而不是更大的模型

Model 已经跨过够用阈值。2026 年更稀缺的,不是下一个更大的基模,而是那些能真正进入工作流与生活、并反过来生产数据与反馈的应用。

从黑盒预测器到可追溯医疗 Agent:医疗AI的未来

按技术演进梳理医疗 AI 如何从黑盒预测器走向可追溯医疗 Agent。

行为审计与行为解码:从 Reward 之后到 Agent 可观测性

Reward 负责把目标写进优化器,但它不负责证明模型真的学会了正确目标。本文从初学者视角重写行为审计与行为解码:为什么 reward 之后还需要后验校验,Anthropic 与 Transluce 两条路线分别在补什么空白。

AEnvironment:Agent 需要一个统一的环境层吗?

AEnvironment 不是在和 LangChain 争谁来写 agent loop,它在回答另一个问题:agent 通过什么统一边界接触世界。这个问题值得认真讨论,但答案未必是它。

LLM 对齐中的强化学习:从奖励信号到优势估计

从 reward、baseline、advantage 与 normalization 这条信号链出发,解释为什么 LLM 对齐中的 RL 算法总在重写奖励信号。

为什么更好的 Simulator 往往是 Learning + Rules:从 PDE、光线追踪到 DLSS

更好的 simulator 往往不是纯规则,也不是纯学习,而是把守恒、几何、因果、边界条件与渲染/求解结构当作归纳偏置,交给 learning 去补昂贵、模糊或难解析的部分。

训练模型时的样本不均衡:从统计学习到长尾学习的处理方案

“训练集类别不均衡并不只是少数类太少这么简单。本文从统计学习、稀有事件建模、长尾深度学习与概率校准四条线梳理样本不均衡的研究脉络,并给出可执行的选型框架,说明何时该采样、何时该重加权、何时该调阈值与做校准。”

从 Bagging 到 Stacking:集成学习学习笔记

把 Random Forest、GBDT、XGBoost 与 Stacking 放回同一张图里:一篇集成学习学习笔记。

从 MCP 到 Agent Skills:为什么 Agent 又需要一种新的上下文工程协议?

Agent Skills 的爆火不是因为它比 MCP 更先进,而是因为它把能力封装做得足够简单。它是上下文工程中重要的一环,但不是新的统一协议,更不是 Agent 的终局。

从 RL Agent 到 LLM Agent:The Second Half 之后的范式转移与不确定性建模

从RL Agent到LLM Agent的演进不是简单的模型替换,而是学习信号从数值空间迁移到语言空间的范式转换。The Second Half 之后,开放世界研究、语言空间推理与混合架构共同证明:预训练先验、评估与记忆正在重写智能体的主范式

Context is All You Need:智能体的上下文工程

聚焦 Working Memory 的工程化管理:如何组织 Memory Manager、混合检索、写入更新、遗忘治理与评估闭环。

LLM 工具使用的技术演进:从 Toolformer 到 ToolLLM

梳理 LLM Tool Use 领域的研究脉络——从 Toolformer 的自监督学习、Gorilla 的微调+检索、Tulip Agent 的递归分解,到 ToolLLM 的大规模框架,以及为什么这条研究路线正在被模型能力提升和 MCP 所取代。

参数高效微调(PEFT):从 Adapter 到 LoRA 的技术演进

梳理参数高效微调(PEFT)领域的核心方法演进——从 Adapter、Prefix-Tuning 到 LoRA、Prompt Tuning、P-Tuning v2 与 AdaLoRA,理解不同技术路线的设计哲学与适用场景。

从智能体的认知结构到智能体框架

本文从认知架构(CoALA)出发,探讨了纯Agent与Workflow的优劣,并深入分析了智能体框架的工程价值、瓶颈及下一代基础设施的构建思路。

AI Agent 时代的检索与爬虫工具

当搜索与抓取 API 的接口逐渐趋同,Tavily、Exa、Grok/xAI、Firecrawl、Nimble 与 Crawl4AI 的差异主要体现在答案生成、搜索提取、实时检索、文档清洗与抓取控制等不同层次。本文按定位、适用场景与接入成本比较它们。

Agent 时代的基础设施建设

从“模型即服务”走向“智能体即服务”,探讨 AI Agent 的基础能力将会沉淀为新时代的基础设施的必然趋势

空间数据分析

对空间数据分析的基本概念、空间总体特性、抽样和插值方法进行了系统的整理和详细介绍。

让Agent变得可行,大模型结构化输出与受限解码技术

本文探讨了AI Agent中大语言模型结构化输出的必要性与面临的挑战,分析了从早期的提示词工程到现代受限解码技术的发展,帮助开发者跳出低效的重试机制,实现可靠的结构化数据生成。

SHaply与SHAP——模型解释性的SOTA工具

本文详细介绍了Shapley值的理论基础及其在机器学习中的应用SHAP,探讨了其优势与局限性,并分享了实际工程中的指导指南。

为什么数据总在“骗”你?——反直觉的检查悖论

你是否经常觉得,自己等公交的时间总是比官方公布的平均间隔长?或者学校宣传的“平均小班授课”,到了自己身上却总是上百人的大课?这其实并非你的运气糟糕,而是一个普遍存在于统计学中的陷阱——检查悖论(Inspection Paradox)

Why Language Models Hallucinate

基于 OpenAI 团队论文《Why Language Models Hallucinate》:幻觉并非单纯源于数据噪声或模型缺陷,而是现代训练范式与二元评估机制带来的统计压力——系统性惩罚不确定性表达,从而奖励瞎猜。

LLM 推理与训练的本质:从 Surrogate 到强化学习的几何空间

从Loss 只是 Surrogate的视角出发,回顾 Test-Time Compute (TTS) 如何控制泛化误差,并结合 CMU 的能力边缘理论揭示 RL 后训练的边界;微观剖析策略熵坍缩现象与 Meta 的 Three-Gate 理论,了解RL和SFT在微观的差异。

大模型的 Loss Landscape 是什么样的?

基于论文 Unveiling the Basin-Like Loss Landscape in Large Language Models,系统解读大模型 loss landscape 中的 basin 现象:为什么大多数方向上的微调相对安全、为什么最坏方向上的少量对抗数据能迅速摧毁能力,以及这对对齐、越狱与预训练意味着什么。

Compression for AGI:压缩即智能

整理 Jack Rae 在《Compression for AGI》中的核心观点:基础模型训练可以理解为对有效信息的无损压缩;压缩率越高(loss 越低),模型越可能呈现更强的泛化与智能行为。

卡尔曼滤波:从阿波罗登月到全球气象预报

状态估计是现代科技的基石。本文深入浅出地介绍了卡尔曼滤波(KF)、扩展卡尔曼滤波(EKF)、无迹卡尔曼滤波(UKF)以及集合卡尔曼滤波(EnKF)的原理与应用。

聊聊齐普夫定律:从伏尼契手稿到外星文明

伏尼契手稿是胡乱涂鸦还是失落的语言?外星人信号长什么样?这一切都指向同一个统计学定律。

如何与统计学家分享数据 (How to Share Data with a Statistician)

本文转载自 Jeff Leek 的经典文章,详细介绍了在与统计学家合作分析数据前,应该如何准备和整理数据(Raw Data, Tidy Data, Code Book)。

统计推断的计算革命:详解 Jackknife, Bootstrap 与 Subsampling

无需繁冗的分布假设,如何估计统计量的误差?本文深入剖析 Jackknife、Bootstrap 与 Subsampling 三种重抽样方法,从数学原理到渐进性质,探讨计算力如何替代解析推导成为统计推断的新引擎。

MCP (Model Context Protocol)

本文详细介绍了MCP(Model Context Protocol)的架构与实现,包括Host、Client、Server的核心概念与Python SDK实战,并深入探讨了从MCP到Agent Skills的技术演进与未来思考。

统计学的应用与应用的统计学

探讨统计学在追求理论完美的过程中如何逐渐偏离了应用的初衷,以及数据科学与机器学习是如何在大数据时代接过了'应用的统计学'这一接力棒,重新回归解决现实问题的本质。

数据科学的第60年

回顾数据科学60年的发展历程,从John Tukey的预言到David Donoho的广义数据科学。探讨统计学与计算机科学的融合,以及数据科学作为第四范式的科学本质与未来。

LDA主题模型:文本数据的生成密码

作为概率图模型的集大成者,LDA 将贝叶斯先验与潜变量模型完美融合,破解了非结构化文本背后的“主题结构”。本文利用 Plate Notation 细致剖析了其生成过程,并推导了基于折叠吉布斯采样的推断算法。

马尔可夫随机场:无向图模型与空间相关性

当变量间的关系不再具有明确的方向性,而是呈现出对称的空间相关性时,我们需要无向图模型。本文详细阐述了马尔可夫随机场的数学定义、Hammersley-Clifford 定理、吉布斯分布以及其在图像与物理领域的应用。

隐马尔可夫模型:时间序列的概率解析

当概率图模型遇上时间序列,便诞生了能够描述动态系统的隐马尔可夫模型 (HMM)。本文深入解析了 HMM 的双重随机过程结构,并详细推导了解决评估、解码与学习这三大核心问题的数学算法。

贝叶斯网络:从概率图到因果推断

贝叶斯网络作为一种概率图模型,通过有向无环图将概率与因果关系结合,成为实现因果推断的重要工具。本文深入探讨了其结构表示、条件独立性原理以及参数与结构的学习算法。

统计学常用评估指标R方,它从不衡量模型与真实世界的拟合程度

R方不只是模型误差的函数,它的定义中还隐含了两个模型的比较:一个是当前被分析的模型,一个是所谓的常数模型,即只利用因变量均值进行预测的模型。基于此,R方从不衡量模型与真实世界的拟合程度。

常见的统计检验本质上都是线性模型 (Common statistical tests are linear models)

转载自 Jonas Kristoffer Lindeløv 的文章。揭示了 t 检验、ANOVA、卡方检验等常用统计方法背后的统一线性模型原理。

基础预测模型的基本限制:多模态与严谨评估的必要性

深度学习在时间序列预测中真的总是有效吗?本文基于 Christoph Bergmeir 在 NeurIPS 2024 的演讲,探讨了基础预测模型的局限性、评估中的陷阱,以及为何多模态上下文才是未来的方向。

从主成分回归 (PCR) 到偏最小二乘 (PLS)

当数据存在多重共线性时,PCR 和 PLSR 都是常用的降维回归方法。本文详细推导了 PCR 与 PLSR 的数学原理,分析了 PCR “只看 X 不看 Y” 的潜在缺陷,并直观解释了 PLSR 如何通过引入因变量相关性来解决这一问题。

数字不会撒谎,但撒谎的人会编数字:从本福特定律聊聊统计造假识别

当数据看起来太过“完美”时,往往意味着它可能偏离了真实。本文将从本福特定律开始,揭示那些隐藏在造假数据背后的统计学指纹。

The Illustrated Guide to a Ph.D.

每年秋天,Matt Might 都要向新一批博士生解释什么是博士学位。用来描绘从小学到博士毕业的知识积累过程。

Neural Scaling Laws:从 Kaplan 到 Chinchilla

本文从 Kaplan 定律到 Chinchilla 修正,介绍关于ScalingLaw的研究,并且简单讨论一下TreeModel与ScalingLaw的关系。

The Statistical Crisis in Science

假设检验很强大,但它依赖前提;p 值显著也不等于“结论正确”的概;任何不精通统计学的人都可能在无意中进行统计造假。

表格数据上仍旧是SOTA:XGBoost、LightGBM 与 CatBoost

为什么结构化表格数据场景里,提升树至今仍常是最强 baseline?本文聚焦 XGBoost、LightGBM 与 CatBoost,讨论它们各自的技术重心、工程取舍与最佳战场。

从 LLM 到 VLM,语言模型如何实现视觉理解

深入剖析从纯语言模型到视觉-语言模型的技术演进路径,涵盖CLIP、VLM到JEPA的核心原理与架构创新。

从欧氏空间到流形拓扑:高维数据的降维之旅

深入剖析从线性保持(PCA/MDS)到非线性流形(t-SNE/UMAP)的降维技术演进,探讨这些方法背后的数学直觉与技术细节

安斯库姆四重奏:可视化的力量与统计错觉

数值计算是精确的,图表是粗略的?统计学家 Francis Anscombe 用四组神奇的数据集打破了这一成见。本文将通过安斯库姆四重奏(Anscombe's Quartet)深入探讨探索性数据分析(EDA)在统计推断中的必要性。

多元时间序列的 SVD 分解与模式

对于一个 n×T 的时间序列矩阵 X,SVD 分解可以得到 X=UΣV^T。本文将详细解释得到的矩阵在时空模式挖掘中的物理意义,包括空间模式 U、时间模式 V 以及奇异值 Σ 的含义。

统计与真理:如何运用偶然性 (Statistics and Truth)

在终极的分析中,一切知识都是历史;在抽象的意义下,一切科学都是数学;在理性的基础上,所有的判断都是统计学。—— C.R. Rao。本文重读这本统计学经典,回顾整个统计学的历史以及整个发展中产生的诸多问题。

问卷的信效度分析与结构方程模型 (SEM)

在问卷研究中,信度和效度是衡量问卷质量的两个黄金标准。本文介绍了信度分析、效度分析以及验证性因子分析(CFA)与结构方程模型(SEM)的核心概念与流程。

高维数据与高维统计:挑战、理论与方法

在大数据时代,数据的维度常常远超样本量,这种“高维小样本”情形对传统统计方法构成了严峻挑战。本文探讨了高维数据带来的计算、感知与统计维度的三重挑战,并介绍了统计学界通过降维、正则化与稀疏性假设等方法进行的理论重构与创新。

LLM 是否带来技术平权?(Does LLM Bring Equality?)

ChatGPT 发布以来,AI 被誉为知识的民主化工具。本文探讨大型语言模型(LLM)究竟是促进了知识和技能的普惠,还是加剧了现有的社会不平等,并分析 DeepSeek 等开源模型在其中的调节作用。

Re0-05 : TRL GRPOTrainer(实战篇)

GRPO 实战:GRPOTrainer、监控调试与完整示例

Re0-04 : TRL GRPOTrainer(原理篇)

GRPO 原理:在线采样、群组相对优势与奖励系统

Re0-03 : HuggingFace TRL DPOTrainer

详解使用 TRL DPOTrainer微调LLM:实现简单的偏好对齐

Re0-02 : HuggingFace TRL SFTTrainer

详解使用 TRL SFTTrainer微调LLM:Loss Masking、Flash-Attention

Re0-01 : HuggingFace Transformers Trainer

详解使用 Transformers Trainer微调LLM:Loss Masking、量化与LoRA

第一篇博客(An Example)

这是博客的第一篇文章,也是后续写作规范的一个示例与说明。

加载中…
返回主页