博客

记录学习、思考与成长

分享我在数据科学、机器学习、LLM Agent等领域的探索与见解

分类:
标签:

后端学习笔记

1 篇文章
2026-04-19 ~ 2026-04-19
#Backend #Agents #Software Engineering

Reward and Training

5 篇文章
2026-03-22 ~ 2026-03-16
#Alignment #Reinforcement Learning #Reward Modeling #Evaluation

概率图模型 (Probabilistic Graphical Models)

4 篇文章
2026-02-12 ~ 2026-02-09
#Graphical Models #Statistical Inference #Time Series #Methodology

Re0 : 从0开始的LLM Finetuning

5 篇文章
2025-12-31 ~ 2025-12-27
#Fine-Tuning #Pre-Training #Alignment #Reinforcement Learning

拆开 Agent Runtime:记忆、上下文与隔离在真实系统里如何被装配

用前三篇建立的坐标系(CoALA、L1/L2/L3 三层记忆、harness 三分)去测绘真实系统:Mem0、Letta、Zep、LangGraph、OpenAI Agents SDK、Claude Code、OpenClaw 等如何把记忆、上下文与隔离装配在一起,以及它们在哪里真正分歧。

从反馈回路看 Agent 如何进入科学发现

Gemini 解宇宙弦积分提供了一个清楚的观察入口:当候选生成、搜索控制和外部验证连成闭环时,Agent 才有机会把模型能力转化为可改进的工作过程。

Don't Outsource the Learning(Addy Osmani)

转载 Addy Osmani 的一篇文章:默认的 Agentic Coding Loop 优化的是“完成编码任务”,而非“增加开发者能力”。将任务完全委托给 AI 总会有失效的一天,而解药藏在你怎么提问里。

AI Agent 的未来不是完全自治,而是可治理的委托

Agent 的未来不会从全自主替代人类开始,而会先变成一套可治理的委托关系:人设目标、控权限、看后果,AI 承担越来越多执行。

Embedding Atlas:用可视化理解 RAG 的嵌入空间

Embedding 可视化的用处不在于画一张好看的 UMAP 图,而是把 RAG 的召回、覆盖、混淆、chunk 和数据质量问题放到同一个几何空间里看。

让 Agent 操作浏览器:从自动化脚本到浏览器基础设施的演进

从 Playwright、Chrome DevTools MCP 到 Browser-Use、Stagehand、Skyvern、Lightpanda 和云端浏览器基础设施,梳理浏览器 Agent 工具如何围绕确定性控制、可读感知、行动编排和生产化承载逐步演进。

Agent 外接资源收藏册:Skills、MCP Server、插件与实用工具

一篇长期滚动更新的收藏册,记录可以给 Agent / Coding CLI 外接的各种资源:Skills、MCP Server、插件,以及顺手好用的小工具。

从 Engineer 到 Builder:AI 时代的一人公司与产品思维

生成式 AI 放大的不只是生产力,还有个人的行动边界与可尝试范围。代码越来越便宜之后,工程师需要补上的,是产品思维、分发能力和面向真实痛点的验证闭环。

墓志协议 01|无字碑

乾陵无字碑在雨夜吐出每个读者各自相信的正史;一个负债石匠必须用自己的名字补上一道旧裂。

墓志协议 00|何为墓志协议

《墓志协议》的系列导览:墓志、绝笔、陵墓和纪念公式如何成为历史分支的封存、校验与延迟机制。

About Interview and Job Hunting

一些关于求职和面试准备的阶段性整理,目前还不完善,会随着后续经历和反馈继续更新。

游戏行业如何引入 AI Agent

AI Agent 的价值,不是替团队自动做游戏,而是把模型、工具、内容生成和反馈流程接进能检查、能回滚、能审计的生产链路。

科幻文学与未来

科幻不是新技术的技术报告。本文从世界科幻与中国科幻的演变出发,讨论未来、历史岔路和社会科学如何继续为科幻小说提供新题材。

《赛博清明》

一个清明节,林启明的数字祖灵服务即将到期,一个家庭必须决定是继续维护死者,还是让他完成二次安息。灵感来源于 Shimmer 在清明节的一个简单想法,脑机接口,预训练语言模型以及外挂记忆系统或许能够为人类带来数字永生,但这代价是什么呢?

差就是好:从 DeepSeek 未采用 n-gram 结构说起

一个知乎回答提醒我们:在大模型工程里,精巧结构未必胜过简单结构。能稳定吃满显卡、顺着矩阵乘法流水线运行的设计,往往更容易留下来。

从 `\n\n` 看模型状态:Word Salad Chopper 带来的一个小启发

Word Salad Chopper 不只是在砍掉推理模型里的重复废话,也提示我们:换行边界 token 的 hidden state 可能是观察模型生成模式的低成本入口。

为什么 Output Token 更贵:从 KV Cache 到 Agent 成本工程

Output token 贵,主要因为 decode 串行、KV Cache 占显存和调度槽位;Agent 成本优化要控制输出预算和稳定前缀。

模型路由到底在解决什么:从 Agent 成本、延迟到推理控制

模型路由把 Agent 的每次调用拆成成本、延迟、工具稳定性和失败升级决策;重点不是选最强模型,而是分配预算。

Agentic Coding 时代的终端工作流:git worktree、Ghostty、Zellij 与 Neovim

一篇面向 Agentic Coding 日常实践的小分享:用 git worktree 隔离并行任务,用 Ghostty 承载更舒服的终端体验,用 Zellij 组织会话,并在需要时用 Neovim 直接修改文件。

AutoGluon:把机器学习 Baseline 简化到几行代码

AutoGluon 不只是在减少代码量,它把强 baseline 方法论固化成统一、可比较、可迁移的机器学习工作流。

TouchDesigner 点云与 3D Gaussian Splatting

TouchDesigner 处理点云的魅力,在于它能把扫描到的现实、生成式动画和实时系统揉成同一种视觉语言。

国家级网络审查机制与抗审查代理协议的攻防演进

国家级网络审查与抗审查协议的对抗,不是某几个工具的替换史,而是围绕识别、伪装、探测、成本与生态展开的长期系统工程博弈。

BettaFish、MiroFish、OpenClaw 与 Agent 的信任边界

BettaFish/MiroFish 和 OpenClaw 分别把 Agent 推到两条信任边界上:我们能相信 AI 说到什么程度,以及我们愿意让 AI 在自己的环境里做到什么程度。

Claude Code or Codex:编码模型差异如何变成产品体验的不同

一篇面向开发者的研究综述:从 Claude 系列与 GPT 系列在编码场景中的能力差异出发,理解这些差异如何投射到 Claude Code 与 Codex 的 agent runtime、任务执行边界、上下文组织和工作流体验中。

Spec 不是新范式:Vibe Coding、SDD 与 AI 时代的软件工程转向

AI 时代的软件工程并没有走向 Spec-first,而是在代码生成成本坍塌后转向 feedback-first:先用原型和集成反馈发现真实需求,再把已结晶的约束反向提炼成活文档、契约与 ADR。

Harness 到底是什么:从 model + harness 到工程、产品与用户友好外壳

LangChain 关于 agent = model + harness 的说法只在粗粒度上成立;真实工程里更有解释力的是工程、产品、用户友好外壳与 task interface。

Three Gate Problem

三门问题最迷惑人的地方,不是算不出 2/3,而是主持人开门以后,人会本能地把局面看成 50/50。真正关键在于,主持人的行动不是随机事件,而是一次带约束的信息披露。

《科幻短篇*3》

科幻短篇三则,灵感来源于被 Anthropic 封号后;当人类社会被人工智能接管,除了金钱的贫富以外另一种阶级的差距;包括大纲在内,正文由 LLM 辅助撰写。

生成式 AI 不会直接终结工作,它先重排劳动,再放大需求

凯恩斯低估的不是生产率,而是人类欲望与社会分工的弹性。生成式 AI 更可能压缩旧任务、重排劳动结构,并催生新的服务与需求,而不是直接让劳动消失。

Context is All You Need:智能体的上下文工程

把上下文当成有限资源来调度:从 context rot 与注意力预算出发,讨论存储结构、检索 pipeline、写入时的时间对齐与版本治理,以及 compaction、reset、subagent、checkpoint 等运行时手法。

从记忆形成到记忆治理:Agent Memory 的全景图

Memory 不是外挂数据库,而是长期认知状态的形成、激活、更新与治理问题。本文梳理 Agent Memory 的全景:五种记忆类型、激活与写入两端、研究演化脉络,以及为什么评测仍跟不上方法演进——难点在写入正确性、时间有效性、冲突消解、遗忘和系统级评测。

给 LLM 戴上确定性枷锁的外围工程:从 Claude Code 看 Agent Harness

真正让 Agent 变成可交付系统的,不是核心 loop,而是围绕 LLM 不确定性搭出来的外围工程:把语言请求进一步下沉成工具契约、知识路由、生命周期验证、隔离恢复与自治治理。

从 LSH 到 K-center-greedy:语义嵌入如何做数据去重、清洗与样本筛选

语义嵌入不只是用来做检索。LSH 初筛、Faiss 语义去重和 K-center-greedy 样本筛选,都在利用同一个表示空间处理冗余、覆盖与召回问题。

Model Is Good Enough:2026 年,AI 真正稀缺的是应用而不是更大的模型

Model 已经跨过够用阈值。2026 年更稀缺的,不是下一个更大的基模,而是那些能进入工作流与生活、并反过来生产数据与反馈的应用。

从黑盒预测器到可追溯医疗 Agent:医疗AI的未来

按技术演进梳理医疗 AI 如何从黑盒预测器走向可追溯医疗 Agent。

行为审计与行为解码:从 Reward 之后到 Agent 可观测性

Reward 负责把目标写进优化器,但它不负责证明模型真的学会了正确目标。本文从初学者视角重写行为审计与行为解码:为什么 reward 之后还需要后验校验,Anthropic 与 Transluce 两条路线分别在补什么空白。

AEnvironment:Agent Dev 为什么需要交互环境层?

SWE-bench、SWE-agent 和 Tau-bench 都在提醒一件事:Agent Dev 不能只盯模型和框架。任务、工具、用户、状态、规则和验证器怎样被组织成环境,会直接影响 agent 能不能工作。

为什么更好的 Simulator 往往是 Learning + Rules:从 PDE、光线追踪到 DLSS

更好的 simulator 往往来自明确分工:把守恒、几何、因果、边界条件与渲染/求解结构当作归纳偏置,再让 learning 去补昂贵、模糊或难解析的部分。

训练模型时的样本不均衡:从统计学习到长尾学习的处理方案

“训练集类别不均衡不只是少数类太少。本文从统计学习、稀有事件建模、长尾深度学习与概率校准四条线梳理样本不均衡的研究脉络,并给出可执行的选型框架,说明何时该采样、何时该重加权、何时该调阈值与做校准。”

从 Bagging 到 Stacking:集成学习学习笔记

把 Random Forest、GBDT、XGBoost 与 Stacking 放回同一张图里:一篇集成学习学习笔记。

从 MCP 到 Agent Skills:为什么 Agent 又需要一种新的上下文工程协议?

Agent Skills 的流行主要来自低摩擦的能力封装。它是上下文工程中有价值的一层,但不是新的统一协议,也不是 Agent 的终局。

从 RL Agent 到 LLM Agent:The Second Half 之后的范式转移与不确定性建模

从RL Agent到LLM Agent的演进不是简单的模型替换,而是学习信号从数值空间迁移到语言空间的范式转换。The Second Half 之后,开放世界研究、语言空间推理与混合架构共同证明:预训练先验、评估与记忆正在重写智能体的主范式

LLM 工具使用的技术演进:从 Toolformer 到 ToolLLM

梳理 LLM Tool Use 领域的研究脉络:Toolformer 的自监督学习、Gorilla 的微调+检索、Tulip Agent 的递归分解、ToolLLM 的大规模框架,以及这条路线如何转向协议、运行时和工程实践。

参数高效微调(PEFT):从 Adapter 到 LoRA 的技术演进

梳理参数高效微调(PEFT)领域的代表性方法——从 Adapter、Prefix-Tuning 到 LoRA、Prompt Tuning、P-Tuning v2 与 AdaLoRA,理解不同技术路线的设计思路与适用场景。

从智能体的认知结构到智能体框架

本文从 CoALA 的认知结构出发,讨论 Workflow、Agent、Supervisor、Agent Team 与 MAS 的边界,并分析 LangGraph 等框架的工程价值、抽象代价和未来框架应该提供的基础设施。

AI Agent 时代的检索与爬虫工具

当搜索与抓取 API 的接口逐渐趋同,Tavily、Exa、Grok/xAI、Firecrawl、Nimble 与 Crawl4AI 的差异主要体现在答案生成、搜索提取、实时检索、文档清洗与抓取控制等不同层次。本文按定位、适用场景与接入成本比较它们。

空间数据分析

对空间数据分析的基本概念、空间总体特性、抽样和插值方法进行了系统的整理和详细介绍。

让Agent变得可行,大模型结构化输出与受限解码技术

介绍 Agent 中结构化输出为什么难,以及提示词、JSON Mode、受限解码和底层推理引擎分别解决了哪些问题。

Shapley 与 SHAP——模型解释性的 SOTA 工具

本文介绍 Shapley 值的理论基础及其在机器学习中的应用 SHAP,讨论它适合解释什么、容易被误读在哪里,以及工程使用时该怎样选择背景数据。

为什么数据总在“骗”你?——反直觉的检查悖论

你是否经常觉得,自己等公交的时间总是比官方公布的平均间隔长?或者学校宣传的“平均小班授课”,到了自己身上却总是上百人的大课?这其实并非你的运气糟糕,而是一个普遍存在于统计学中的陷阱——检查悖论(Inspection Paradox)

Why Language Models Hallucinate

基于 OpenAI 团队论文《Why Language Models Hallucinate》:幻觉并非单纯源于数据噪声或模型缺陷,也和现代训练范式与二元评估机制带来的统计压力有关。

LLM 推理与训练的本质:从 Surrogate 到强化学习的几何空间

从Loss 只是 Surrogate的视角出发,回顾 Test-Time Compute (TTS) 如何控制泛化误差,并结合 CMU 的能力边缘理论揭示 RL 后训练的边界;微观剖析策略熵坍缩现象与 Meta 的 Three-Gate 理论,了解RL和SFT在微观的差异。

大模型的 Loss Landscape 是什么样的?

基于论文 Unveiling the Basin-Like Loss Landscape in Large Language Models,解读大模型 loss landscape 的 basin 现象及其对微调、对齐、越狱与预训练的启示。

Compression for AGI:压缩即智能

整理 Jack Rae 在《Compression for AGI》中的观点:基础模型训练可以理解为对有效信息的无损压缩;压缩率越高(loss 越低),模型越可能呈现更强的泛化行为。

卡尔曼滤波:从阿波罗登月到全球气象预报

状态估计是现代科技的基石。本文深入浅出地介绍了卡尔曼滤波(KF)、扩展卡尔曼滤波(EKF)、无迹卡尔曼滤波(UKF)以及集合卡尔曼滤波(EnKF)的原理与应用。

聊聊齐普夫定律:从伏尼契手稿到外星文明

伏尼契手稿是胡乱涂鸦还是失落的语言?外星人信号长什么样?这一切都指向同一个统计学定律。

如何与统计学家分享数据 (How to Share Data with a Statistician)

本文转载自 Jeff Leek 的经典文章,详细介绍了在与统计学家合作分析数据前,应该如何准备和整理数据(Raw Data, Tidy Data, Code Book)。

统计推断的计算革命:详解 Jackknife, Bootstrap 与 Subsampling

无需繁冗的分布假设,如何估计统计量的误差?本文深入剖析 Jackknife、Bootstrap 与 Subsampling 三种重抽样方法,从数学原理到渐进性质,探讨计算力如何替代解析推导成为统计推断的新引擎。

MCP (Model Context Protocol)

介绍 MCP 的 Host、Client、Server 分层,stdio 与 Streamable HTTP 传输,以及用 Python SDK 编写和调试 MCP Server/Client 的基本流程。

统计学的应用与应用的统计学

讨论统计学在追求理论完备的过程中为什么逐渐远离应用现场,以及数据科学与机器学习如何在大数据时代重新接上“从数据中学习”的问题。

数据科学的第60年

回顾数据科学60年的发展历程,从 John Tukey 的预言到 David Donoho 的广义数据科学。讨论统计学、计算机科学与机器学习如何合流,以及数据科学为什么需要同时处理推断、计算和现实问题。

统计学常用评估指标R方,它从不衡量模型与真实世界的拟合程度

R 方不是单纯的模型误差函数,它的定义中还隐含了两个模型的比较:一个是当前被分析的模型,一个是所谓的常数模型,即只利用因变量均值进行预测的模型。基于此,R 方从不衡量模型与真实世界的拟合程度。

常见的统计检验本质上都是线性模型 (Common statistical tests are linear models)

转载自 Jonas Kristoffer Lindeløv 的文章。揭示了 t 检验、ANOVA、卡方检验等常用统计方法背后的统一线性模型原理。

基础预测模型的基本限制:多模态与严谨评估的必要性

深度学习在时间序列预测中真的总是有效吗?本文基于 Christoph Bergmeir 在 NeurIPS 2024 的演讲,讨论基础预测模型的局限性、评估中的陷阱,以及为什么时间序列预测需要引入多模态上下文。

从主成分回归 (PCR) 到偏最小二乘 (PLS)

当数据存在多重共线性时,PCR 和 PLSR 都是常用的降维回归方法。本文详细推导了 PCR 与 PLSR 的数学原理,分析了 PCR “只看 X 不看 Y” 的潜在缺陷,并直观解释了 PLSR 如何通过引入因变量相关性来解决这一问题。

数字不会撒谎,但撒谎的人会编数字:从本福特定律聊聊统计造假识别

当数据看起来太过“完美”时,往往意味着它可能偏离了真实。本文将从本福特定律开始,揭示那些隐藏在造假数据背后的统计学指纹。

The Illustrated Guide to a Ph.D.

每年秋天,Matt Might 都要向新一批博士生解释什么是博士学位。用来描绘从小学到博士毕业的知识积累过程。

Neural Scaling Laws:从 Kaplan 到 Chinchilla

本文从 Kaplan 定律到 Chinchilla 修正,整理 Scaling Law 的经验规律,并简单讨论 Tree Model 与 Scaling Law 的关系。

The Statistical Crisis in Science

假设检验很强大,但它依赖前提;p 值显著也不等于“结论正确”的概;任何不精通统计学的人都可能在无意中进行统计造假。

表格数据上仍旧是SOTA:XGBoost、LightGBM 与 CatBoost

为什么结构化表格数据场景里,提升树至今仍常是最强 baseline?本文聚焦 XGBoost、LightGBM 与 CatBoost,讨论它们各自的技术重心、工程取舍与最佳战场。

从 LLM 到 VLM,语言模型如何实现视觉理解

梳理从纯语言模型到视觉-语言模型的技术路线,说明 CLIP、VLM 与 JEPA 在输入表示、训练目标和推理方式上的差异。

从欧氏空间到流形拓扑:高维数据的降维之旅

深入剖析从线性保持(PCA/MDS)到非线性流形(t-SNE/UMAP)的降维技术演进,探讨这些方法背后的数学直觉与技术细节

安斯库姆四重奏:可视化的力量与统计错觉

数值计算是精确的,图表是粗略的?统计学家 Francis Anscombe 用四组特殊的数据集打破了这一成见。本文通过安斯库姆四重奏(Anscombe's Quartet)讨论探索性数据分析(EDA)在统计推断中的必要性。

多元时间序列的 SVD 分解与模式

对于一个 n×T 的时间序列矩阵 X,SVD 分解可以得到 X=UΣV^T。本文解释得到的矩阵在时空模式挖掘中的物理意义,包括空间模式 U、时间模式 V 以及奇异值 Σ 的含义。

统计与真理:如何运用偶然性 (Statistics and Truth)

在终极的分析中,一切知识都是历史;在抽象的意义下,一切科学都是数学;在理性的基础上,所有的判断都是统计学。—— C.R. Rao。本文重读这本统计学经典,回顾统计学的历史以及发展中产生的诸多问题。

问卷的信效度分析与结构方程模型 (SEM)

在问卷研究中,信度和效度是衡量问卷质量的两个标准。本文介绍信度分析、效度分析以及验证性因子分析(CFA)与结构方程模型(SEM)的基本概念与流程。

高维数据与高维统计:挑战、理论与方法

在大数据时代,数据的维度常常远超样本量,这种“高维小样本”情形会让传统统计方法失稳。本文讨论高维数据带来的计算、感知与统计三类问题,并介绍降维、正则化与稀疏性假设等处理思路。

LLM 是否带来技术平权?(Does LLM Bring Equality?)

LLM 让知识接触、解释、翻译和表达变得前所未有地便宜,但答案入口的平权并不等于理解、判断和学习路径的平权。问题在于,AI 能否帮助人获得能力,而不只是更快拿到答案。

第一篇博客(An Example)

这是博客的第一篇文章,也是后续写作规范的一个示例与说明。

加载中…
返回主页