How AI Agents Get Information from the Web: Search, Crawling, and Structured Extraction

把 Tavily、Exa、Firecrawl、Crawl4AI、Jina Reader、Nimble、GPT Researcher、Open Deep Research 这些名字排成一列，很容易写成工具百科。每个工具一小节，讲功能、价格、适用场景。读完能认一堆名词，但还是不知道自己到底该接哪一层。

我更想换个问法：AI Agent 到底怎样从互联网里拿到可用信息？

对人来说，互联网通常是浏览器、搜索框、网页和链接。对 Agent 来说，它是一条很长的信息管线：先发现可能相关的来源，再打开页面，抽取正文，去掉导航和广告，把动态页面或 PDF 转成模型能读的文本，然后筛掉重复、过时和互相冲突的片段，最后带着引用进入上下文。中间任何一段坏掉，模型后面说得再顺也只是顺着坏材料往下编。

所以这篇文章不按厂商逐个介绍，而是沿着这条管线往下看。搜索、网页抓取和结构化清洗不是同一个问题。但他们都和 Agent 从互联网获取信息息息相关。

整体介绍：

阶段	代表工具	主要卡点	相对上一阶段的变化	仍然留下的问题
模型内置联网	OpenAI Web Search、Claude Web Search、Gemini Grounding、xAI Web Search / X Search	让模型在生成过程中直接查实时信息并给出来源	接入最快，开发者不必自己搭搜索和阅读链路	搜索过程、来源选择、中间证据和重试策略不够透明
托管式 Web Retrieval	Tavily、Exa，以及传统搜索/SERP API	把搜索和初步读取打包成可调用 API	开发者可以控制 query、域名、时间、结果数量和输出形态	已经拿到材料，不代表解析、清洗和证据组织都可靠
网页解析、抓取与结构化清洗	Firecrawl、Crawl4AI、Jina Reader、Trafilatura	把 URL、站点和文档转成可进入上下文或知识库的数据	从返回链接变成可读取、可遍历、可抽取的材料	动态页面、表格、元数据、去重和版本治理仍要处理
Deep Research 变成长程工作流	Open Deep Research、GPT Researcher、STORM、Perplexica	把搜索、阅读、综合和引用组织成多步研究循环	工具调用不再是一次搜索，而是 query planning、multi-hop search、交叉验证	评估困难，引用正确不代表结论可靠，报告容易看起来很像真的
商业抓取平台化	Nimble、Bright Data、Oxylabs	把高风控、地区化、动态页面、SERP、电商和社媒采集交给专门平台	从“能解析页面”进入“能稳定拿到目标场景的数据”	仍要决定采什么、如何入库、如何进入 RAG、Agent 或分析系统

第一阶段：模型内置联网，最快也最黑箱

最省事的做法，是直接用模型厂商提供的联网工具。OpenAI 的 Web Search、Anthropic 的 Claude web search tool、Gemini 的 Grounding with Google Search、xAI 工具文档里的 Web Search 和 X Search，都属于这一层。

这条路线省事。你不用自己决定搜索引擎，不用写爬虫，不用处理页面清洗，也不用设计引用格式。模型需要新信息时自己搜，拿到结果，再把答案和引用一起返回。对很多通用问答、简单资料查询、新闻背景补充来说，这已经够用。

麻烦也在这里：搜索过程对于我们变成了一个黑盒。

开发者能看到最终答案和部分引用，却不一定能完整看到它为什么搜这个 query、为什么选择这些来源、为什么放弃另一些来源、有没有漏掉重要页面。联网能力此时从一次工具调用变成模型内部的策略。OpenAI 的 Response API 进一步放大了这一点，用户请求的 API 不再是一个模型而是一套服务，而用户无权了解服务内部的细节。

这对开发者是双刃剑。

如果你只是想问这个产品今天发布了吗，黑箱一点没关系。可如果你在做金融、法律、医疗、企业舆情、竞争情报，或者任何需要回放证据链的系统，黑箱就会变得难受。你需要知道系统搜过什么、没搜什么、每条引用来自哪里、同一结论有没有第二来源支撑。模型内置联网可以给你答案，但不一定可信。

所以第一阶段解决的是模型能不能接触新信息。它没有解决开发者能不能管理这次信息获取。

第二阶段：托管式 Web Retrieval，把搜索和初步读取打包

第二阶段不是简单地把搜索从模型内部拆出来，也不是退回传统搜索结果页。更准确地说，它把“搜索 + 初步内容获取”打包成一个托管 API。

Tavily 和 Exa 很接近。它们都在试图把搜索结果变成模型能继续消费的材料：接收或生成 query，找到相关网页，返回答案、摘要、正文、引用或 highlights。真正的差异在封装程度和控制权。

Tavily 更像一站式 Agent web layer。它把 search、extract、crawl、map 和 cited research 放在同一个产品语境里，适合快速给 Agent 接上外部网页信息。你可以把它理解成少搭几段管线：先拿到可读结果，再让模型继续推理。

Exa 更像可控的语义检索和内容获取接口。它的 Search API 可以在搜索时同时取 contents，文档和 changelog 也强调 Markdown content、新鲜度控制（用 maxAgeHours 决定是否要更新页面）、domain filtering、highlights 等能力。它给开发者留下更多旋钮：来源范围、内容格式、新鲜度、是否要正文。

Brave Search API、SerpApi、Serper 这类搜索结果接口也能作为来源发现层补充，但本文不展开 SERP 生态。大部分 Agent 开发用不到这些，利用更加成熟的服务就够了。

到了这一层，开发者拿到的不再只是一组 URL 或 snippet。托管检索 API 已经帮你做了一部分读取和整理，并保留了一些可以控制的自由度。

但它仍然不能替代专门的解析层。只要你要自建知识库、做可复现评估、处理大量 URL，或者要求正文、表格、元数据保真，读取和清洗就会重新变成独立工程层。

第三阶段：网页解析、抓取与结构化清洗合到一起

到这一层，问题从检索 API 返回了什么，变成任意 URL、文档站和文件怎样稳定进入模型上下文。

托管检索 API 越好，越容易让人误以为网页解析已经不是问题。实际不是。网页对人是可读页面，对模型却常常是一堆噪声：导航栏、推荐栏、cookie 弹窗、广告、CSS class、hydration 数据、评论区、隐藏节点、脚本、重复页脚。单页读取、站点抓取、结构化抽取看起来是三个功能，放到 RAG 和 Agent 里，其实是一条连续链。

Firecrawl 正好站在这条链的中间。Scrape 负责把单个 URL 转成 Markdown、HTML、JSON、截图等格式，也可以处理 PDF 等非网页内容；Crawl 负责递归遍历站点，并处理 sitemap、JavaScript 渲染、路径过滤和深度限制；Map 用来发现站点结构；Extract 则把一个或多个 URL、甚至整个 domain 的内容按 prompt 或 schema 抽成结构化字段。这样看，Firecrawl 不是单纯 reader，也不是单纯 crawler，而是在帮开发者少维护一截抓取和清洗栈。

这也是它适合 Agent 和 RAG 的地方：你想少碰代理、渲染、PDF、站点遍历这些脏活，又想拿到相对干净的输入材料。Firecrawl 可以承担这层基础工作。后面怎么去重、怎么切 chunk、怎么判断来源可信、怎么把结果写入知识库，还是你的系统设计。

其他工具可以作为补充。Jina Reader 适合临时 URL 阅读，简单、快，但不承担站点级治理。Trafilatura 是自建 Python 文本抽取管线时很实用的正文抽取工具，是在生成式 AI 出现之前的和好的工程化手段。Crawl4AI 则适合想把抓取能力留在本地的团队：自己控制并发、缓存、页面选择和部署，也自己承担失败恢复和维护成本。

读取不是搜索的附属品。搜索只告诉你哪里可能有答案。解析和抓取决定这些材料能不能干净地进入上下文。很多 RAG 系统看起来是检索坏了，其实是读取阶段就已经坏了：正文没抽出来，表格丢了，旧版本文档和新版本文档混在一起，目录页被当成内容页，PDF 被切成一堆没有上下文的碎片。

这些问题不像模型能力那么耀眼，但它们决定 RAG 和 research agent 的地基稳不稳。

第四阶段：Deep Research 把检索变成长程工作流

再往上走，检索不再是单次搜索，而是一段研究过程。

OpenAI 文档把 deep research 描述成更长时间的 agent-driven investigation。开源世界里，Open Deep Research、GPT Researcher、STORM、Perplexica（现已更名 Vane）都在做相近的事：给定一个问题，系统自动拆 query，搜索多个来源，阅读网页，整理证据，生成报告，并尽量带上引用。

这类系统处理的东西把搜索放进了一个循环：

问题
  -> 拆成子问题
  -> 生成搜索 query
  -> 找来源
  -> 读取和抽取页面
  -> 判断证据是否足够
  -> 继续搜索或修正方向
  -> 综合报告
  -> 引用和反查

这一层会暴露一个新问题：引用不等于可信。

一个 research agent 可以给每段话配链接，但链接可能只支持其中一半。它也可能引用了正确网页，却误读了网页；或者找到很多来源，但来源都互相抄。更麻烦的是，长报告天然容易显得可靠。段落完整，引用齐全，语气冷静，人就会放松警惕。

所以 benchmark 开始跟上来。OpenAI 的 BrowseComp 用 1,266 个难找但可验证的短答案问题测浏览器 Agent 的持久搜索能力；GAIA 测一般 AI assistants 在工具使用、网页、推理等混合任务上的表现；DeepResearch Bench 和 DeepResearchGym 则更直接地看 deep research systems 的报告、证据和可复现性。

这些评测有自己的局限。短答案不等于真实研究，LLM-as-judge 也不是最终裁判。但它们至少提醒我们：新的难点真正难的是持续找、反复查、知道自己还缺什么，并把证据和结论对齐。

第五阶段：商业抓取平台化

普通网页解析解决的是给我一个 URL，我能不能读干净。再往后，难题会变成在高风控、高规模、强地区差异的网站上，系统能不能持续拿到可用数据。这时问题不只是 HTML 清洗，而是代理网络、浏览器渲染、反封锁、目标站适配、批量任务和交付方式。

这就是 Nimble、Bright Data、Oxylabs 这类商业抓取平台出现的位置。它们不是让模型更会总结，而是把网页数据采集里最容易拖垮系统的部分平台化：代理和地区化访问、JavaScript 渲染、SERP 采集、电商页面解析、社媒、地图和本地搜索数据、批量任务调度，以及结构化结果输出。

Nimble 更像面向实时网页数据的托管采集层。它提供 Web、SERP、E-commerce、Maps 等 API，把代理、地区化访问、浏览器渲染、反封锁和数据交付封装起来。对 Agent 或 RAG 系统来说，Nimble 解决的是稳定拿到某类页面背后的结构化事实。

Bright Data 的重心更偏完整的数据采集基础设施：代理网络、Web Scraper API、SERP API、预置 scraper、数据集和结构化输出。它适合价格监控、电商目录、搜索结果、公开网页数据集这类任务，把反机器人、验证码处理、目标站适配和 JSON/CSV 交付尽量放到平台侧。Oxylabs 也在类似位置，但更强调企业级代理网络和大规模公共网页数据采集。

这三类平台共同帮我们做的，不是理解网页，而是让网页数据持续可得。代理、解封、渲染、解析、批量采集、目标站适配和交付方式交给成熟平台之后，应用侧更该关心的是：到底要什么数据，多久更新一次，进入 RAG、Agent 或分析系统之前要保留哪些字段和证据。

两条真正的主线：看见什么，控制什么

把这些工具读完后，可以把问题收成两条线。

第一条是 Agent 看见什么。

模型内置联网让它看见最终搜索结果和引用。托管检索 API 让它看见候选来源和初步整理后的材料。解析和抓取层让它看见正文、站点结构和结构化字段。Deep Research 系统让它看见一串中间证据。商业抓取平台则让它更稳定地看见 SERP、电商、社媒、地图和地区化页面里的目标数据。

信息不是从网页进入模型这么简单。它在每一层都会被重写：SERP snippet、Markdown、chunk、JSON schema、summary、citation、report。每重写一次，就多一次丢失和误解的机会。

第二条是开发者能控制什么。

模型内置联网控制最少，但省事。托管检索 API 让你控制 query、来源和一部分内容获取。解析工具让你控制页面读取和清洗。抓取框架让你控制站点遍历。结构化抽取让你控制字段。Deep Research 框架让你控制研究循环。商业抓取平台让你把代理、地区、目标站适配和数据交付变成更稳定的外部能力。

这也是选型时最该问的问题：你愿意把哪一层交给模型，哪一层必须握在自己手里？

工具选型应该回到你卡在哪一层

如果你缺的是最新信息，但任务很轻，先用模型内置联网。OpenAI、Claude、Gemini、Grok 这类能力够快，也省事。

如果你想快速拿到可消费网页材料，看 Tavily 和 Exa。Tavily 更像一站式 Agent web layer，Exa 更适合可控的语义检索和 contents 获取。传统搜索/SERP API 可以作为补充，但不要把它们误认为已经解决了网页读取和证据组织。

如果你搜到了材料但读不干净，看 Firecrawl、Jina Reader、Trafilatura。不要急着换模型。先确认网页有没有被正确解析、清洗和分解。

如果你缺的是站点级抓取、RAG 语料建设和结构化清洗，看 Firecrawl 的 Crawl、Map、Extract，或者看 Crawl4AI 这种自托管路线。这里的问题已经是数据工程，搜索只是入口。

如果你缺的是长程研究能力，看 Open Deep Research、GPT Researcher、STORM、Perplexica，同时要配套评估。没有评估的 Deep Research，很容易变成漂亮报告生成器。

如果你缺的是高风控站点、SERP、电商、社媒、价格监控或地区化访问，看 Nimble、Bright Data、Oxylabs。这里的重点不是让模型更聪明，而是让系统稳定拿到目标数据。

结语

互联网进入 Agent，不是一根网线接到模型上。

它更像一条不断拆分的工程链路：搜索负责发现来源，读取负责拿到正文，清洗负责降低噪声，结构化负责变成字段，研究循环负责补证据，商业抓取平台负责让高风控和地区化网页数据稳定可得。

模型越强，这条链路需要做的更清楚。因为模型会把坏材料说得很像真的。以前搜索结果坏了，人还能自己点开看一眼；现在 Agent 会替人读、替人总结、替人写报告。它读错的同时，错误也被包装好了。

好的 Agent 信息获取系统，不会把所有网页都塞给模型。我们需要更好的生成效果，也需要让它更值得被人类相信。