异步整站爬取

把网站转换成知识库的 DeepCrawl API

启动后台爬取任务,追踪任务状态,并为 RAG 系统和 agent 记忆流程收集站点内容。

这个 API 能帮你拿到什么
整站知识采集

在后台采集较大网站的内容,让产品不用等待单次请求,也能构建完整知识库。

整站内容收集

抓取文档、博客和帮助中心。

后台任务进度

后台追踪长任务进度。

知识库原料

页面可用于 RAG 和搜索。

适合用于

文档知识库 / 搜索索引 / AI 工作流

面向较大网站的异步爬取

DeepCrawl 会启动任务并返回 task ID,应用可以在爬取运行时轮询状态。你可以使用 sitemap 模式做受控爬取,也可以使用 all 模式做更广泛的链接发现。

接口
POST /deepcrawl

把整个网站快速变成文档

只需输入一个链接,即可实现快速爬取站内所有链接内容,保存到本地。

Markdown 输出

以整洁的 Markdown 文件格式输出,可直接用于大模型的知识库检索。

异步处理

任务在后台运行,可随时查询任务状态。

递归链接跟随

可自由选择是按照 sitemap 抓取,还是抓取站内所有链接内容。

接入路径

面向较大网站的异步爬取

启动后台爬取任务,追踪任务状态,并为 RAG 系统和 agent 记忆流程收集站点内容。

1

用 URL 和发现模式启动 DeepCrawl 任务。

2

保存返回的 task ID,并轮询 status endpoint。

3

把完成结果处理进知识库或文档存储。

适合场景

从文档、帮助中心和博客构建 RAG 知识库。

基于整站内容刷新内部搜索索引。

在不阻塞用户请求的情况下打包大站内容。

常见问题

DeepCrawl 为什么是异步的?

整站爬取通常比普通请求耗时更久。DeepCrawl 返回 task ID,让任务在后台运行,应用按需查询状态。

DeepCrawl API 消耗多少积分?

启动 DeepCrawl 任务消耗 20 积分。

Search1API

让 AI agents 自由上网:搜索、爬取、提取、推理一站搞定,API、MCP、CLI 和 Skills 自由接入。

© 2026 SuperAgents, LLC. 保留所有权利。

由 AI 制作 🤖