异步整站爬取

把网站转换成知识库的 DeepCrawl API

启动后台爬取任务，追踪任务状态，并为 RAG 系统和 agent 记忆流程收集站点内容。

获取 100 免费积分查看 API 文档

这个 API 能帮你拿到什么

整站知识采集

在后台采集较大网站的内容，让产品不用等待单次请求，也能构建完整知识库。

整站内容收集

抓取文档、博客和帮助中心。

后台任务进度

后台追踪长任务进度。

知识库原料

页面可用于 RAG 和搜索。

适合用于

文档知识库 / 搜索索引 / AI 工作流

面向较大网站的异步爬取

DeepCrawl 会启动任务并返回 task ID，应用可以在爬取运行时轮询状态。你可以使用 sitemap 模式做受控爬取，也可以使用 all 模式做更广泛的链接发现。

接口

POST /deepcrawl

把整个网站快速变成文档

只需输入一个链接，即可实现快速爬取站内所有链接内容，保存到本地。

Markdown 输出

以整洁的 Markdown 文件格式输出，可直接用于大模型的知识库检索。

异步处理

任务在后台运行，可随时查询任务状态。

递归链接跟随

可自由选择是按照 sitemap 抓取，还是抓取站内所有链接内容。

接入路径

面向较大网站的异步爬取

启动后台爬取任务，追踪任务状态，并为 RAG 系统和 agent 记忆流程收集站点内容。

用 URL 和发现模式启动 DeepCrawl 任务。

保存返回的 task ID，并轮询 status endpoint。

把完成结果处理进知识库或文档存储。

适合场景

从文档、帮助中心和博客构建 RAG 知识库。

基于整站内容刷新内部搜索索引。

在不阻塞用户请求的情况下打包大站内容。

下一步链接

查看 API 文档阅读实现指南查看定价

常见问题

DeepCrawl 为什么是异步的？

整站爬取通常比普通请求耗时更久。DeepCrawl 返回 task ID，让任务在后台运行，应用按需查询状态。

DeepCrawl API 消耗多少积分？

启动 DeepCrawl 任务消耗 20 积分。

把网站转换成知识库的 DeepCrawl API

面向较大网站的异步爬取

把整个网站快速变成文档

Markdown 输出

异步处理

递归链接跟随

面向较大网站的异步爬取

适合场景

常见问题

DeepCrawl 为什么是异步的？

DeepCrawl API 消耗多少积分？

Search1API

产品

资源

法律