这个 API 能帮你拿到什么
整站知识采集在后台采集较大网站的内容,让产品不用等待单次请求,也能构建完整知识库。
整站内容收集
抓取文档、博客和帮助中心。
后台任务进度
后台追踪长任务进度。
知识库原料
页面可用于 RAG 和搜索。
适合用于
文档知识库 / 搜索索引 / AI 工作流
面向较大网站的异步爬取
DeepCrawl 会启动任务并返回 task ID,应用可以在爬取运行时轮询状态。你可以使用 sitemap 模式做受控爬取,也可以使用 all 模式做更广泛的链接发现。
接口
POST /deepcrawl
把整个网站快速变成文档
只需输入一个链接,即可实现快速爬取站内所有链接内容,保存到本地。
Markdown 输出
以整洁的 Markdown 文件格式输出,可直接用于大模型的知识库检索。
异步处理
任务在后台运行,可随时查询任务状态。
递归链接跟随
可自由选择是按照 sitemap 抓取,还是抓取站内所有链接内容。
接入路径
面向较大网站的异步爬取
启动后台爬取任务,追踪任务状态,并为 RAG 系统和 agent 记忆流程收集站点内容。
1
用 URL 和发现模式启动 DeepCrawl 任务。
2
保存返回的 task ID,并轮询 status endpoint。
3
把完成结果处理进知识库或文档存储。
适合场景
从文档、帮助中心和博客构建 RAG 知识库。
基于整站内容刷新内部搜索索引。
在不阻塞用户请求的情况下打包大站内容。