这个 API 能帮你拿到什么
站点 URL 发现在决定抓取、索引、审计或迁移之前,先找出网站里值得处理的重要 URL。
可用于抓取的 URL 列表
整理可抓取的重要 URL。
看清网站结构
看清栏目和页面类型。
更高效地规划抓取
抓取前先排序链接。
适合用于
抓取队列 / SEO 审计 / 索引发现
提取内容前先理解站点结构
Sitemap endpoint 接收一个 URL 并返回发现到的链接。你可以使用 sitemap 模式读取 sitemap.xml,也可以用 all 模式在页面中做更广泛的链接发现。
接口
POST /sitemap
完整发现
检测网站内所有相关页面和链接。为全面内容提取做好准备,进行全面的网站映射。
快速映射
快速高效地生成网站结构图。规划内容提取策略时节省时间。
有序结构
以结构化的层次格式接收网站链接。轻松理解网站组织和内容关系。
智能过滤
自动过滤掉无关链接和重复内容。仅关注有价值的、独特的页面,值得提取。
接入路径
提取内容前先理解站点结构
在抓取、索引、SEO 分析或构建知识库前,先发现站点内相关链接。
1
提交根 URL,并选择 sitemap 或 all 发现模式。
2
检查返回的链接列表,筛选重要栏目和页面。
3
把选中的 URL 交给 Crawl API 或 DeepCrawl 做内容提取。
适合场景
使用我们强大的网站地图生成器从网站提取所有URL
为文档、博客或知识库构建抓取队列。
网站迁移或 SEO 分析前审计站点结构。
在调用 Crawl API 前筛选重要 URL。