这个 API 能帮你拿到什么
可读网页内容把混乱网页转换成干净、可阅读的内容,方便索引、总结、保存或交给 AI 使用。
像文章一样可读的正文
提取页面主体正文。
页面来源和上下文
保留标题、URL 和元数据。
适合 AI 直接使用
适合 RAG、摘要和 agent。
适合用于
agent / RAG / 页面清洗
面向 agent 和数据管线的内容提取
Crawl endpoint 接收单个 URL 或 URL 批量数组,返回解析后的正文、标题、链接和元数据,适合把嘈杂 HTML 转换成 LLM 可用上下文。
接口
POST /crawl
快速提取
从简单网页中大约在3秒内获取结果。快速内容检索使您的AI应用程序保持响应。
结构化内容
以Markdown格式接收干净、解析的内容。非常适合AI处理,没有混乱的HTML或格式问题。
高级爬取
通过智能爬取规则绕过常见访问限制。访问阻止基本爬取的网站的内容。
多样化文档
从PDF和其他文档格式中提取内容,而不仅仅是HTML。扩展您的AI知识库到所有内容类型。
接入路径
面向 agent 和数据管线的内容提取
无需维护自己的爬虫和 HTML 清洗管线,即可从 URL 提取可读正文和结构化结果。
1
向 Crawl endpoint 提交一个 URL 或 URL 数组。
2
接收适合索引或作为 LLM 上下文的正文和元数据。
3
根据吞吐需求组合批量请求和重试策略。
适合场景
使用我们的智能爬取从任何网页提取内容
需要干净文章正文的 RAG 入库流程。
从多个站点统一抽取内容的聚合系统。
执行动作前需要阅读指定 URL 的 AI agent。