结构化数据提取
把混乱网页转换成结构化数据的 Extract API
告诉 API 你需要哪些字段,提供 JSON Schema,就能获得适合应用直接使用的干净数据。
这个 API 能帮你拿到什么
从网页提取结构化事实告诉 API 你的产品需要什么信息,把非结构化网页变成干净的业务数据。
可直接用于业务的字段
价格、评分、实体和自定义字段。
比选择器更不容易坏
用自然语言描述提取规则。
应用可以直接保存的数据
应用可保存的结构化数据。
适合用于
商品目录 / 公司数据 / 文章记录
带 schema 控制的提示词提取
Extract API 结合网页理解和 JSON Schema 输出。它适合处理简单爬虫容易失效的场景,例如商品信息、体育比分、公司数据或文章元数据。
接口
POST /extract
结构化提取
使用自然语言提示从任何网页中提取特定的结构化数据。
JSON Schema 输出
使用 JSON Schema 定义所需的确切输出结构,以获得可靠、一致的结果。
LLM 驱动
利用大型语言模型准确理解内容并提取信息。
多样化用例
非常适合抓取产品详情、新闻文章、体育比分、财务数据等。
接入路径
带 schema 控制的提示词提取
告诉 API 你需要哪些字段,提供 JSON Schema,就能获得适合应用直接使用的干净数据。
1
提交目标 URL、自然语言提取提示词和 JSON Schema。
2
接收符合 schema 的数据,而不是原始网页文本。
3
验证结果并写入产品数据库或工作流。
适合场景
商品、价格和目录数据提取。
体育、金融和事件页面的数据规范化。
把非结构化文章转换成应用可存储字段。