Web ページ本文の抽出

Web ページを AI が扱いやすいコンテンツに変換する Crawl API

独自スクレイパーや HTML クリーンアップ基盤を運用せず、URL から読みやすい本文を構造化結果として取得できます。

100 無料クレジットを取得 API ドキュメントを見る

この API で得られるもの

読みやすいページ本文

雑多な Web ページを、インデックス化、要約、保存、AI 入力に使える読みやすい本文へ変換します。

記事のように読める本文

ページの主要本文を抽出。

ページの出どころ

タイトル、URL、メタ情報を保持。

AI に渡しやすい入力

RAG、要約、エージェントに最適。

活用例

エージェント / RAG / ページ整形

エージェントとデータパイプラインのための抽出

Crawl endpoint は単一 URL または複数 URL を受け取り、ページ本文、タイトル、リンク、メタデータを返します。LLM にそのまま渡すにはノイズが多い HTML を整理します。

エンドポイント

POST /crawl

迅速な抽出

シンプルなウェブページから約3秒で結果を取得します。迅速なコンテンツ取得により、AIアプリケーションが応答性を保ちます。

構造化されたコンテンツ

クリーンで解析されたコンテンツをMarkdown形式で受け取ります。煩雑なHTMLやフォーマットの問題なしにAI処理に最適です。

高度なクロール

インテリジェントなクロールルールを使用して一般的なアクセス制限を回避します。基本的なクローラーをブロックするサイトからコンテンツにアクセスします。

多様なドキュメント

HTMLだけでなく、PDFやその他のドキュメント形式からコンテンツを抽出します。AIの知識ベースをすべてのコンテンツタイプに拡張します。

実装の流れ

エージェントとデータパイプラインのための抽出

独自スクレイパーや HTML クリーンアップ基盤を運用せず、URL から読みやすい本文を構造化結果として取得できます。

1 つの URL または URL 配列を Crawl endpoint に送信します。

インデックス化や LLM コンテキストに適した本文とメタデータを受け取ります。

処理量に応じてリトライやバッチ処理を組み合わせます。

主な用途

当社のインテリジェントクローラーを使用して、任意のウェブページからコンテンツを抽出します。

クリーンな記事本文が必要な RAG 取り込みパイプライン。

多数のサイトからページを正規化するコンテンツ集約システム。

特定 URL を読んでから行動する AI エージェント。

次のリンク

ウェブクローラーAPI

当社のインテリジェントクローラーを使用して、任意のウェブページからコンテンツを抽出します。

API ドキュメントを見る実装ガイドを読む料金を見る

FAQ

Crawl API は複数 URL を処理できますか？

はい。URL オブジェクトの配列を送信することで、1 回のリクエストでバッチ処理できます。

Crawl API のクレジット消費は？

Crawl API は基本的に 1 リクエストあたり 1 クレジットです。

Web ページを AI が扱いやすいコンテンツに変換する Crawl API

エージェントとデータパイプラインのための抽出

迅速な抽出

構造化されたコンテンツ

高度なクロール

多様なドキュメント

エージェントとデータパイプラインのための抽出

主な用途

ウェブクローラーAPI

FAQ

Crawl API は複数 URL を処理できますか？

Crawl API のクレジット消費は？

Search1API

製品

リソース

法的