Web ページを AI が扱いやすいコンテンツに変換する Crawl API
独自スクレイパーや HTML クリーンアップ基盤を運用せず、URL から読みやすい本文を構造化結果として取得できます。
雑多な Web ページを、インデックス化、要約、保存、AI 入力に使える読みやすい本文へ変換します。
ページの主要本文を抽出。
タイトル、URL、メタ情報を保持。
RAG、要約、エージェントに最適。
活用例
エージェント / RAG / ページ整形
エージェントとデータパイプラインのための抽出
Crawl endpoint は単一 URL または複数 URL を受け取り、ページ本文、タイトル、リンク、メタデータを返します。LLM にそのまま渡すにはノイズが多い HTML を整理します。
迅速な抽出
シンプルなウェブページから約3秒で結果を取得します。迅速なコンテンツ取得により、AIアプリケーションが応答性を保ちます。
構造化されたコンテンツ
クリーンで解析されたコンテンツをMarkdown形式で受け取ります。煩雑なHTMLやフォーマットの問題なしにAI処理に最適です。
高度なクロール
インテリジェントなクロールルールを使用して一般的なアクセス制限を回避します。基本的なクローラーをブロックするサイトからコンテンツにアクセスします。
多様なドキュメント
HTMLだけでなく、PDFやその他のドキュメント形式からコンテンツを抽出します。AIの知識ベースをすべてのコンテンツタイプに拡張します。
エージェントとデータパイプラインのための抽出
独自スクレイパーや HTML クリーンアップ基盤を運用せず、URL から読みやすい本文を構造化結果として取得できます。
1 つの URL または URL 配列を Crawl endpoint に送信します。
インデックス化や LLM コンテキストに適した本文とメタデータを受け取ります。
処理量に応じてリトライやバッチ処理を組み合わせます。
主な用途
当社のインテリジェントクローラーを使用して、任意のウェブページからコンテンツを抽出します。
クリーンな記事本文が必要な RAG 取り込みパイプライン。
多数のサイトからページを正規化するコンテンツ集約システム。
特定 URL を読んでから行動する AI エージェント。
ウェブクローラーAPI
当社のインテリジェントクローラーを使用して、任意のウェブページからコンテンツを抽出します。
FAQ
Crawl API は複数 URL を処理できますか?
はい。URL オブジェクトの配列を送信することで、1 回のリクエストでバッチ処理できます。
Crawl API のクレジット消費は?
Crawl API は基本的に 1 リクエストあたり 1 クレジットです。