非同期サイトクロール

Web サイトをナレッジベースに変換する DeepCrawl API

バックグラウンドクロールを開始し、タスク状態を追跡し、RAG やエージェント記憶用のサイトコンテンツを収集できます。

この API で得られるもの
サイト全体の知識化

大きなサイトをバックグラウンドで収集し、ユーザーを待たせずナレッジベースを作れます。

サイト全体のコンテンツ収集

docs、ブログ、ヘルプを収集。

バックグラウンド進捗

長時間ジョブを追跡。

ナレッジベース素材

RAG や検索に使えるページ。

活用例

docs KB / 検索索引 / AI ワークフロー

大きなサイト向けの非同期クロール

DeepCrawl はタスクを開始して task ID を返すため、クロール中にアプリ側で status を確認できます。制御された sitemap モードと、より広い all モードを選べます。

エンドポイント
POST /deepcrawl

ウェブサイト全体を素早くドキュメント化

リンクを入力するだけで、サイト内のすべてのリンクコンテンツを迅速にクロールし、ローカルに保存します。

Markdown出力

クリーンなMarkdownファイル形式で出力し、LLMの知識ベース検索に直接使用できます。

非同期処理

タスクはバックグラウンドで実行され、いつでもステータスを確認できます。

再帰的なリンク追跡

サイトマップに基づいてクロールするか、サイト内のすべてのリンクコンテンツをクロールするかを自由に選択できます。

実装の流れ

大きなサイト向けの非同期クロール

バックグラウンドクロールを開始し、タスク状態を追跡し、RAG やエージェント記憶用のサイトコンテンツを収集できます。

1

URL と検出モードを指定して DeepCrawl タスクを開始します。

2

返された task ID を保存し、status endpoint をポーリングします。

3

完了結果をナレッジベースやドキュメントストアに取り込みます。

主な用途

サイト内のすべてのリンクコンテンツを迅速にクロールし、ローカルに保存します。

ドキュメント、ヘルプセンター、ブログから RAG ナレッジベースを作成。

Web サイト全体から内部検索インデックスを更新。

ユーザーリクエストをブロックせず大規模サイト内容を収集。

次のリンク

ウェブサイト全体を素早くクロール

サイト内のすべてのリンクコンテンツを迅速にクロールし、ローカルに保存します。

FAQ

DeepCrawl はなぜ非同期ですか?

サイト全体のクロールは通常リクエストより時間がかかるためです。task ID を返し、バックグラウンドで実行しながら status を確認できます。

DeepCrawl API のクレジット消費は?

DeepCrawl タスクの開始は 20 クレジットです。

Search1API

検索、クロール、抽出、推論、agent 接続を支える AI agents 向け Web アクセス基盤です。

© 2026 SuperAgents, LLC. 全著作権所有。

AI で作成 🤖