Web サイトをナレッジベースに変換する DeepCrawl API
バックグラウンドクロールを開始し、タスク状態を追跡し、RAG やエージェント記憶用のサイトコンテンツを収集できます。
大きなサイトをバックグラウンドで収集し、ユーザーを待たせずナレッジベースを作れます。
docs、ブログ、ヘルプを収集。
長時間ジョブを追跡。
RAG や検索に使えるページ。
活用例
docs KB / 検索索引 / AI ワークフロー
大きなサイト向けの非同期クロール
DeepCrawl はタスクを開始して task ID を返すため、クロール中にアプリ側で status を確認できます。制御された sitemap モードと、より広い all モードを選べます。
ウェブサイト全体を素早くドキュメント化
リンクを入力するだけで、サイト内のすべてのリンクコンテンツを迅速にクロールし、ローカルに保存します。
Markdown出力
クリーンなMarkdownファイル形式で出力し、LLMの知識ベース検索に直接使用できます。
非同期処理
タスクはバックグラウンドで実行され、いつでもステータスを確認できます。
再帰的なリンク追跡
サイトマップに基づいてクロールするか、サイト内のすべてのリンクコンテンツをクロールするかを自由に選択できます。
大きなサイト向けの非同期クロール
バックグラウンドクロールを開始し、タスク状態を追跡し、RAG やエージェント記憶用のサイトコンテンツを収集できます。
URL と検出モードを指定して DeepCrawl タスクを開始します。
返された task ID を保存し、status endpoint をポーリングします。
完了結果をナレッジベースやドキュメントストアに取り込みます。
主な用途
サイト内のすべてのリンクコンテンツを迅速にクロールし、ローカルに保存します。
ドキュメント、ヘルプセンター、ブログから RAG ナレッジベースを作成。
Web サイト全体から内部検索インデックスを更新。
ユーザーリクエストをブロックせず大規模サイト内容を収集。
ウェブサイト全体を素早くクロール
サイト内のすべてのリンクコンテンツを迅速にクロールし、ローカルに保存します。
FAQ
DeepCrawl はなぜ非同期ですか?
サイト全体のクロールは通常リクエストより時間がかかるためです。task ID を返し、バックグラウンドで実行しながら status を確認できます。
DeepCrawl API のクレジット消費は?
DeepCrawl タスクの開始は 20 クレジットです。