非同期サイトクロール

Web サイトをナレッジベースに変換する DeepCrawl API

バックグラウンドクロールを開始し、タスク状態を追跡し、RAG やエージェント記憶用のサイトコンテンツを収集できます。

100 無料クレジットを取得 API ドキュメントを見る

この API で得られるもの

サイト全体の知識化

大きなサイトをバックグラウンドで収集し、ユーザーを待たせずナレッジベースを作れます。

サイト全体のコンテンツ収集

docs、ブログ、ヘルプを収集。

バックグラウンド進捗

長時間ジョブを追跡。

ナレッジベース素材

RAG や検索に使えるページ。

活用例

docs KB / 検索索引 / AI ワークフロー

大きなサイト向けの非同期クロール

DeepCrawl はタスクを開始して task ID を返すため、クロール中にアプリ側で status を確認できます。制御された sitemap モードと、より広い all モードを選べます。

エンドポイント

POST /deepcrawl

ウェブサイト全体を素早くドキュメント化

リンクを入力するだけで、サイト内のすべてのリンクコンテンツを迅速にクロールし、ローカルに保存します。

Markdown出力

クリーンなMarkdownファイル形式で出力し、LLMの知識ベース検索に直接使用できます。

非同期処理

タスクはバックグラウンドで実行され、いつでもステータスを確認できます。

再帰的なリンク追跡

サイトマップに基づいてクロールするか、サイト内のすべてのリンクコンテンツをクロールするかを自由に選択できます。

実装の流れ

大きなサイト向けの非同期クロール

バックグラウンドクロールを開始し、タスク状態を追跡し、RAG やエージェント記憶用のサイトコンテンツを収集できます。

URL と検出モードを指定して DeepCrawl タスクを開始します。

返された task ID を保存し、status endpoint をポーリングします。

完了結果をナレッジベースやドキュメントストアに取り込みます。

主な用途

サイト内のすべてのリンクコンテンツを迅速にクロールし、ローカルに保存します。

ドキュメント、ヘルプセンター、ブログから RAG ナレッジベースを作成。

Web サイト全体から内部検索インデックスを更新。

ユーザーリクエストをブロックせず大規模サイト内容を収集。

次のリンク

ウェブサイト全体を素早くクロール

サイト内のすべてのリンクコンテンツを迅速にクロールし、ローカルに保存します。

API ドキュメントを見る実装ガイドを読む料金を見る

FAQ

DeepCrawl はなぜ非同期ですか？

サイト全体のクロールは通常リクエストより時間がかかるためです。task ID を返し、バックグラウンドで実行しながら status を確認できます。

DeepCrawl API のクレジット消費は？

DeepCrawl タスクの開始は 20 クレジットです。

Web サイトをナレッジベースに変換する DeepCrawl API

大きなサイト向けの非同期クロール

ウェブサイト全体を素早くドキュメント化

Markdown出力

非同期処理

再帰的なリンク追跡

大きなサイト向けの非同期クロール

主な用途

ウェブサイト全体を素早くクロール

FAQ

DeepCrawl はなぜ非同期ですか？

DeepCrawl API のクレジット消費は？

Search1API

製品

リソース

法的