ブラウザノード
ブラウザノードは、ブラウザの自動化ができる強力なツールです。 ウェブサイトの情報取得、データ入力、ダウンロードなど、さまざまなタスクに対応できます。
このチュートリアルでは、「SamuraiAI の運営会社について調査するワークフロー」を紹介します。
チュートリアル
Section titled “チュートリアル”ブラウザノード
Section titled “ブラウザノード”まず、Studio で新しいワークフローを作成します。
ブラウザノードを追加し、そのノードのプロンプトに以下の内容をコピーして貼り付けます。
1. go to https://samuraix.ai/2. 運営会社のリンクを探してページ遷移3. 運営会社の詳細情報を探して、出力する
次に、ブラウザノードの右に新しい LLM ノードを追加し、以下の内容をコピーして貼り付けます。
以下のメッセージから会社の住所のみを出力して。
{browser-1.response}
ワークフロー全体
Section titled “ワークフロー全体”最終的なワークフローは以下のようになります。
ワークフローの実行
Section titled “ワークフローの実行”これで準備は完了です!デバッグボタンをクリックして、ワークフローを実行してみましょう。
実行すると、ブラウザが自動的に開き、指定されたウェブサイトから自動で会社情報を収集します。 最終的に、SamuraiAI の運営会社の住所情報が出力されました 🚀
ブラウザの操作は高速に動作するよう設計されており、人間と同等かそれ以上の速度でブラウザを操作していることがわかります(動画再生速度: 1.0 倍)。
興味深いことに、AI は与えられたサービスサイト URL のみから自動的に運営会社の URL を抽出し、そこから更に企業情報ページへ遷移しています。人間が具体的にどの HTML の要素が必要か指示する必要はありません。
処理をカスタマイズする
Section titled “処理をカスタマイズする”次にワークフローをカスタマイズしてみましょう。今回は、サービス URL を「https://samuraix.ai/」から「https://slack.com/intl/ja-jp/」に変更してみましょう。
変更したら「保存」をクリックし、再度実行してみましょう。
たった 1 行の変更で Slack の運営会社を取得することができました。SamuraiAI は、ブラウザを自動で操作するので出力データの確認や追加の検索が必要な場合は人間が即座にチェックすることができます。
- ブラウザノードは、デスクトップ版の SamuraiAI でのみ利用可能です。Web 版では利用できません。
- 通信環境が安定していることを推奨します。ネットワークが不安定な場合、ブラウザの操作が途中で失敗することがあります。
- PC のスペックが高いほど、ブラウザの操作がスムーズに行われます。特に、メモリと CPU の性能が重要です。
ブラウザノードの特徴
Section titled “ブラウザノードの特徴”ブラウザノードでは、SamuraiAI 専用のブラウザをお手元の端末上で起動し、操作を行います。これにより以下のような特徴があります。
- セキュアな認証: ウェブサイトのログイン情報は PC 内に保存され、外部に送信されることはありません。
- PC 内のデータと連携: PC 内のファイルをアップロードしたり、ダウンロードしたファイルを PC 内で確認したりすることができます。
- 高速な動作: ブラウザ操作に最適化された自動化処理により、高速な動作を実現しています。
- ユーザーの介入しやすさ: ブラウザの操作中にユーザーが介入して、手動で操作を補助することができます。
推奨される認証方法
Section titled “推奨される認証方法”SamuraiAI では、ブラウザノードでのログイン操作を自動化する際に、以下の認証方法を推奨しています。
- 適当なブラウザ操作ワークフローを実行し、ブラウザを立ち上げる。
- 手動でログイン操作を行う。これにより、ローカル端末内に認証情報がキャッシュされ、認証が切れるまでは再度ログイン操作を行う必要がなくなります。
ファイルのダウンロード
Section titled “ファイルのダウンロード”ブラウザ操作では、ウェブサイトからファイルをダウンロードすることも可能です。ダウンロードしたファイルは以下のフォルダに保存されます。
「メニューバー」->「ファイル」->「ダウンロードフォルダを開く」
自動化が難しいウェブサイト
Section titled “自動化が難しいウェブサイト”SamuraiAI はウェブサイトのアクセシビリティツリーを解析して操作を行います。これにより、トークン消費を大幅に削減し、高速な操作を実現しています。 一方で、アクセシビリティへの配慮が足りないウェブサイトでは、操作がうまくいかない場合があります。
また、1 ページ内の情報量が非常に多い場合、LLM のトークン制限により、正しく操作できない場合があります。
操作対応可否
Section titled “操作対応可否”操作 | 対応可否 | 詳細 |
---|---|---|
サイト情報取得 | ✅️ | |
テキスト入力 | ✅️ | |
ログイン等の認証 | ✅️ | |
ファイルダウンロード | ✅️ | |
ファイルアップロード | ✅️ | |
スクリーンショット取得 | ✅️ | |
reCAPTCHA | △ | 簡単なものに限る |
ボット対策回避 | △ | 人の介入が必要 |
最終更新日: