Databricks (ベータ版) レコードの使用
注意:
この機能は現時点でベータ版です。 Data Pipelines コミュニティーの Beta Features Feedback フォーラム から経験を共有し、サポートを求めることができます。
Databricks (ベータ版) テーブルのレコードを ArcGIS Data Pipelines への入力として使用します。
使用上の注意
Databricks (ベータ版) を操作する際には、以下の点に注意してください。
Databricks (ベータ版) のデータセットを使用するには、まずデータ ストア アイテムを作成する必要があります。 Data Pipelines がデータを読み取れるように、データ ストア アイテムは認証情報と接続情報を安全に保存します。 データ ストアを作成するには、下記の「Databricks (ベータ版) への接続」セクションの手順を実行します。
構成したデータ ストア アイテムを変更するには、 [データ ストア アイテム] パラメーターを使用して、現在選択されているアイテムを削除し、次のいずれかのオプションを選択します。
[データ ストアの追加] - 新しいデータ ストア アイテムを作成します。
[アイテムの選択] - コンテンツを参照して、既存のデータ ストア アイテムを選択します。
[スキーマ] パラメーターを使用して、使用するデータセットを含むスキーマを指定します。
[テーブル] パラメーターを使用して、使用するデータセットを指定します。
入力データセットの読み取りパフォーマンスを向上させるには、以下の方法を検討してください。
[キャッシュの使用] パラメーターを使用して、データセットのコピーを格納します。 キャッシュされたコピーは、エディターで開いている少なくとも 1 つのブラウザー タブが接続されている間だけ保持されます。 これで、処理中にデータによりすばやくアクセスできるようになる場合があります。 ソース データがキャッシュされた後に更新された場合は、このパラメーターをオフにして、ツールをプレビューするか、再実行してください。
入力データセットを構成した後で、処理されるデータの量を制限する次のツールを構成します。
属性によるフィルター - 特定の属性値を含むレコードのサブセットを維持します。
範囲によるフィルター - 特定の空間範囲内のレコードのサブセットを維持します。
フィールドの選択 - 対象フィールドのみを維持します。
クリップ - 特定のジオメトリーと交差するレコードのサブセットを維持します。
Databricks (ベータ版) への接続
Databricks (ベータ版) に格納されているデータを使用するには、次の手順を実行し、Data Pipelines エディターでデータ ストア アイテムを作成します。
Data Pipelines エディターのツールバーで [入力] をクリックして [Databricks (ベータ版)] を選択します。
[データ ストア接続の選択] ダイアログ ボックスが表示されます。
[新しいデータ ストアを追加] を選択して、 [次へ] をクリックします。
[データ ストアへの接続の追加] ダイアログ ボックスが表示されます。
Databricks アカウントへのサーバー URL を指定します。
例:
my_account.azuredatabricks.netサーバー URL に
https://を指定すると、検証に失敗する可能性があります。次のいずれかの認証タイプを選択します:
[OAuth Machine-to-Machine] - Databricks アカウントのクライアント ID とクライアント シークレットを指定します。
[個人用アクセス トークン] - Databricks アカウントのトークンを指定します。
[HTTP パス] パラメーターに、使用される Databricks 計算リソースの HTTP パスを指定します。
サーバーレス ウェアハウスの使用をおすすめします。 サーバーレス ウェアハウスを使用すると、従来のウェアハウスよりも速く接続できます。
[カタログ (オプション)] パラメーターに、使用するデータセットを含むカタログの名前を指定します。
カタログを指定しない場合、データ ストア アイテムは Databricks アカウントのデフォルトのカタログに接続します。
[次へ] をクリックします。
アイテム詳細ページが表示されます。
新しいデータ ストア アイテムのタイトルを指定します。
このタイトルはコンテンツに表示されます。 また、アイテムを特定のフォルダーに保存して、アイテム タグまたはサマリーを入力することもできます。
[接続の作成] をクリックして、データ ストア アイテムを作成します。
[データセットの選択] ダイアログ ボックスが表示されます。
[スキーマ] パラメーターに、レコードの読み込み元のテーブルを含むスキーマの名前を指定します。
[テーブル] パラメーターに、データ パイプラインで入力として使用するレコードを含むテーブルの名前を指定します。
[追加] をクリックします。
Databricks (ベータ版) エレメントがキャンバスに追加されます:
制限事項
既知の制限事項は以下のとおりです。
組織がベータ版のアプリと機能をブロックしている場合は、Databricks (ベータ版) 入力オプションにアクセスできません。
Databricks テーブルのデータを操作するには、まず Databricks ウェアハウスを開始する必要があります。 Data Pipelines は、データがリクエストされた時点でウェアハウスを開始します。 ウェアハウスの開始に要する時間によっては、Databricks テーブルからレコードまたはフィールドを読み込むのに数分かかることがあります。 パフォーマンス向上のため、従来のウェアハウスではなくサーバーレス ウェアハウスを使用することをおすすめします。
Databricks SQL を使用してクエリーできないフィールド タイプは Data Pipelines で使用することはできません。
データ ストア アイテムを使用して外部データ ソースに接続するには、そのデータ ストア アイテムの所有者である必要があります。 データ ストア アイテムはプライベートであり、共有できません。
ライセンス要件
次のライセンスと構成が必要です。
Creator または Professional ユーザー タイプ
公開者、ファシリテーター、管理者ロール、またはそれと同等のカスタム ロール
Data Pipelines の要件の詳細については、 要件 をご参照ください。