Amazon S3 レコードの使用
Amazon S3 バケットに格納されているファイルのレコードを ArcGIS Data Pipelines への入力として使用します。
使用上の注意
Amazon S3 を操作する際には、以下の点に注意してください:
- Amazon S3 のデータセットを使用するには、まずデータ ストア アイテムを作成する必要があります。 Data Pipelines がデータを読み取れるように、データ ストア アイテムには認証情報と接続情報が安全に保存されています。 Amazon S3 データストアを作成するには、「クラウド ストレージ データ ストア アイテムの追加」をご参照ください。
- 構成したデータ ストア アイテムを変更するには、[データ ストア アイテム] パラメーターを使用して、現在選択されているアイテムを削除し、[アイテムの選択] ボタンを使用してコンテンツを参照し、既存のデータ ストア アイテムを選択します。
[データセットのパス] パラメーターを使用して、データセットの名前、またはデータセットを含むフォルダーの名前を指定します。 たとえば、データセットのパスは次の方法で指定できます。
そのファイルのパス (
Hurricanes.shpやCustomerInfo.csvなど) を指定して、1 つのファイルを参照します。パス (
MyFolder/など) を指定して、複数のデータセットを含むフォルダーを参照します。 フォルダー内のすべてのファイルは、同じスキーマとファイル タイプである必要があります。パス (
MyFolder/*.parquetなど) を指定して、複数のファイルと形式を含むフォルダーから特定のファイル タイプを参照します。 この例では、パーケット ファイルのみが読み取られます。 フォルダー内のすべてのパーケット ファイルは、同じスキーマである必要があります。パス (
MyFolder/**/*.geojsonなど) を指定して、glob パターンを使用して複数のファイルとネストされたフォルダーを参照します。 この例では、MyFolder 内のすべてのサブフォルダーと、それらのサブフォルダー内のすべての GeoJSON ファイルが読み込まれます。
データセットのパスは、データ ストア アイテムの作成時に指定したバケットやフォルダーの相対パスにする必要があります。 たとえば、データセットの絶対パスが
s3://my-bucket/my-folder/my-subfolder/file.csvで、データ ストア アイテムにバケットとしてmy-bucket、フォルダーとしてmy-folderが指定されている場合、データセットのパスはmy-subfolder/file.csvにする必要があります。
[データセットのパス] パラメーターで指定されるデータセットのファイル形式を指定するには、[ファイル形式] パラメーターを使用します。 次の形式オプションを利用できます。
[CSV または区切りファイル] (例:
.csv、.tsv、.txt)[Parquet] (
.parquet)[GeoParquet] (
.parquet)[JSON] (例:
.json、または JSON として書式設定されたデータを含む.txtファイル)[GeoJSON] (例:
.jsonと.geojson、または GeoJSON として書式設定されたデータを含む.txtファイル)[シェープファイル] (
.shp)[ファイル ジオデータベース] (
.gdb)[ORC] (
.orc)
[CSV または区切りファイル] 形式オプションを指定した場合は、次のデータセット定義パラメーターを使用できます。
[区切り文字] - フィールド (または列) およびレコード (または行) の値を分割するために使用される区切り文字。 次のオプションから選択するか、独自の値を入力できます:
[カンマ (,)] - フィールドとレコードの値はカンマ (
,) で区切られます。 これがデフォルトです。[タブ (\t)] - フィールドとレコードの値はタブ (
\t) で区切られます。[パイプ (|)] - フィールドとレコードの値はパイプ (
|) で区切られます。[セミコロン (;)] - フィールドとレコードの値はセミコロン (
;) で区切られます。[スペース ( )] -フィールドとレコードの値はスペース ( ) で区切られます。
独自の値を入力する場合、その長さはスペースを含めて 1 〜 2 文字である必要があります。 区切り文字は 2 文字までしか使用できません。
[ヘッダー行を含む] - データセットにヘッダー行が含まれるかどうかを指定します。 デフォルトは true です。 false に設定すると、データセットの最初の行はレコードと見なされます。
[複数行データを含む] - データセットに、改行文字を含むレコードが含まれるかどうかを指定します。 デフォルトは false です。 true に設定すると、複数行データを含むデータが正しく読み取られて書式設定されます。
[文字エンコーディング] - 指定したデータセットの読み取りに使用されるエンコード タイプを指定します。 デフォルトは [UTF-8] です。 利用可能なエンコード オプションから選択するか、エンコード タイプを指定できます。 値をエンコードする際、スペースはサポートされていません。 たとえば、値に ISO 8859-8 を指定することは無効であり、ISO-8859-8 と指定する必要があります。
[フィールド(Fields)] - 必要に応じてフィールド名とフィールド タイプを構成します。 [スキーマの構成] ボタンをクリックするとダイアログ ボックスが開き、データセット フィールドと次のオプションが表示されます。
フィールドの挿入または削除 - 該当するフィールドの横にあるチェックボックスをオンにして、そのフィールドを削除できます。 デフォルトでは、すべてのフィールドが挿入されます。
[フィールド名] - Data Pipelines で使用するときのフィールドの名前。 この値は編集可能です。 ソース名に無効な文字や予約語が含まれていない限り、デフォルトでは、この値はソース データセット内のフィールドと同じになります。 無効な文字はアンダースコア (_) に置き換えられ、予約語は先頭にアンダースコア (_) が付きます。
[フィールド タイプ] - Data Pipelines で使用するときのフィールド タイプ。
Data Pipelines でフィールドを削除または変更しても、ソース データは変更されません。
以下の表で、使用できるフィールド タイプについて説明します。
フィールド タイプ 説明 String String フィールドには、テキスト文字の文字列を指定できます。 Small Integer Small Integer フィールドには、-32768 ~ 32767 の整数を指定できます。 Integer Integer フィールドには、-2147483648 ~ 2147483647 の整数を指定できます。 Big Integer Big Integer フィールドには、-9223372036854776000 ~ 9223372036854776000 の整数を指定できます。 Float Float フィールドには、およそ -3.4E38 ~ 3.4E38 の有理数を指定できます。 Double Double フィールドには、およそ -2.2E308 ~ 1.8E308 の有理数を指定できます。 Date Date フィールドには、 yyyy-MM-dd HH:mm:ss形式の値を指定できます。たとえば、有効な値は2025-12-31 13:30:30です。 日付の値が別の形式で格納されている場合は、日付/時間の作成ツールを使用して Date フィールドを計算します。Date Only Date フィールドには、 yyyy-MM-dd形式の値を指定できます。たとえば、有効な値は2025-12-31です。 日付のみの値が別の形式で格納されている場合は、それらの値をフィールド演算ツールへの入力として使用して Date Only フィールドを計算します。Boolean Boolean フィールドには、 TrueとFalseを指定できます。 整数表現のブール値 (0 と 1) がフィールドに含まれている場合は、フィールドの更新ツールを使用して、代わりに整数をブール値にキャストします。
- [JSON] 形式オプションを指定した場合は、[ルートのプロパティ] パラメーターを使用できます。 このパラメーターを使用すると、データの読み取り元となる JSON のプロパティを指定することができます。 各プロパティの間に小数点の記号を使用して、ネストされたプロパティを参照できます (例:
property.subProperty)。 デフォルトでは、JSON ファイル全体が読み取られます。
- [GeoJSON] 形式オプションを指定した場合、[ジオメトリー タイプ] パラメーターを使用できます。 このパラメーターはオプションです。 デフォルトでは、GeoJSON ファイル内のジオメトリー タイプが使用されます。 GeoJSON ファイルに複数のジオメトリー タイプが含まれている場合に、このパラメーターの値を指定する必要があります。 ジオメトリー タイプの混在はサポートされておらず、指定したタイプのみが使用されます。 [ポイント]、[マルチポイント]、[ポリライン]、[ポリゴン] のいずれかを指定します。 GeoJSON データの位置を含むジオメトリー フィールドは自動的に計算され、入力データセットに追加されます。 ジオメトリー フィールドを空間演算の入力として使用したり、出力結果でジオメトリーを有効化するために使用したりすることができます。
- [ファイル ジオデータベース] 形式オプションを指定した場合は、[フィーチャクラス名またはテーブル名] パラメーターを使用できます。 このパラメーターを使用して、入力として使用するフィーチャクラスまたはテーブルの名前を指定します。 ポイント、マルチポイント、ポリライン、ポリゴン フィーチャクラスとテーブルのみがサポートされています。 ラスター、モザイク、軌道などのデータセットはサポートされていません。 ジオメトリック ネットワーク フィーチャなどの高度なフィーチャ タイプはサポートされていません。
入力データセットの読み取りパフォーマンスを向上させるには、以下の方法を検討してください。
[キャッシュの使用] パラメーターを使用して、データセットのコピーを格納します。 キャッシュされたコピーは、エディターで開いている少なくとも 1 つのブラウザー タブが接続されている間だけ保持されます。 これで、処理中にデータによりすばやくアクセスできるようになる場合があります。 ソース データがキャッシュされた後に更新された場合は、このパラメーターをオフにして、ツールをプレビューするか、再実行してください。
入力データセットを構成した後で、処理されるデータの量を制限する次のツールを構成します。
属性によるフィルター - 特定の属性値を含むレコードのサブセットを維持します。
範囲によるフィルター - 特定の空間範囲内のレコードのサブセットを維持します。
フィールドの選択 - 対象フィールドのみを維持します。
クリップ - 特定のジオメトリーと交差するレコードのサブセットを維持します。
制限事項
既知の制限事項は以下のとおりです。
Data Pipelines では、Amazon S3 の [アクセス キー] 認証情報タイプのみがサポートされています。 データストアが別の認証情報タイプを使用するように構成されている場合、Data Pipelines への入力としては機能しません。
認証情報には、少なくとも
s3:ListBucket、s3:GetBucketAcl、s3:GetObjectの権限が必要です。 これらの権限により、指定したバケットとそれに含まれているデータセットの読み取りアクセスが許可されます。1 つのデータセットを表す複数のファイルを含むフォルダーを指定した場合、Amazon S3 フォルダーで識別されたすべてのファイルでスキーマとジオメトリー タイプが同じである必要があります。
Zip 形式の圧縮ファイル (
.zip) はサポートされていません。Esri の JSON ファイル (
.esrijson) はサポートされていません。データセットにスペースまたは無効な文字を含むフィールド名が存在する場合、その名前はアンダースコアを使用するように自動的に更新されます。 たとえば、
Population 2022というフィールドはPopulation_2022という名前に変更され、%Employedというフィールドは_Employedという名前に変更されます。
ライセンス要件
次のライセンスと構成が必要です。
Creator または Professional ユーザー タイプ
公開者、ファシリテーター、管理者ロール、またはそれと同等のカスタム ロール
Data Pipelines の要件の詳細については、「要件」をご参照ください。
また、Data Pipelines は、ArcGIS Data Pipelines Server が ArcGIS Enterprise で構成されている場合にのみ使用できます。
関連トピック
コンテンツにデータ ストア アイテムを追加する方法の詳細については、「データ ストア アイテムの追加」をご参照ください。