Использование записей Amazon S3

Используйте записи из файлов, хранящихся в бакете Amazon S3, в качестве входных данных для ArcGIS Data Pipelines.

Примечания по использованию

При работе с Amazon S3 нужно учитывать следующее:

Чтобы использовать набор данных из Amazon S3, необходимо сначала создать элемент хранилища данных. Элементы хранилища данных надежно хранят учетные данные и информацию о подключении, чтобы данные могли быть прочитаны Data Pipelines. Сведения о создании хранилища данных Amazon S3 см. в разделе Добавление элемента хранилища данных облачного хранилища.

Чтобы изменить настроенный элемент хранилища данных, используйте параметр Элемент хранилища данных для удаления выбранного в данный момент элемента и используйте кнопку Выбрать элемент для просмотра содержимого и выбора существующего элемента хранилища данных.

Используйте параметр Путь в наборе данных, чтобы указать имя набора данных или имя папки, содержащей набор данных. Например, вы можете указать пути к наборам данных следующими способами:
- Сослаться на отдельный файл, указав путь к этому файлу, например Hurricanes.shp или CustomerInfo.csv.
- Сослаться на папку, содержащую несколько наборов данных, указав путь, например MyFolder/. Все файлы в папке должны иметь одинаковую схему и тип файла.
- Сослаться на определенные типы файлов из папки, содержащей несколько файлов и форматов, указав путь, например MyFolder/*.parquet. В этом примере будут прочитаны только файлы parquet. Все файлы parquet в папке должны иметь одинаковую схему.
- Сослаться на несколько файлов и вложенных папок, используя шаблоны glob, указав путь, например MyFolder/**/*.geojson. В этом примере будут загружены все подпапки в MyFolder и все файлы GeoJSON в этих подпапках.
Путь к набору данных также должен быть относительным к контейнеру и папке, которые были указаны при создании элемента хранилища данных. Например, если s3://my-bucket/my-folder/my-subfolder/file.csv — полный путь к набору данных, а элемент хранилища данных указывает my-bucket для бакета и my-folder для папки, то путь к набору данных должен быть my-subfolder/file.csv.

Используйте параметр Формат файла, чтобы указать формат файла набора данных, указанного в параметре Путь к набору данных. Доступны следующие форматы:
- CSV или с разделителями (например .csv, .tsv и .txt)
- Parquet (.parquet)
- GeoParquet (.parquet)
- JSON (например, .json или файл .txt, содержащий данные в формате JSON)
- GeoJSON (например, .json и .geojson, или файл .txt, содержащий данные в формате GeoJSON)
- Шейп-файл (.shp)
- Файловая база геоданных (.gdb)
- ORC (.orc)

Если указана опция формата CSV или с разделителями, доступны следующие параметры определения набора данных:

Разделитель — Разделитель, используемый для разделения значений поля (или столбца) и записи (или строки). Вы можете выбрать из следующих вариантов или ввести свое собственное значение:
- Запятая (,) — Значения полей и записей разделяются запятыми (,). Используется по умолчанию.
- Табуляция (\t) — Значения полей и записей разделяются табуляцией (\t).
- Вертикальная линия (|) — Значения полей и записей разделяются вертикальными линиями (|).
- Точка с запятой (;) — Значения полей и записей разделяются точкой с запятой (;).
- Пробел ( ) — Значения полей и записей разделяются пробелами ( ).

Если вы вводите свое собственное значение, его длина должна составлять один или два символа, включая пробелы. Разделители длиной более двух символов не поддерживаются.

Содержит строку заголовка — Указывает, содержит ли набор данных строку заголовка. Значением по умолчанию является true. Если установлено значение false, первая строка набора данных будет считаться записью.
Содержит мультилинейные данные — Указывает, содержит ли набор данных записи, содержащие символы новой строки. Значением по умолчанию является false. Если установлено значение true, данные, содержащие мультилинейные данные, будут прочитаны и отформатированы корректно.
Кодировка символов — Указывает тип кодировки, используемый для чтения указанного набора данных. По умолчанию это будет UTF-8. Вы можете выбрать один из доступных опций кодировки или указать тип кодировки. Пробелы не поддерживаются в значениях кодировки. Например формат значения ISO 8859-8 недопустим, должно быть ISO-8859-8.
Поля – дополнительно настраивает имена и типы полей. Кнопка Настроить схему открывает диалоговое окно, содержащее поля набора данных со следующими параметрами:
- Включить или удалить поля — Вы можете удалить поля, поставив отметку рядом с полем. По умолчанию включаются все поля.
- Имя поля — Имя поля, которое будет использоваться в Data Pipelines. Это значение можно изменить. По умолчанию это значение будет соответствовать полю исходного набора данных, если имя источника не содержит недопустимых символов и не является зарезервированным словом. Недопустимые символы будут заменены подчеркиванием (_), а зарезервированные слова будут содержать префикс - подчеркивание (_).
- Тип поля – тип поля, который будет использоваться в Data Pipelines.

Удаление или изменение полей в Data Pipelines не меняет исходные данные.

В следующей таблице приводится описание доступных типов полей:

Тип поля	Описание
Строка	Текстовые поля поддерживают строку текстовых символов.
Small integer	Поля типа Small integer поддерживают целые числа в диапазоне от -32768 до 32767.
Integer	Поля типа Integer поддерживают целые числа в диапазоне от -2147483648 до 2147483647.
Big integer	Поля типа Big integer поддерживают целые числа в диапазоне от -9223372036854776000 до 9223372036854776000.
Float	Поля типа с плавающей точкой поддерживают дробные числа приблизительно от -3.4E38 до 3.4E38.
Double	Поля типа двойной точности поддерживают дробные числа приблизительно от -2.2E308 до 1.8E308.
Дата	Поля типа дата поддерживают значения в формате `yyyy-MM-dd HH:mm:ss`, например допустимо значение `2025-12-31 13:30:30`. Если значения даты хранятся в другом формате, используйте инструмент Создать дату и время, чтобы вычислить поле дата.
Только дата	Поля типа дата поддерживают значения в формате `yyyy-MM-dd`, например допустимо значение `2025-12-31`. Если значения, содержащие только дату, хранятся в другом формате, используйте эти значения в качестве входных данных для инструмента Вычислить поле, чтобы вычислить поле, содержащее только дату.
Boolean	Булевы поля поддерживают значения `True` и `False`. Если есть поле, содержащее целочисленные представления Булевых значений (0 и 1), используйте инструмент Обновить поля, чтобы вместо этого привести целые числа к логическим Булевым значениям.

Если указана опция формата JSON, доступен параметр Корневое свойство. С помощью этого параметра можно указать свойство в JSON для чтения данных. Вы можете ссылаться на вложенные свойства, используя десятичный разделитель между каждым свойством, например property.subProperty. По умолчанию будет прочитан полный файл JSON.

Если указана опция формата GeoJSON, доступен параметр Тип геометрии. Это дополнительный параметр. По умолчанию используется тип геометрии в файле GeoJSON. Если файл GeoJSON содержит несколько типов геометрии, необходимо указать значение этого параметра. Смешанные типы геометрии не поддерживаются, и будет использован только указанный тип. Возможны опции Точечный, Мультиточечный, Полилинейный и Полигональный. Поле геометрии, содержащее местоположения данных GeoJSON, будет автоматически рассчитано и добавлено во входной набор данных. Поле геометрии можно использовать в качестве входных данных для пространственных операций или для включения геометрии в выходной результат.

Если указана опция формат Файловой базы геоданных, то доступен параметр Класс объектов или имя таблицы. Используйте этот параметр, чтобы указать имя класса объектов или таблицы, которую вы хотите использовать в качестве входных данных. Поддерживаются только классы точечных, мультиточечных, полилинейных и полигональных объектов и таблицы. Не поддерживаются такие наборы данных, как растровые, наборы данных мозаики и траектории. Не поддерживаются продвинутые типы объектов, например, объекты геометрической сети.

Чтобы повысить производительность чтения входных наборов данных, рассмотрите следующие варианты:
- Используйте параметр Использовать кэширование для сохранения копии набора данных. Кэшированная копия сохраняется только пока в браузере открыта хотя бы одна вкладка редактора. Это может ускорить доступ к данным во время их обработки. Если исходные данные были обновлены с момента их кэширования, отключите этот параметр и выполните предварительный просмотр или запустите инструмент еще раз.
- После настройки входного набора данных настройте любой из следующих инструментов, которые ограничивают объем обрабатываемых данных:
  - Фильтр по атрибуту — Сохраняет поднабор записей, содержащих определенные значения атрибутов.
  - Фильтр по экстенту — Сохраняет поднабор записей в пределах определенного пространственного экстента.
  - Выбрать поля — Сохраняет только поля интереса.
  - Вырезание — Сохраняет поднабор записей, которые пересекаются с определенными геометриями.

Ограничения

Известны следующие ограничения:

Data Pipelines поддерживает только тип учетных данных Ключ доступа для Amazon S3. Если хранилище данных настроено на использование другого типа учетных данных, оно не будет работать в качестве входных данных для Data Pipelines.
Ваша учетная запись должна иметь как минимум права s3:ListBucket, s3:GetBucketAcl и s3:GetObject. Эти права позволяют получить доступ к чтению указанного бакета и наборов данных в нем.
Если вы указываете папку, содержащую несколько файлов, представляющих один набор данных, все файлы, идентифицированные в папке Amazon S3, должны иметь одинаковую схему и тип геометрии.
Архивированные файлы (.zip) не поддерживаются.
Файлы Esri JSON (.esrijson) не поддерживаются.
Если набор данных содержит имена полей с пробелами или недопустимыми символами, имена автоматически обновляются для использования подчеркивания. Например, поле с именем Population 2022 переименовывается в Population_2022, а поле %Employed в _Employed.

Лицензионные требования

Требуется следующее лицензии и конфигурации:

Тип пользователя Creator или GIS Professional
Роль Издатель, Посредник или Администратор, или эквивалентная пользовательская роль

Подробнее о системных требованиях Data Pipelines см. в разделе Требования.

Кроме того, Data Pipelines доступен только в том случае, если у вас есть ArcGIS Data Pipelines Server, настроенный с ArcGIS Enterprise.

Дополнительные сведения о добавлении элементов хранилища данных в ресурсы см. в разделе Добавление элемента хранилища данных.

Использование записей Amazon S3

Примечания по использованию

Ограничения

Лицензионные требования

Связанные разделы