Использование записей Databricks (бета-версия)

Примечание:

Эта функциональность сейчас доступна в бета-версии. Поделитесь своим опытом и обратитесь за поддержкой через форум отзывов о бета-функциях в Data Pipelines Community.

Используйте записи из таблицы Databricks (бета-версия) в качестве входных данных для ArcGIS Data Pipelines.

Примечания по использованию

При работе с Databricks (бета-версия) нужно учитывать следующее:

Чтобы использовать набор данных из Databricks (бета-версия), необходимо сначала создать элемент хранилища данных. Элементы хранилища данных надежно хранят учетные данные и информацию о подключении, чтобы данные могли быть прочитаны Data Pipelines. Чтобы создать хранилище данных, выполните действия, описанные в разделе Подключение к Databricks (бета-версия) ниже.
Чтобы изменить настроенный элемент хранилища данных, используйте параметр Элемент хранилища данных, чтобы удалить текущий выбранный элемент, и выберите одну из следующих опций:
- Добавить хранилище данных — создайте новый элемент хранилища данных.
- Выбрать элемент — просмотрите свои ресурсы, чтобы выбрать существующий элемент хранилища данных.
Используйте параметр Схема, чтобы указать схему, содержащую набор данных, который вы хотите использовать.
Используйте параметр Таблица, чтобы указать набор данных, который вы хотите использовать.
Чтобы повысить производительность чтения входных наборов данных, рассмотрите следующие варианты:
- Используйте параметр Использовать кэширование для сохранения копии набора данных. Кэшированная копия сохраняется только пока в браузере открыта хотя бы одна вкладка редактора. Это может ускорить доступ к данным во время их обработки. Если исходные данные были обновлены с момента их кэширования, отключите этот параметр и выполните предварительный просмотр или запустите инструмент еще раз.
- После настройки входного набора данных настройте любой из следующих инструментов, которые ограничивают объем обрабатываемых данных:
  - Фильтр по атрибуту — Сохраняет поднабор записей, содержащих определенные значения атрибутов.
  - Фильтр по экстенту — Сохраняет поднабор записей в пределах определенного пространственного экстента.
  - Выбрать поля — Сохраняет только поля интереса.
  - Вырезание — Сохраняет подмножество записей, которые пересекаются с определенными геометриями.

Подключение к Databricks (бета-версия)

Чтобы использовать данные, хранящиеся в Databricks (бета-версия), выполните следующие действия для создания элемента хранилища данных в редакторе Data Pipelines:

На панели инструментов редактора Data Pipelines щелкните Входные данные и выберите Databricks (бета-версия).

Появится диалоговое окно Выбрать подключение к хранилищу данных.
Выберите Добавить новое хранилище данных и щелкните Далее.

Появится диалоговое окно Добавить подключение к хранилищу данных.
Введите URL сервера для учетной записи Databricks.

Ниже приведен пример: my_account.azuredatabricks.net.

Проверка может завершиться неудачей, если вы укажете https:// для URL-адреса сервера.
Выберите один из следующих типов аутентификации:
- OAuth между компьютерами — укажите ID клиента и секрет клиента для вашей учетной записи Databricks.
- Персональный токен доступа — укажите токен от вашей учетной записи Databricks.
В параметре Путь HTTP укажите HTTP-путь для вычислительного ресурса Databricks, который будет использоваться.

Рекомендуется использовать бессерверное хранилище. Бессерверные хранилища могут подключаться быстрее, чем классические.
В поле Каталог (дополнительно) введите название каталога, в котором находятся используемые наборы данных.

Если вы не укажете каталог, элемент хранилища данных подключится к каталогу по умолчанию вашей учетной записи Databricks.
Щелкните Далее.

Откроется страница с информацией об элементе.
Введите заголовок для нового элемента хранилища данных.

Это заголовок, который появится в ваших ресурсах. Вы также можете сохранить элемент в определенной папке и указать теги элемента или сводную информацию.
Щелкните Создать подключение, чтобы создать элемент хранилища данных.

Откроется диалоговое окно Выбрать наборы данных.
В параметре Схема укажите имя схемы, содержащей таблицу, из которой нужно загрузить записи.
В параметре Таблица укажите имя таблицы, содержащей записи, которые будут использоваться в качестве входных данных для конвейера данных.
Щелкните Добавить.

Элемент Databricks (бета-версия) добавляется на канву.

Ограничения

Известны следующие ограничения:

Если ваша организация заблокировала бета-приложения и возможности, вы не сможете получить доступ к опции Databricks (бета-версия):
Для работы с данными из таблицы Databricks необходимо сначала запустить хранилище Databricks. Data Pipelines запустит хранилище при запросе данных. Загрузка записей или полей из таблицы Databricks может занять несколько минут в зависимости от того, сколько времени потребуется для запуска хранилища. Для повышения производительности рекомендуется использовать бессерверное хранилище вместо классического.
Типы полей, которые нельзя запросить с помощью Databricks SQL, не могут использоваться в Data Pipelines.
Чтобы использовать элемент хранилища данных для подключения к внешним источникам данных, вы должны быть владельцем элемента хранилища данных. Элементы хранилища данных являются частными и не могут быть опубликованы.

Лицензионные требования

Требуется следующее лицензии и конфигурации:

Тип пользователя Creator или Professional
Роль Издатель, Посредник или Администратор, или эквивалентная пользовательская роль

Подробнее о системных требованиях Data Pipelines см. раздел Требования