使用 Databricks (Beta) 记录
注:
此功能目前处于测试阶段。 请通过 Data Pipelines 社区中的 测试版功能反馈论坛 分享您的经验并寻求支持。
可以使用 Databricks (Beta) 表中的记录作为 ArcGIS Data Pipelines 的输入。
用法说明
当使用 Databricks (Beta) 时,请谨记以下信息:
要使用 Databricks (Beta) 中的数据集,您必须首先创建一个数据存储项目。 数据存储项目安全地存储凭据和连接信息,以便 Data Pipelines 能够读取数据。 要创建数据存储,请按照以下“连接到 Databricks (Beta)”部分中的步骤进行操作。
要更改之前配置的数据存储项目,使用 数据存储项目 参数移除当前选定项目,然后选择以下选项之一:
添加数据存储 - 创建新数据存储项目。
选择项目 - 浏览内容以选择现有数据存储项目。
可以使用 方案 参数以指定包含要使用的数据集的方案。
使用 表格 参数可指定要使用的数据集。
为了提高读取输入数据集的性能,请考虑以下选项:
连接到 Databricks (Beta)
要使用存储在 Databricks (Beta) 中的数据,请完成以下步骤以在 Data Pipelines 编辑器中创建数据存储项目:
在 Data Pipelines 编辑器工具栏中,单击 输入 ,然后选择 Databricks (Beta) 。
随即显示 选择数据存储连接 对话框。
选择 添加新数据存储 ,然后单击 下一步 。
随即出现 添加与数据存储的连接 对话框。
提供 Databricks 账户的服务器 URL。
以下提供了一个示例:
my_account.azuredatabricks.net。如果在服务器 URL 中指定
https://,则验证可能会失败。选择以下身份验证类型之一:
OAuth 计算机对计算机 - 提供 Databricks 账户的客户端 ID 和客户端密钥。
个人访问令牌 - 提供 Databricks 账户的令牌。
在 HTTP 路径 参数中,提供将使用的 Databricks 计算资源的 HTTP 路径。
建议使用无服务器仓库。 无服务器仓库的连接速度可能比传统仓库更快。
在 目录(可选) 参数中,提供要使用的数据集所在目录的名称。
如果未指定目录,则数据存储项目将连接到 Databricks 账户的默认目录。
单击 下一步 。
随即显示项目详细信息窗格。
为新的数据存储项目提供标题。
该标题将显示在您的内容中。 您还可以将项目存储在特定文件夹中,并提供项目标签或摘要。
单击 创建连接 以创建数据存储项目。
选择数据集 对话框随即出现。
在 方案 参数中,提供相应方案的名称,其中包含要从中加载记录的表格。
在 表格 参数中,提供相应表格的名称,其中包含要用作数据管道输入的记录。
单击 添加 。
随即将 Databricks (Beta) 元素添加至画布。
局限性
以下为已知局限性:
如果您的组织已阻止测试版应用程序和功能,则无法访问 Databricks (Beta) 输入选项。
要使用 Databricks 表格中的数据,必须首先启动 Databricks 仓库。 当请求数据时,Data Pipelines 将启动该仓库。 从 Databricks 表格中加载记录或字段可能需要几分钟时间,具体取决于启动仓库所需的时间。 为了提高性能,建议您使用无服务器仓库,而非经典仓库。
无法在 Data Pipelines 中使用无法通过 Databricks SQL 进行查询的字段类型。
要使用数据存储项连接到外部数据源,您必须为数据存储项的所有者。 数据存储项目为私有项目,无法进行共享。
许可要求
需要以下许可和配置:
Creator 或 Professional 用户类型
发布者、服务商或管理员角色,或等效的自定义角色
有关 Data Pipelines 要求的详细信息,请参阅 要求 。