Skip to main content

文件共享

使用网络共享文件中的记录作为 ArcGIS Data Pipelines 的输入。

用法说明

使用文件共享时,请谨记以下信息:

  • 使用文件共享输入,您可以加载在 ArcGIS Data Pipelines Server 可访问的文件系统或网络共享中存储的数据文件或文件集合。

  • 要使用文件共享中的数据集,必须先创建类型为文件夹的数据存储项目。 数据存储项目用于安全地存储连接信息,包括文件共享路径,以便 Data Pipelines 可以读取数据。 有关详细信息,请参阅添加文件夹数据存储项目

  • 要更改配置的数据存储项,请使用数据存储项目参数删除当前选定项目,然后使用选择项目按钮浏览内容并选择现有数据存储项目。
  • 可以使用数据集路径参数指定数据集的名称,或者包含数据集的文件夹的名称。 例如,可以通过以下方式指定数据集路径:

    • 通过指定单个文件(例如 Hurricanes.shpCustomerInfo.csv)的路径来引用该文件。

    • 通过指定路径(例如 MyFolder/)来引用包含多个数据集的文件夹。 该文件夹中的所有文件必须具有相同的方案和文件类型。

    • 通过指定路径(例如 MyFolder/*.parquet)从包含多个文件和格式的文件夹中引用特定文件类型。 在本示例中,将仅读取 parquet 文件。 该文件夹中的所有 parquet 文件必须具有相同方案。

    • 通过指定路径(例如 MyFolder/**/*.geojson),使用 glob 模式引用多个文件和嵌套文件夹。 在本示例中,将加载 MyFolder 中的任何子文件夹以及这些子文件夹中的任何 GeoJSON 文件。

    数据集路径还必须相对于创建数据存储项目时指定的文件夹路径。 例如,如果完整数据集路径为 \\mynetworkshare\data\hurricanes\hurricanes_2025.csv,并且数据存储项目针对路径指定了 \\mynetworkshare\data,则数据集路径应为 hurricanes\hurricanes_2025.csv

  • 使用文件格式参数可指定在数据集路径参数中指定的数据集的文件格式。 以下格式选项可用:

    • CSV 或分隔文件(例如 .csv.tsv.txt

    • Parquet (.parquet)

    • GeoParquet (.parquet)

    • JSON(例如,包含格式化为 JSON 的数据的 .json.txt 文件)

    • GeoJSON(例如,包含格式化为 GeoJSON 的数据的 .json.geojson.txt 文件)

    • Shapefile (.shp)

    • 文件地理数据库 (.gdb)

    • ORC (.orc)

  • 如果指定了 CSV 或分隔格式选项,则可以使用以下数据集定义参数:

    • 分隔符 - 用于分割字段(或列)和记录(或行)值的分隔符。 可从以下选项中进行选择或者输入您自己的值:

      • 逗号 (,) - 字段和记录值以逗号 (,) 分隔。 这是默认设置。

      • 制表符 (\t) - 字段和记录值以制表符 (\t) 分隔。

      • 管道 (|) - 字段和记录以管道 (|) 分隔。

      • 分号 (;) - 字段和记录值以分号 (;) 分隔。

      • 空格 ( ) - 字段和记录值以空格 ( ) 分隔。

    如果您输入自己的值,其长度必须为一个或两个字符(包括空格)。 不支持长度超过两个字符的分隔符。

    • 具有标题行 - 指定数据集是否包含标题行。 默认为 true。 如果设置为 false,则将数据集的第一行视为一条记录。

    • 包含多行数据 - 指定数据集是否具有包含换行符的记录。 默认为 false。 如果设置为 true,将正确读取和格式化包含多行数据的数据。

    • 字符编码 - 指定用于读取指定数据集的编码类型。 默认值为 UTF-8。 您可以从可用的编码选项中进行选择,或指定一种编码类型。 编码值不支持空格。 例如,指定 ISO 8859-8 值是无效的,必须指定为 ISO-8859-8。

    • 字段 -(可选)配置字段名称和类型。 配置方案按钮可打开一个对话框,其中包含数据集字段,并提供以下选项:

      • 包括或删除字段 - 可以通过选中字段旁边的复选框来移除字段。 默认情况下,包含所有字段。

      • 字段名称 - 将在 Data Pipelines 中使用的字段名称。 可以编辑此值。 默认情况下,此值将与源数据集中的字段相同,除非源名称包含无效字符或为保留字。 无效字符将替换为下划线 (_),保留字将以下划线 (_) 为前缀。

      • 字段类型 - 将在 Data Pipelines 中使用的字段类型。

    在 Data Pipelines 中移除或修改字段将不会修改源数据。

    下表介绍了可用字段类型:

    字段类型 描述
    字符串 字符串字段支持文本字符串。
    短整型 小整型字段支持介于 -32768 和 32767 之间的整数。
    整型 整型字段支持介于 -2147483648 和 2147483647 之间的整数。
    大整数 大整型字段支持介于 -9223372036854776000 和 9223372036854776000 之间的整数。
    浮点型 浮点型字段支持介于大约 -3.4E38 和 3.4E38 之间的小数。
    双精度 双精度型字段支持介于大约 -2.2E308 和 1.8E308 之间的小数。
    日期 日期字段支持格式为 yyyy-MM-dd HH:mm:ss 的值,例如 2025-12-31 13:30:30 为有效值。 如果日期值以其他格式存储,则使用创建日期时间工具计算日期字段。
    仅日期 日期字段支持格式为 yyyy-MM-dd 的值,例如 2025-12-31 为有效值。 如果仅日期值以其他格式存储,请使用这些值作为计算字段工具的输入以计算仅日期字段。
    布尔 布尔字段支持 TrueFalse 值。 如果字段包含布尔值的整数表示(0 和 1),请使用更新字段工具将整数转换为布尔值。
  • 如果指定了 JSON 格式选项,则可以使用根属性参数。 可使用此参数在 JSON 中指定要从中读取数据的属性。 可通过在每个属性之间使用小数点分隔符引用嵌套属性,例如 property.subProperty。 默认将读取整个 JSON 文件。
  • 如果指定了 GeoJSON 格式选项,则可以使用 Geometry 类型参数。 设置此参数属于可选操作。 默认情况下,将使用 GeoJSON 文件中的几何类型。 如果 GeoJSON 文件包含多个几何类型,则必须指定此参数值。 不支持混合几何类型,仅可使用指定的类型。 选项包含多点折线。 包含 GeoJSON 数据位置的几何字段将自动计算并添加到输入数据集中。 几何字段可用作空间操作的输入或在输出结果上启用几何。
  • 如果指定文件地理数据库格式选项,则要素类或表名称参数可用。 使用此参数可指定您希望用作输入的要素类或表的名称。 仅支持点、多点、折线以及面要素类和表。 诸如栅格、镶嵌、轨迹等数据集不受支持。 诸如几何网络要素等高级要素类型不受支持。
  • 为了提高读取输入数据集的性能,请考虑以下选项:

    • 使用使用缓存参数存储数据集的副本。 仅在至少已连接一个打开并显示编辑器的浏览器选项卡时,缓存副本才会保留。 这样可以提高在处理过程中访问数据的速度。 如果源数据自缓存后已更新,请取消选中此参数并再次预览或运行该工具。

    • 在配置输入数据集之后,可以配置以下工具之一,以限制数据处理量:

限制

以下为已知局限性:

  • 文件夹数据存储必须注册到 ArcGIS Data Pipelines Server。

  • 文件夹数据存储中指定的路径必须是绝对路径。 系统不支持相对路径。

  • 建议在文件夹数据存储中指定的路径是网络共享,而不是本地字母驱动器。 不支持在多机 Data Pipelines Server 站点中使用本地字母驱动器,例如 c:\

许可要求

需要以下许可和配置:

  • Creator 或 Professional 用户类型

  • 发布者、服务商或管理员角色,或等效的自定义角色

有关 Data Pipelines 要求的详细信息,请参阅要求

此外,仅当您在 ArcGIS Enterprise 中配置了 ArcGIS Data Pipelines Server 时,Data Pipelines 才可用。

要详细了解如何将数据存储项目添加到内容,请参阅添加数据存储项目

返回顶部