开始免费

加快您的数据准备与设计师云由Trifacta供电

免费注册
 
数据质量 模板:

用模式漂移验证文件数据

模式漂移检测流程 此模板的流视图

转换:
拆分行,标头,$sourcerownumber, join

此模板显示了如何根据预期的模式验证文件数据, 或者当数据在模式中偏离预期时. 它利用了Designer Cloud按原样导入数据的能力,而无需应用推断的行拆分技术, 并通过连接将其与预期模式的标头进行比较. 然后将结果分成两个输出, 如果文件输入与预期的模式匹配, 那么Output - Valid Header输出将包含输入数据, 否则,您将在Output - invalid Header输出中找到无效输入的数据.

自定义此模板以供您使用, 您将需要创建3个不同的数据集来替换此流模板中的现有数据集.

1)一个包含预期模式的文件,在文件的第一行包含头元数据. 该文件还可以包含一些示例数据. 此文件需要作为非结构化文件导入Designer Cloud(见下文)。.

2)根据预期模式进行验证的输入文件. 该文件还应该在文件的第一行中包含其标题元数据. 此文件需要导入到Designer Cloud中两次, 一次作为非结构化文件,一次作为结构化文件.

3)更换 InvalidHeader-Source-Unstructured.csv 使用步骤2)中的非结构化数据集,并替换 InvalidHeader-Source-Structured.csv 使用步骤2中的结构化数据集). 取代Expected-Target-Unstructured.CSV与第1步的数据集).

关于导入非结构化文件的注意事项:

将文件导入Designer Cloud时, 默认情况下,它将自动尝试推断如何将数据拆分为记录 splitrows 变换. 通常您不会看到此步骤,也无法修改它. 但您可以通过取消勾选导入数据集设置页面中的“检测结构”选项来禁用此功能.

新用户?

如果您的数据主要在谷歌云平台上,请使用Dataprep. 否则,选择“设计器云”.

在设计器云中使用 在Dataprep中使用
友情链接: 1 2 3 4 5 6 7 8 9 10