DataWorks数据质量自定义规则的过滤条件有样例么？-[阿里云_云淘科技]

匿名 • 2023年12月17日下午12:48 • 阿里云

DataWorks数据质量自定义规则的过滤条件有样例么？

以下为热心网友提供的参考意见

DataWorks支持自定义规则来过滤数据，这些规则可以基于分区表达式创建，用于监控指定分区的表数据情况。通常，如果模板规则无法满足您对分区表达式中数据质量的监控需求，您可以使用自定义规则。

同时，DataWorks提供了内置的表级别和字段级别的监控模板，这可以帮助您提升规则配置的效率。对于一些特定的数据库类型，如EMR、Hologres、analyticDB for PostgreSQL、CDH，在进行数据质量规则配置前，需要先进行元数据采集。

此外，DataWorks还支持自定义规则强弱，控制规则产生的影响。当数据质量校验不符合预期时，可以决定是否自动拦截问题任务、阻断脏数据向下游蔓延。规则创建后默认为强规则，但您可根据实际情况进行修改。请注意，这些功能只在DataWorks企业版及以上版本中提供。

以下为热心网友提供的参考意见

当使用DataWorks的数据质量自定义规则时，您可以根据自己的需求定义过滤条件。以下是一些示例过滤条件的样例：

字段值为空：
- 表达式：field_name IS NULL
- 说明：该过滤条件适用于需要检查某个字段是否为空的情况。
字段值不为空：
- 表达式：field_name IS NOT NULL
- 说明：该过滤条件适用于需要检查某个字段是否非空的情况。
字段值等于特定值：
- 表达式：field_name = 'specific_value'
- 说明：该过滤条件适用于需要检查字段是否等于指定值的情况。将specific_value替换为实际的特定值。
字段值在指定范围内：
- 表达式：field_name BETWEEN min_value AND max_value
- 说明：该过滤条件适用于需要检查字段值是否在指定范围内的情况。将min_value和max_value替换为实际的最小值和最大值。
字段值满足正则表达式：
- 表达式：REGEXP_LIKE(field_name, 'regex_pattern')
- 说明：该过滤条件适用于需要检查字段值是否满足特定正则表达式的情况。将regex_pattern替换为实际的正则表达式。