检查数据完成性是为了验证目标系统中的数据是否在加载后符合预期.
可以执行的常见测试如下:
检查聚合函数(总和,最大值,最小值,计数值),
检查并验证没有转换或简单转换的列的源和目标之间的计数和实际数据.
计数验证
比较源表和目标表中的记录数.可以通过编写以下查询 :
SELECT count(1)FROM employee; SELECT count(1)FROM emp_dim;
数据配置文件验证
它涉及检查源和中的聚合函数,例如count,sum和max目标表(事实或维度).
列数据配置文件验证
它涉及比较每个不同值的不同值和行数.
SELECT city,count(*)FROM employee GROUP BY city; SELECT city_id,count(*)FROM emp_dim GROUP BY city_id;
重复数据验证
它涉及验证列中或列组合中的主键和唯一键根据业务要求应该是唯一的.您可以使用以下查询来执行重复数据验证 :
SELECT first_name,last_name,date_of_joining,count(1)FROM employee GROUP BY first_name,last_name HAVING count(1)> 1;