这期内容当中小编将会给大家带来有关Greenplum数据库中怎么实现拉链表,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。

一、概念

在拉链表中,每一条数据都有一个生效日期(sdate) 和 失效日期(edate)。假设在一个用户表中,在 2019年10月8日 新增了两个用户,则这两条记录的生效时间为当天,由于到 2019年10月8日 为止,这两条记录还没有被修改过,所以失效时间为无穷大,这里设置为数据库中的最大值(2999-12-31),如图所示:

第二天(2019-10-09),用户 1001 被删除,用户 1002 的电话号码被修改成 16500000006。为了保留历史状态,用户 1001 的失效时间被修改成 2019-10-09,用户 1002 则变成两条记录,如图所示:

第三天(2019-10-10),又新增了用户 1003,则用户表数据如图:

如果要查询最新的数据,那么只要查询失效时间为 2999-12-31 的数据即可,如果要查询 10月8号 的历史数据,则筛选生效时间 <= 2019-10-08 并且失效时间 > 2019-10-08 的数据即可;如果查询的是 10月9日的数据,那么筛选条件则是生效时间 <= 2019-10-09 并且失效时间 > 2019-10-09;以此类推。

二、表的创建

临时源表 T_FIN_ACCTION_SRC,接收其它数据库(如 oracle)表推送过来的数据 ,表结构和源数据库的表结构一致。

--源表createtableT_FIN_ACCTION_SRC(eNovarchar(6),eNamevarchar(10),ePhonevarchar(11),eData_datedate);

目标表 ( 即拉链表 ) T_FIN_ACCTION_TAR,这里注意的是:拉链表把源表的时间字段改成了生效时间和失效时间。

--拉链表createtableT_FIN_ACCTION_TAR(eNovarchar(6),eNamevarchar(10),ePhonevarchar(11),sdatedate,edatedate);

三、存储过程的创建

在这里为了方便阅读以及代码的编写,先写出整体的存储过程架构,然后我们在一步一步添加代码:

-- 将当前时间传入 (也可以传入昨天的时间哦,随机应变,如果传入的时间是今天则使用中要将时间减一,因为我们要处理的是昨天的数据)

--将当前时间传入(也可以传入昨天的时间哦,随机应变,如果传入的时间是今天则使用中要将时间减一,因为我们要处理的是昨天的数据)createorreplacefunctionMy_FIN_GL_SUBJECT_PRO(INP_TODAYVARCHAR)returnsvoidas$$declarebegin--1.目标表中没有此主键的则确定为新增-新增--2.源表中没有该ID则进行关链-删除--3.修改--3.1闭链:目标表中有此主键的记录,状态值不同,更新结束日期为当天--3.2开链:目标表中新增一条修改的数据,更新结束日期为无穷大end;$$languageplpgsql;

四、拉链的过程实现

1.目标表中没有此主键的则确定为新增 - 新增

insertintogplcydb.public.T_FIN_ACCTION_TAR(eNo,eName,ePhone,sdate,edate)selects.eNo,s.eName,s.ePhone,s.eData_date,to_date('2999-12-31','yyyy-mm-dd')fromgplcydb.public.T_FIN_ACCTION_SRCswheres.eData_date=(to_date(P_TODAY,'yyyy-mm-dd')-1)andnotexists(select1fromgplcydb.public.T_FIN_ACCTION_TARtwheres.eNo=t.eNoands.eName=t.eNameands.ePhone=t.ePhone);

2.源表中没有该ID则进行关链 - 删除

updategplcydb.public.T_FIN_ACCTION_TARasetedate=(to_date(P_TODAY,'yyyy-mm-dd')-1)wherenotexists(select1fromgplcydb.public.T_FIN_ACCTION_SRCswheres.eNo=a.eNoanda.edate=to_date('2999-12-31','yyyy-mm-dd'));

3.修改

3.1 闭链:目标表中有此主键的记录,状态值不同,更新结束日期为当天

updategplcydb.public.T_FIN_ACCTION_TARbsetedate=(to_date(P_TODAY,'yyyy-mm-dd')-1)whereb.edate=to_date('2999-12-31','yyyy-mm-dd')andexists(select1fromgplcydb.public.T_FIN_ACCTION_SRCswheres.eNo=b.eNoandb.sdate<(to_date(P_TODAY,'yyyy-mm-dd')-1)and(s.eName<>b.eNameors.ePhone<>b.ePhone));

3.2 开链:目标表中新增一条修改的数据,更新结束日期为无穷大

insertintogplcydb.public.T_FIN_ACCTION_TAR(eNo,eName,ePhone,sdate,edate)selects.eNo,s.eName,s.ePhone,(to_date(P_TODAY,'yyyy-mm-dd')-1),to_date('2999-12-31','yyyy-mm-dd')fromgplcydb.public.T_FIN_ACCTION_SRCswheres.eData_date=(to_date(P_TODAY,'yyyy-mm-dd')-1)andexists(--处理数据断链新增的情况select1from(selecteNo,sdate,max(edate)end_datefromgplcydb.public.T_FIN_ACCTION_TARgroupbyeNo,sdate)twheret.eNo=s.eNoands.eData_date=t.sdateandt.end_date<=to_date(P_TODAY,'yyyy-mm-dd'));

五、测试

要测试拉链函数,首先我们必须要在原表中插入数据(模拟一天全量的数据):

insertintoT_FIN_ACCTION_SRCvalues('1001','feiniu','18500000001','2019-10-10');insertintoT_FIN_ACCTION_SRCvalues('1002','beibei','18400000005','2019-10-10');insertintoT_FIN_ACCTION_SRCvalues('1003','yuyu','13800000005','2019-10-10');

调用函数进行拉链测试:

selectMy_FIN_GL_SUBJECT_PRO('2019-10-11');--调用函数select*fromT_FIN_ACCTION_TAR;--查询拉链表

测试结果如下图:

插入第二天全量数据,这些数据中有新增的数据,有源数据被删除,还有源数据被修改,完整的模拟sql语句如下:

deletefromT_FIN_ACCTION_SRCwhereeno='1003';insertintoT_FIN_ACCTION_SRCvalues('1004','kongkong','13800000666','2019-10-11');updateT_FIN_ACCTION_SRCsetename='xiaofeifei'whereeno='1001';select*fromT_FIN_ACCTION_SRC;

原表的效果图如下:

接下来执行拉链函数:

--执行拉链函数selectMy_FIN_GL_SUBJECT_PRO('2019-10-12');select*fromT_FIN_ACCTION_TAR;--查询目标表

效果图如下:

上述就是小编为大家分享的Greenplum数据库中怎么实现拉链表了,如果刚好有类似的疑惑,不妨参照上述分析进行理解。如果想知道更多相关知识,欢迎关注亿速云行业资讯频道。