新闻稿




新数据(差不多)总是两次


22、任何值得做的事,都值得一遍又一遍地去做。对吧?当为数据仓库、中心或其他分析领域构建和标准化新的主题领域或新来源时通常忽略的任务是带来数据的逻辑。显然,每个人都知道必须处理新数据。许多人忽略是什么想法,即建立一个往往必须进行两次或更多的方式使数据带来数据。

手头造成额外工作量的问题是历史。基本处理被定义为摄取数据,因为它看起来并从今天进入源。因此,此处理可用于跑步,并向前进。如果有一个从今天开始的情况,那么唯一必要的数据,那么数据历史问题就没有问题,一个是完成的。或者,如果有企业需要从一开始就可提供历史数据然后一个是完成了,还有更多的细节需要解决。

在考虑新来源的历史数据时,要回答的第一个问题,“是所需的历史吗?”有时这个问题的答案是“否”,因为答案可能是不可取的,缺乏可用历史记录是必须管理前进的期望。历史可用时,如何提供历史数据可能有各种时尚。

在一个理想的世界中,带来历史可以像接收到作为源的完整副本而不是日常事务一样简单。理想情况下,它的格式相同,可能会发生针对日常事务定义的逻辑对完整副本工作正常。不太理想,格式可能是不同的,或完整副本的上下文需要逻辑更改。因此,建立处理逻辑的辅助版本以处理完整副本。或者,可以在唯一或最佳历史源的情况下是一组日常事务返回到紧急情况的日常事务。可能需要稍微改变逻辑以允许“当前日期时间”为输入参数。

主要挑战将协调和逐步通过从最旧的每个数据的逐个周期运行到最近的。有时供应商提供日常文件不能或不会提供任何历史记录。缺乏援助并不是,本身就是历史上不可用的。历史可以在先前或备用数据集线器或其他结构中使用。显然,在这种不同的情况下几乎可以肯定的是,处理历史数据的逻辑将是全新的。

有时,一个人可能很幸运,只需要编写一次逻辑。但通常情况下,新源摄入处理必须至少写入两次:一次是为了引入当前数据并及时向前移动数据,第二次是为了引入指定的历史,这些历史必须从一开始就可用。

可能是当前和前进来自“合法”来源,但历史来自旧版本的解决方案正在使用不同的格式构建,或者旧的合法源有多种在各个点到位的格式-in-time。无论哪种方式,都必须创建新的代码,以便在此历史记录中提取相同的数据。

这是因为这些动态,即ETL,ELT或ORE的动态,它是不止一次地创建其处理的。作为一个朋克乐队一次评论,“数量是质量”。因此,人们越多的事情就越好。额外的工作是帮助我们更好地教会如何完成它。