漫画解读：什么是数据仓库？

程序员小灰丨华研数据
一个故事
在很久很久以前，世界上生活着许多种族，有人类，有矮人，有精灵......他们有着不同的信仰，不同的文化，彼此相安无事。可是，有一个猥琐男却偏偏想要统治整个世界。
如何统治这么多不同文化信仰的种族呢？猥琐男想出一个馊主意，打造出几枚拥有魔力的戒指，免费送给不同种族的领袖，让他们可以更好地统治各自的族人。
当各个种族的领袖美滋滋地戴上各自的魔戒，走上人生巅峰的时候，猥琐男又打造出一枚独一无二的至尊魔戒。他利用至尊魔戒的力量控制了所有的魔戒，从而控制了各个种族的领袖，继而控制了整个世界。
这个故事告诉我们：数据库和数据仓库之间的关系。
如果说，那个世界的每一个生命个体都是一条数据记录，那么普通的魔戒的地位就好比是数据库，而至尊魔戒的地位就好比是数据仓库。
什么是数据仓库？
数据仓库，英文名称data warehouse，简写为dw。数据仓库顾名思义，是一个很大的数据存储集合，出于企业的分析性报告和决策支持目的而创建，对多样的业务数据进行筛选与整合。它为企业提供一定的bi（商业智能）能力，指导业务流程改进、监视时间、成本、质量以及控制。
数据仓库的输入方是各种各样的数据源，最终的输出用于企业的数据分析、数据挖掘、数据报表等方向。
那么，数据仓库都有什么特点呢？
1.主题性
不同于传统数据库对应于某一个或多个项目，数据仓库根据使用者实际需求，将不同数据源的数据在一个较高的抽象层次上做整合，所有数据都围绕某一主题来组织。
这里的主题怎么来理解呢？比如对于滴滴出行，“司机行为分析”就是一个主题，对于链家网，“成交分析”就是一个主题。
2.集成性
数据仓库中存储的数据是来源于多个数据源的集成，原始数据来自不同的数据源，存储方式各不相同。要整合成为最终的数据集合，需要从数据源经过一系列抽取、清洗、转换的过程。
3.稳定性
数据仓库中保存的数据是一系列历史快照，不允许被修改。用户只能通过分析工具进行查询和分析。
4.时变性
数据仓库会定期接收新的集成数据，反应出最新的数据变化。这和特点并不矛盾。
什么是etl？
etl的英文全称是 extract-transform-load 的缩写，用来描述将数据从来源迁移到目标的几个过程：
1.extract，数据抽取，也就是把数据从数据源读出来。
2.transform，数据转换，把原始数据转换成期望的格式和维度。如果用在数据仓库的场景下，transform也包含数据清洗，清洗掉噪音数据。
3.load 数据加载，把处理后的数据加载到目标处，比如数据仓库。
主流的数据仓库有哪些？
这个hive又是何方神圣呢？
确切地说，hive是基于hadoop的数据仓库工具，可以对存储在hdfs上的文件数据集进行查询和分析处理。hive对外提供了类似于sql语言的查询语言 hiveql，在做查询时将hql语句转换成mapreduce任务，在hadoop层进行执行。
这里有几个名词需要解释：
1.hdfs
hadoop的分布式文件系统，在这里作为数据仓库的存储层。图中的data node就是hdfs的众多工作节点。
2.mapreduce
一种针对海量数据的并行计算模型，可以简单理解为对多个数据分片的数据转换和合并。
关于hdfs和mapreduce的具体知识，这一期暂时不做展开，小灰会在后续的漫画中详细介绍。
teradata数据仓库配备性能最高、最可靠的大规模并行处理 (mpp) 平台，能够高速处理海量数据，其性能远远高于hive。
它使得企业可以专注于业务，无需花费大量精力管理技术，因而可以更加快速地做出明智的决策，实现 roi（投资回报率）最大化。

漫画解读：什么是数据仓库？

VIP推荐