数据仓库的目的是建立一个面向分析的集成数据环境,为企业提供决策支持。数据仓库本身不“产生”任何数据,同时也不需要“消耗”任何数据。数据来自外部,对外部应用程序开放。这就是为什么它被称为“仓库”而不是“工厂”。
01 数据仓库的特点
是面向主题的,并根据某个主题进行组织,这是指用户在使用数据仓库进行决策时关心的关键方面。例子将在后面给出。数据仓库是集成的。数据仓库中的数据来自分散的操作数据。所需数据从原始数据中提取出来,经过处理和集成,然后输入数据仓库。数据仓库不可更新。数据仓库主要为决策分析提供数据。涉及的操作主要是数据查询。
02 数据仓库有如下要求
效率足够高:数据仓库的分析数据一般分为日、周、月、季、年等。可以看出,数据所需的效率与日周期* * *。数据质量:因为数据仓库过程通常分为多个步骤,包括数据清理、转换、加载等。脏数据将导致数据失真,这可能导致错误的决策。扩展性:主要体现在数据建模的合理性上。
数据仓库的基本框架主要包括数据流入和流出的过程,可分为三层:——数据采集、数据仓库和数据应用:
数据仓库的结构@
数据仓库从各种数据源获取数据,数据仓库中的数据转换和流动可视为ETL (Extraction of extra,Transfer and Load)。ETL是数据仓库的装配线,也可以被视为数据仓库的血液。它维护数据仓库中数据的新陈代谢,数据仓库日常管理和维护中的大部分精力是维护正常稳定的ETL。
03 数据仓库
1.数据获取
对于网站数据仓库,点击流日志是一个主要数据源,是网络分析的基础数据。当然,网站的数据库数据也是不可或缺的。它记录网站运行的数据和各种用户操作的结果。其他数据是网站内外对公司决策有用的其他类型的数据。
2.数据仓库
2.1数据模型:
数据模型是抽象描述现实世界的工具和方法。它是一种映射,通过抽象实体的形式和实体之间的联系来表示现实世界中交易的相互关系。这里,数据模型表示实体之间的抽象关系。通过实体间关系的定义和描述,表达了实际业务中的具体业务关系。
数据仓库模型是数据模型中特定数据仓库应用系统的特定数据模型
。通过上图,我们可以很容易地看到,在整个数据仓库建模过程中,我们需要经历四个一般的过程:
因此,在整个数据仓库模型的设计和架构中,既涉及业务知识,也涉及具体的技术。我们不仅需要了解丰富的行业经验,还需要某些信息技术来帮助我们实现我们的数据模型。最重要的是,我们还需要一种非常适用的方法来指导我们抽象、处理和生成业务各个阶段的模型。
2.2数据主题:
2.3数据报表:
数据模型的构建和维度的选择旨在满足数据主题的需要。数据主题通常是业务需求的细化。
2.4数据集市和开放API
数据质量中心:
这里的数据聚合是指基于特定需求的简单聚合(基于多维数据的聚合现在在多维数据模型中)。简单聚合可以是聚合数据,如总页面浏览量、访问量、唯一访问者等。或者平均数据,比如Avg。页面时间,Avg。现场时间等。这些数据可以直接显示在报告上。
data report示例
Data Mart,也称为Data Mart,可以理解为一个包含多个字段的宽表,例如sales table,它不仅包含订单、金额等必要字段,还包含产品信息集、用户信息集,甚至可能用到的销售人员信息,是数据仓库的核心组成部分。
提高了数据的准确性:由于面向主题的数据表建立后,不需要根据不同的需求建立不同的结果表,自然错误的概率会大大降低改进的效率:由于它是面向主题的,任何需要的数据都可以直接简单地从数据集市表中获得。
开放应用编程接口,指对外开放的查询等接口。
metadata management
metadata(元数据),实际上应该被称为解释性数据,或数据字典,即数据的数据。主要记录数据仓库中模型的定义、各级之间的映射关系、监控数据仓库的数据状态和ETL的任务运行状态。通常,元数据存储库用于统一存储和管理元数据。其主要目的是使数据仓库的设计、部署、运行和管理实现协调一致。
极牛网精选文章《数据分析必不可少之数据仓库!》文中所述为作者独立观点,不代表极牛网立场。如有侵权请联系删除。如若转载请注明出处:https://geeknb.com/3983.html