什么是数据仓库?
数据仓库是企业或组织对大量信息的电子存储。 数据仓库是商务智能的重要组成部分,它对业务数据采用了分析技术。
1988年,IBM研究人员Barry Devlin和Paul Murphy引入了数据仓库的概念。 随着计算机系统变得越来越复杂并处理越来越多的数据,对数据进行仓库存储的需求也在不断发展。 关于数据仓库的一本重要著作是WH Inmon的“ Building the Data Warehouse”,该书于1990年首次出版,此后再版过几次。
数据仓库如何工作
数据仓库用于通过比较从多个异构源合并的数据来提供对公司绩效的更深入的了解。 数据仓库旨在对来自交易来源的历史数据进行查询和分析。
一旦数据被合并到仓库中,它就不会更改也不能更改,因为数据仓库通过关注随时间变化的数据对已经发生的事件进行分析。 所存储的数据必须以安全,可靠,易于检索和易于管理的方式存储。
需要采取某些步骤来创建数据仓库。 第一步是数据提取,其中涉及从多个源点收集大量数据。 数据编译后,将进行数据清理,对数据进行梳理以查找错误以及更正或排除发现的任何错误的过程。
然后将清除的数据从数据库格式转换为仓库格式。 一旦将其存储在仓库中,数据便会经过排序,合并,汇总等操作,从而使数据更协调,更易于使用。 随着时间的推移,随着多个数据源的更新,更多的数据会添加到仓库中。
重要要点
- 数据仓库是企业或组织对大量信息的电子存储。数据仓库旨在对来自交易来源的历史数据进行查询和分析,以用于商业智能和数据挖掘目的。数据仓库用于提供更大的信息通过比较从多个异构源合并的数据来洞察公司的绩效。
特殊注意事项:数据挖掘
企业可能会存储用于探索和数据挖掘的数据,寻找可以帮助他们改善业务流程的信息模式。 一个好的数据仓库系统还可以使公司中的不同部门更容易访问彼此的数据。
例如,数据仓库可以使公司轻松评估销售团队的数据,并帮助制定有关如何改善销售或简化部门的决策。 企业可能会选择关注客户的消费习惯,以更好地定位产品并增加销售额。
通过数据仓库,该公司可以收集过去(例如20年)内客户支出的历史数据,并对这些数据进行分析。 由此产生的信息可以洞察其消费者的偏好; 一天,一个月或一年中销售额更高的时间; 或当年支出最高的客户。
有效的数据存储和管理也是使流程(例如启动旅行预订和使用自动柜员机)成为可能的原因。
数据挖掘过程分为五个步骤:
- 组织收集数据并将其加载到其数据仓库中,然后在内部服务器或云中存储和管理数据,业务分析师,管理团队和信息技术专业人员将访问数据并确定如何组织数据。然后,应用软件根据用户的结果对数据进行排序。最终用户最终以易于共享的格式(例如图形或表格)呈现数据。
数据仓库与数据库
数据仓库不一定与标准数据库具有相同的概念。 数据库是一种事务处理系统,用于监视和更新实时数据,以便仅提供最新数据。 对数据仓库进行编程以在一段时间内聚合结构化数据。 例如,数据库可能仅具有客户的最新地址,而数据仓库可能具有客户过去10年居住的所有地址。