什么是数据集市,数据仓库和数据集市之间的区别是什么?
数据集市是服务于单一业务功能(如营销或财务)的数据库. 另一方面,数据仓库可以提供多个功能.这就是数据集市与数据集市的区别所在. 数据仓库. 数据仓库是包含数据集市并在一个地方提供多个业务功能的数据库. 即使有了数据仓库,数据集市也起到了至关重要的作用. 将数据抽取到特定的数据集市中允许用户更快地查询该数据——查询有限的数据集比查询数据仓库中的大型数据集要容易得多, 响应时间明显缩短.
组织通常会将数据集市部署为其数据仓库的子集, 将适用的数据从数据仓库提取到数据集市中. 然而, 不使用数据仓库也可以创建独立的数据集市, 以及一个混合数据集市, 从数据仓库和其他操作源系统输入数据的位置. 如果组织已经有了用于存储信息的数据仓库, 部署数据集市并不需要大量的资源. Dataversity估计一个数据集市的成本为10美元,000美元(而不是100美元以上),000美元(数据仓库),设置时间在3到6个月之间.
数据集市的类型
数据集市的不同类别在很大程度上取决于数据集市如何与数据仓库交互.
- 依赖. 这些数据集市从单个数据仓库中提取数据. 在这种方法中,集中存储数据,并在需要进行分析时进行策略块.
- 独立的. 正如您可能猜到的那样,独立的数据集市不使用数据仓库. 这些通常被较小的组织使用,它们在分析之前从其他内部或外部来源提取数据.
- 混合动力. 这也是一个直观的标题,混合数据集市使用数据仓库和其他数据源.
数据集市和数据仓库vs. 数据湖
除了理解数据仓库和数据市场, 了解数据湖与这些选项的比较是很有用的. 越来越多地, 组织正在放弃对数据仓库和数据集市的使用,转而使用现代的替代方案:数据湖. 詹姆斯·迪克森, Pentaho的CTO, 创造了术语“数据湖”,并用以下类比解释了数据仓库/数据集市和数据湖之间的区别:“如果您将数据集市视为瓶装水的存储——经过清洗、包装和结构化以方便消费——那么数据湖就是一大片处于更自然状态的水.“而数据集市和数据仓库需要结构化和特定的数据集, 数据湖可以处理大范围的复杂数据, 例如web服务器日志, 传感器数据, 社交网络活动, 文本和图像. 从这个意义上说, 数据湖为用户提供了更多探索的机会,并增加了对模型和查询进行更改的灵活性.
组织是否实现了数据集市, 数据仓库或数据湖, 在所有情况下, 这些系统正越来越多地转移到云端. 组织渴望利用云提供的更高的效率和更低的成本, 影响这些业务决策的因素是什么. 这一点应该说清楚, 太, that setting up a cloud data storage architecture is not an either/or situation; data marts and 数据湖s can be integrated together to serve both the rigid data needs of a certain business function and the overall desire to store an increased amount of complex data.
数据集市或数据湖的数据准备
您的组织是否依赖于单一数据市场, 大型数据仓库, 数据湖或者三者的结合, 从这些系统中准备数据进行分析是一致的需求. 对于数据湖来说尤其如此, 数据以原始形式存储,并且通常需要进行大量转换才能获得精细化的分析格式. 然而, 即使在处理来自数据集市或数据仓库的结构化数据时也是如此, 为了满足给定分析项目的需求,数据几乎总是需要进一步细化.
提取, 变换, 和装载过程(ETL过程), 和ETL工具, 从一开始就是在数据仓库和数据市场中移动和转换数据的实际方式吗. 但是这些工具很难扩展对现代分析项目所需的自助服务敏捷性的支持. 简而言之, 这些技术从未被设计为交付给业务分析师使用, 通常会导致IT团队对其业务对应者的请求采取行动的延迟时间长达一周或一个月. 然而, 这并不意味着组织正在集体放弃ETL工具——这些工具仍然充分地允许IT组织从各种来源移动数据——而是为他们的业务分析师采用一个补充平台. 任何部门的成员, 包括商业分析, 可以使用新的补充工具,因为它们被设计为易于访问和使用.
改变yx设计师云 通常被认为是数据准备方面的领导者,并且是专门为最终用户设计的. 设计师云数据准备平台以最引人注目的可视化配置文件呈现数据表示, 简单地选择概要文件的某些元素,立即提示智能转换建议. 它允许用户使用大型, 复杂的数据集,并减少花费的时间准备数据高达90%. 了解如何使用设计师云准备来自数据集市的数据, 数据仓库或数据湖, 安排一个演示 设计师云今天.