3.2 在数据集成过程中进行数据挖掘
随着商业智能变得越来越普遍,公司越来越多地执行提取、转换和加载(ETL)解决方案将从公司各处而来的数据合并到一个数据仓库中,用于生成报表和进行分析。然而,这些操作的源数据通常是不完整的,或者在某些情况下是商业实体,例如可能需要对客户基于通用描述特征进行分类。
Microsoft SQL Server 2008集成服务提供了一个强大的、可扩展的ETL平台,商业智能解决方案开发人员可以使用它来执行清理和转换数据的ETL操作。SQL Server集成服务包括一个用于培训数据挖掘模型的数据挖掘模型培训目的地,和一个可用于对数据流中传送过来的数据进行预测分析的Data Mining Query转换。预测分析与SQL Server集成服务的集成使得公司可以标记异常数据、分类商业实体、执行文本挖掘、并基于数据挖掘算法的能力和洞察力在空闲时间填入缺失的值。例如,一个ETL过程可能从一个或多个源系统提取客户数据用于放入一个数据仓库中。过去,数据挖掘是在数据仓库加载之后使用的,用于根据预期购买行为分类客户或其它策略管理任务。然而,有了SQL Server集成服务,Data Mining Query转换可以在ETL过程中应用一个数据挖掘模型,使得数据仓库包含了加载过程中分类的数据。这减少了在仓库服务器上所必需做的工作,并确保可用于分析的数据总是最新的,并一直保持是分类的。此外,在ETL过程中的分类还可以用来过滤掉不符合任何已知分类的客户记录。这些记录可能是由于较差的数据质量造成,或显示一个新的、没有在策略管理过程中找到的分类。无论哪种情况,SQL Server集成服务都可以使用数据挖掘发现这些记录并将它们转为手动或自动检查。
图6:在SQL Server集成服务中的数据挖掘
图6显示了一个包含了Data Mining Query转换的SQL Server 集成服务数据流。
3.3 富有洞察力的分析
SQL Server 2008分析服务提供了一个用于多维OLAP分析的高扩展性平台。许多客户已经从在分析服务中创建一个统一的维度模型(UDM)获得了受益,并使用它按多个维度分割商业度量。预测分析是SQL Server 2008分析服务的一部分,它提供了一个更加丰富的OLAP体验,特别是数据挖掘维度按照数据所隐藏的格式将其进行分割。例如,一个销售和市场部门可以创建一个基于现有Customer OLAP维度的数据挖掘结构,并使用它将客户归类到显示相似特征的集群中。然后他们可以使用这个数据挖掘结构来生成一个新的数据挖掘维度,并使用它基于已确认的客户集群来分析销售信息。图7显示了在一个OLAP立方体中的一个数据挖掘维度。

