数据挖掘的任务可以分为:分类、聚类、关联、回归、预测、序列分析等,具体的介绍如下:
一、分类:
分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等,如一个汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中,从而大大增加了商业机会。
典型的分类算法:决策树算法、神经网络算法、贝叶斯算法
二、聚类:
聚类分析也称为细分,它基于一组属性对事例进行分组,同一个聚类中的或多或少有相似的属性值。
聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等。
三、关联:
数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。
有人说啤酒和尿布是沃尔玛超市的一个经典案例,也有人说,是为了宣传数据挖掘/数据仓库而编造出来的虚构的“托”。不管如何,“啤酒和尿布”给了我们一个启示:世界上的万事万物都有着千丝万缕的联系,我们要善于发现这种关联。
四、回归:
回归任务类似于分类任务,但它不是查找描述类的模式,它的目的是查找模式以确定数值。简单的线性线段拟合技术就是回归的一个例子,其结果是一个函数,可以根据输入的值确定输出。
回归分析方法被广泛地用于解释市场占有率、销售额、品牌偏好及市场营销效果。把两个或两个以上定距或定比例的数量关系用函数形势表示出来,就是回归分析要解决的问题
五、预测:
预测技术采用数列作为输入,表示一系列时间值,然后应用各种能处理数据周期性分析、趋势分析、噪声分析的计算机学习和统计技术来估算这些序列未来的值。
你可以预测某一特定月份的销售。
六、序列分析:
发现离散序列中的模式,序列由一串离散值(或状态)组成,例如DNA序列,Web点击的url序列,购买商品的次序。序列数据和时间序列数据都是连续的观察值,观察值相互依赖,区别在于序列包含离散的状态,而时间序列包含的是连续的数值;序列和关联数据有相似,都是包含一个项集或一组状态,区别在于序列模型分析的是状态的转移,而关联模型认为购物篮的每个商品平等且独立。序列认为先买电脑后买扬声器与先买扬声器后买电脑是两个不同序列,关联则不同。主要的序列分析技术有Markov链。
图描述了某个新网站的Web点击序列。每个节点是一个URL地址每一条边标示两个URL地址的转移。没一个转移用一个权值标示,表示从一个Url地址转到另一个URL的概率
七、偏差分析:
偏差分析又称比较分析,它是对差异和极端特例的描述,用于揭示事物偏离常规的异常现象。
偏差检测的基本方法是:寻找观测结果与参照值之间有意义的差别
例子:信用卡欺诈行为检测、网络入侵检测、劣质产品分析
a.根据性别划分公司的顾客。
否。这是一个简单的数据库查询
b.根据可盈利性划分公司的顾客。
否。这是数学计算,伴随着阈值应用。如果计算顾客购买的的可能性,则是数据挖掘。
c.公司的总销售额。
否。简单的数学计算。
d.根据学生的标识号码对学生数据库排序。
否。这是简单的数据库查询。
e.预测一枚均匀骰子的结果。
否。 既然骰子是均匀的,这就是概率计算。如果不均匀,我们需要从数据中,估计每种可能结果的可能性,那么这就更像是数据挖掘考虑的问题。然而在特定情况下,这种问题长时间以来是数学家要解决的问题,我们不把他考虑成数据挖掘问题。
f.利用历史记录预测某公司未来的股票价格。
是。我们会试图建立一个可预测连续股票价格价值的模型。这是一个简单的数据挖掘领域,即预测建模。我们可以使用回归模型来建模,即使许多领域的研究者们已经发展出了大量技术来预测时间序列。
g.监测病人心率的异常变化。
是。我们会建立一个心率正常变化的模型,当心率出现异常时发出警报。这就是数据挖掘领域中的异常检测。
h.监测地震活动的地震波。
是。这个案例中,我们会建立一个和地震活动相关的不同种地震波变化模型,当其中地震活动被观察到时发出警报。这是数据挖掘领域中的一种----分类。
i.提取声波的频率。
否。这是信号处理。
2.假设你是一个数据挖掘顾问,受雇于一家因特网搜索引擎公司。举例说明如何使用诸如聚类、分类、关联规则挖掘和异常检测等技术,让数据挖掘为公司提供帮助。
举例:
聚类可以通过某个主题的相似性为结果分组,从而使呈现给用户的主题更加简洁,比如报告簇中使用最多的十个单词。
分类可以把结果分配到预定义的类别中,如:"运动","政治",等等。
序列关联分析可以检测特定序列伴随其他特定序列的高可能性,允许更有效率的存储。
异常检测技术可以发现用户流量的不寻常模式,比如某个物品突然变得更加受欢迎。广告可以使用这种技术来调整策略。
数据挖掘所得到的信息具有先前未知、有效和使用三个特征。
数据挖掘与查询:在一句话中找人民是数据挖掘,在表格中找出人民是查询。
数据预处理技术:数据清理、数据集成、数据变换(平滑、聚集、数据泛化、规范化、数据离散化)、数据归约(抽样、特征选择)、数据离散化