分享好友 最新动态首页 最新动态分类 切换频道
数据挖掘任务
2024-12-26 14:56

​​​​​​数据挖掘的任务可以分为:分类、聚类、关联、回归、预测、序列分析等,具体的介绍如下
一、分类
分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等,如一个汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中,从而大大增加了商业机会。
典型的分类算法:决策树算法、神经网络算法、贝叶斯算法
二、聚类
聚类分析也称为细分,它基于一组属性对事例进行分组,同一个聚类中的或多或少有相似的属性值。
聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等。

三、关联
数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。
有人说啤酒和尿布是沃尔玛超市的一个经典案例,也有人说,是为了宣传数据挖掘/数据仓库而编造出来的虚构的“托”。不管如何,“啤酒和尿布”给了我们一个启示:世界上的万事万物都有着千丝万缕的联系,我们要善于发现这种关联。

四、回归
回归任务类似于分类任务,但它不是查找描述类的模式,它的目的是查找模式以确定数值。简单的线性线段拟合技术就是回归的一个例子,其结果是一个函数,可以根据输入的值确定输出。
回归分析方法被广泛地用于解释市场占有率、销售额、品牌偏好及市场营销效果。把两个或两个以上定距或定比例的数量关系用函数形势表示出来,就是回归分析要解决的问题

五、预测
预测技术采用数列作为输入,表示一系列时间值,然后应用各种能处理数据周期性分析、趋势分析、噪声分析的计算机学习和统计技术来估算这些序列未来的值。
你可以预测某一特定月份的销售。

六、序列分析
发现离散序列中的模式,序列由一串离散值(或状态)组成,例如DNA序列,Web点击的url序列,购买商品的次序。序列数据和时间序列数据都是连续的观察值,观察值相互依赖,区别在于序列包含离散的状态,而时间序列包含的是连续的数值;序列和关联数据有相似,都是包含一个项集或一组状态,区别在于序列模型分析的是状态的转移,而关联模型认为购物篮的每个商品平等且独立。序列认为先买电脑后买扬声器与先买扬声器后买电脑是两个不同序列,关联则不同。主要的序列分析技术有Markov链。
图描述了某个新网站的Web点击序列。每个节点是一个URL地址每一条边标示两个URL地址的转移。没一个转移用一个权值标示,表示从一个Url地址转到另一个URL的概率

七、偏差分析
偏差分析又称比较分析,它是对差异和极端特例的描述,用于揭示事物偏离常规的异常现象。
偏差检测的基本方法是:寻找观测结果与参照值之间有意义的差别
例子:信用卡欺诈行为检测、网络入侵检测、劣质产品分析

a.根据性别划分公司的顾客。

否。这是一个简单的数据库查询

b.根据可盈利性划分公司的顾客。

否。这是数学计算,伴随着阈值应用。如果计算顾客购买的的可能性,则是数据挖掘。

c.公司的总销售额。

否。简单的数学计算。

d.根据学生的标识号码对学生数据库排序。

否。这是简单的数据库查询。

e.预测一枚均匀骰子的结果。

否。 既然骰子是均匀的,这就是概率计算。如果不均匀,我们需要从数据中,估计每种可能结果的可能性,那么这就更像是数据挖掘考虑的问题。然而在特定情况下,这种问题长时间以来是数学家要解决的问题,我们不把他考虑成数据挖掘问题。

f.利用历史记录预测某公司未来的股票价格。

是。我们会试图建立一个可预测连续股票价格价值的模型。这是一个简单的数据挖掘领域,即预测建模。我们可以使用回归模型来建模,即使许多领域的研究者们已经发展出了大量技术来预测时间序列。

g.监测病人心率的异常变化。

是。我们会建立一个心率正常变化的模型,当心率出现异常时发出警报。这就是数据挖掘领域中的异常检测。

h.监测地震活动的地震波。

是。这个案例中,我们会建立一个和地震活动相关的不同种地震波变化模型,当其中地震活动被观察到时发出警报。这是数据挖掘领域中的一种----分类。

i.提取声波的频率。

否。这是信号处理。

2.假设你是一个数据挖掘顾问,受雇于一家因特网搜索引擎公司。举例说明如何使用诸如聚类、分类、关联规则挖掘和异常检测等技术,让数据挖掘为公司提供帮助。

举例

聚类可以通过某个主题的相似性为结果分组,从而使呈现给用户的主题更加简洁,比如报告簇中使用最多的十个单词。

分类可以把结果分配到预定义的类别中,如"运动""政治",等等。

序列关联分析可以检测特定序列伴随其他特定序列的高可能性,允许更有效率的存储。

异常检测技术可以发现用户流量的不寻常模式,比如某个物品突然变得更加受欢迎。广告可以使用这种技术来调整策略。

数据挖掘所得到的信息具有先前未知、有效和使用三个特征。

数据挖掘与查询:在一句话中找人民是数据挖掘,在表格中找出人民是查询。

数据预处理技术:数据清理、数据集成、数据变换(平滑、聚集、数据泛化、规范化、数据离散化)、数据归约(抽样、特征选择)、数据离散化

最新文章
2022有没有能和好友pk的手机游戏 好玩的pk游戏排行榜
pk格斗类游戏因为特效足,画面刺激等特点一直被玩家们喜欢,在整个游戏圈子里的热度也是很高的,那么2022有没有能和好友pk的手机游戏呢,小编为大家带来好玩的pk游戏排行榜,帮助大家快速的了解到目前好玩的pk格斗游戏都有哪些,带大家找到
4种鹿花菌属真菌鉴定及其邻苯二甲酸酯类化合物的含量测定
2.1.1球孢鹿花菌Gyromitra sphaerospora(Peck)Sacc. 1889子囊盘宽4.5~13.0 cm,高2~7 cm,凸面体,表面波状、垫状,有褶皱,少数稍马鞍形,光滑,边缘内卷,褐色至暗褐色,干燥后深褐色至黑色,成熟后常破裂;囊盘被表面有棱纹,颜色稍浅;
AI绘画工具大比拼:如何轻松生成超逼真美女写真?
限时免费,点击体验最近超火的AI生图神器,坐拥3000美女的大男主就是你! https://ai.sohu.com/pc/generate/textToImg?_trans_=030001_yljdaimn 在如今这个数字化的时代,AI技术的迅猛发展让人们的生活发生了翻天覆地的变化。想象一下,如
GESP考试大纲
ps:后续会跟进知识点对应视频 简介​ CCF 编程能力等级认证(GESP)为青少年计算机和编程学习者提供学业能力验证 的规则和平台。GESP 覆盖中小学阶段,符合年龄条件的青少年均可参加认证。C++ 编程测试划分为一
945比965差多少? 性能与价格如何取舍
是目前为止 9系列芯片组中最受关注的关注的一款,P965与酷睿2 E6300这对完美组合何尝不是大家共同的期待。但是自从酷睿2平台发布以来,和主板的始终偏高,导致很多消费者望“肉”兴叹。 为了满足大众群体对酷睿2平台的需求,主板厂商在第
12月第2周皇姑人气楼盘榜出炉,这些楼盘成为市场抢手之物!
12月第2周(12.9-12.15)皇姑新房热搜榜出炉!此次楼盘排名数据根据房天下用户浏览及关注度综合计算产生。房天下研究院数据显示,12月第2周(12.9-12.15)皇姑楼盘中,位于文大路与呼兰河街交汇处东南侧的招商·公园1872备受关注。据了解,
AI写作工具大揭秘:原理、应用与未来展望
### AI写作工具大揭秘:原理、应用与未来展望
docker可视化管理界面_Docker可视化管理工具—DockerUI
然而,使用了命令行的缺点就是没有可视化的方式来的方便。接下来就介绍一款docker可视化管理工具DockerUI。DockerUI基于Docker API,提供等同Docker命令行的大部分功能,支持container管理,image管理。一、Docker
2024年(京基宸悦府)官方首页网站|京基宸悦府百度百科|深圳房天下
深圳·京基宸悦府✅京基宸悦府售楼处24小时电话:400-883-1335【☎已认证】✅京基宸悦府营销中心24小时电话:400-8950-807【☎已认证】Vip贵宾置业===欢迎来电预约尊享内部折扣===匠心钜制恭迎品鉴✅京基宸悦府售楼中心24小时电话:400-109-07
2025最新(远洋天萃世纪)官方售楼处-官方网站欢迎您-深圳房天下
深圳-远洋·天萃世纪远洋·天萃世纪营销中心电话☎:400-832-8772【营销中心已认证】远洋·天萃世纪售楼处电话☎:400-832-8772【售楼处已认证】远洋·天萃世纪展示中心电话☎:400-832-8772【电话热线已认证】✅➤➤➤➤VIP贵宾置业〢欢迎来
相关文章
推荐文章
发表评论
0评