聚类分析将数据划分成有意义的簇,如果目标是划分成有意义的组,则簇应当捕获数据的自然结构。 聚类的目的可以分为2类:
旨在理解的聚类。比如生物学,信息检索,气候模式,心理学和医学,商业等。
旨在实用的聚类。旨在汇总数据,压缩数据,有效地发现最近邻。
聚类分析将数据划分成有意义的簇,如果目标是划分成有意义的组,则簇应当捕获数据的自然结构。 聚类的目的可以分为2类:
旨在理解的聚类。比如生物学,信息检索,气候模式,心理学和医学,商业等。
旨在实用的聚类。旨在汇总数据,压缩数据,有效地发现最近邻。
关联分析是一种发现隐藏在大型数据集中有意义的数据联系的方法。所发现的联系可以用关联规则或者频繁项集的形式表示,比如以下规则: \[\{nappy\}\rightarrow\{beer\}\] 该规则表明尿布和啤酒的销售之间存在很强的联系,因为许多购买尿布的顾客也买啤酒。
分类任务就是通过学习得到一个目标函数(target function)\(f\),把每个属性集\(x\)映射到一个预先定义的类标号\(y\)。 分类和回归的区别之处就是类标号是否是离散的。回归的目标属性\(y\)是连续的。 分类的一般方法有决策树,基于规则的分类,神经网络,支持向量机和朴素贝叶斯算法。
(改动中-2014年1月24日)