同质分组
它是将一组研究对象分为相对同质的群组(clusters)。
通俗的讲法,就是:物以类聚,人以群分。
概念延伸聚类分析
在统计学上有个重要概念,叫做聚类。
聚类
是将数据或者对象分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类与分类的不同在于,聚类所要求划分的类是未知的,它依据研究对象(样品或指标)的特征,对其进行集合分组,减少研究对象的数目。各类事物缺乏可靠的历史资料,无法确定共有多少类别,目的是将性质相近事物归入一类而各指标之间具有一定的相关关系。
聚类分析 (cluster analysis)
是一种将研究对象分为相对同质的群组(clusters)的统计分析技术,也叫分类分析或数值分类。聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。
聚类分析的目标就是在相似的基础上收集数据来分类。
聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。
从统计学的观点看,
聚类分析是通过数据建模简化数据的一种方法。
传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等,采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。
从机器学习的角度讲,
簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。
从实际应用的角度看,
聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。以分层次管理的应用为例,聚类分析是通过数据挖掘来识别管理对象的层次,通过聚类观察到管理对象的特征,集中对特定层次的管理对象进行分析。
此方法的主要步骤有:
- 数据预处理;为衡量数据点间的相似度定义一个距离函数;聚类或分组;评估输出。具体方法运用可借助统计专业知识和人才,对管理对象和管理方法进行聚类分层。
对比实验
心理学实验设计的主要步骤可归纳为:
1.建立与研究假说有关的统计假说;
2.确定实验中使用的实验处理(自变量)和必须控制的多余条件(额外变量);
3.确定实验中需要的实验单元(被试)的数量及被试抽样的总体;
4.确定将实验条件分配给被试的方法;
5.确定实验中每个被试要记载的测量(因变量)和使用的统计分析。
实验设计的主要功用是对变量的控制,首先是在控制条件下有效地操纵或改变自变量,使因变量(即反应变量)的变化得到观察。例如,研究两种教学方法对儿童学业成就的影响时,实验设计者应安排使其他条件尽量相同,即保证被试的同质性状,如选择家庭和学校环境相似、学业基础相似,年龄相同的两组儿童,只控制使用两种不同的教学方法,然后考查二者对学习结果的影响。