时间:2023-03-30 11:36:32
引言:易发表网凭借丰富的文秘实践,为您精心挑选了九篇聚类分析论文范例。如需获取更多原创内容,可随时联系我们的客服老师。
对于股票投资来说,一定要关注股票上市公司的基本盈利状况以及该公司未来的发展状况。在投资时,这两大因素必须进行思考衡量,因为这两大因素是衡量一个上市公司有没有投资价值最基本的条件。因此,要在投资前计算出该股票每股的收益、该公司净资产收益率以及主营收入增长率。
1.盈利能力指标。总资产利润率=净利润/平均资产总额,这体现出公司整体的获利能力。净资产利润率=净利润/平均净资产,这个关系可以直接体现出股东投资的回报。主营业务收益率=主营业务利润/主营业务收入,主营业务是上市公司利润的来源,主营业务的收益越大,公司在市场中的竞争优势就越明显。每股收益=净利润/期末总股本,每股的收益越高,反应出每股获利的能力越强。
2.成长能力指标。主营业务收益增长率=本期主营业务收入/上期主营业务收入-1,这体现出上市公司重点项目的成长力。净资产利润率=本期净利润/上期净利润-1,上市公司给员工的薪酬都是根据净利润决定的。
二、聚类分析的投资方法应用实例
聚类分析方法隶属多元统计分析方法之中,与多元统计分析法和回归分析法并称为三大应用方法。聚类分析法一定要建立在某个优化意义基础之上,如果将聚类分析方和常规的分析法相比较的话,会发现聚类分析法有很大的优势,第一是使用聚类分析法可以对数据中的多个变量进行样本分析,然后将其分类整理;第二是通过使用聚类分析法所得出的数据非常直观明了,通过观察聚类谱系图投资者就能够清楚地分析出数据显示的结果;第三是如果将聚类统计法所得出来的数据结果与普通方法计算出来的结果进行对比,不难发现聚类分析法的对比结果更加细致、科学、全面,接下来通过两个应用的实例进行说明。
1.原始数据标准化。为了解决原始数据量纲和数量级差异带来的影响,更好的对聚类分析和判别进行分析,可以采用指标标准化的处理方法。
2.逆指标正向化处理。流通股本是逆指标,对其绝对值取倒数可以得出。
三、将聚类分析法应用到金融投资上的意义
将聚类分析法应用于金融投资上,不但可以显示出有效、科学、全面的数据更能帮助弥补金融投资投资时所出现的不足。
第一,聚类分析法建立在基础分析之上,对投资股票从一些基本层面进行量化分析,进而对股票价格影响因素定性进行补充并完善了原有的基础分析。聚类分析法作为长期的理性投资参考依据,是为了发掘股票投资的真实价值,避免由于市场过热导致资产估值不公允。
第二,在建立投资评价模型的时候,可以运用聚类分析法对公司和股票投资价值之间的联系进行分析。公司的成长是一个在哥登模型中,在一个变化的趋势内进行。不变的股息增长率对实际情况并不符合,在采用多阶增长模型的时候,想要得到不同阶段的股息增长率是很困难的。所以,对股票的成长进行分析得时候,可以选取净利润率等客观的数据做参考,这样可以估算出股票的发展潜力。
第三,通过对聚类分析法和现资组合理论的比较可以得出,聚类分析法比现资组合理论更具有直观性和实用性,并且在实际生活中的局限小。该方法主要着眼于实际数据的相似性和其延生的规律性,较投资学中一些以预测和假定前提较多的模型而言更具有现实意义,也更加贴近当前市场情况的现实。另外,聚类分析法的操作性强,在实际应用过程中有一定的优越性,更加适合投资者使用。
第四,聚类分析法作为长期投资的理念,随着我国金融行业的不断发展,逐渐被更多的投资人采用。理性的运用聚类分析法这种投资方法,不但可以使投资者的投资风险降到最低,还可以规范其他投行的投资行为,促使发行股票的企业可以本着经营业绩和长期的成长模式进行投资,在一定程度上可以有效规避道德风险和投机行为,保证金融市场的稳定性和规范性,保护散户和弱势群体的经济利益,进而繁荣整个股票、证劵市场,使我国的经济更繁荣。
四、结论
系统主要实现软件的模块话设计,包括反射率数据分析模块、速度分析模块、天线运行稳定性分析模块以及雷达组网数据分析模块。
1.1反射率分析模块
反射率的大小体现了气象目标的降水粒子的密度分布及体积大小,在实际气象技术中长期用于表示气象目标的强度,在工作上采用dBZ单位表示。对于空管气象雷达图,数据显示采用PPI(PlanPositionImage)显示方式。该方式决定了一张气象雷达图由圆锥俯视平面上分析空间的回波构成。在设计上简单介绍其设计流程,首先必须读取原始数据,并判断是否首次读取,若为首次读取则对其进行预处理,否则进行坐标转换;其次进行图像绘制并判断是否需要改变仰角。此处需要关注的关键是如何进行数据的预处理。在实现上,对接收的数据进行反射率信息结构体赋值。当然该结构体包括了记录实际仰角角度、数据文件路径存储、雷达波段判断以及相关数据的偏移。通过扫描上述结构体可以实现对雷达数据的预处理。
1.2速度分析模块
多普勒雷达采用了速度退化模糊技术以扩大其对径向风速测量不模糊的区间。结构设计主要考虑数据显示的径向方式,流程设计则与反射模块类似。当然在界面设计上,系统将提供对颜色配置的定义,使其人机交互更为快捷。
1.3天线稳定性分析模块
天线是雷达数据采集的关键部位,长期以来是影响雷达运行的主要关键点之一。其依赖于底下的电机进行旋转,目前大多数进口电机可以保证24小时安全运行。而运行时仰角提升和转速的平稳性直接影响雷达数据的采集。为此,我们通过在径向数据上采用方位角及仰角进行扫描实现曲线图监控。通过选择基数据再进行预处理后绘制相关曲线实现对天线运行状态的评估。其中,曲线图的绘制需要的参数为:纵坐标为气象雷达实际运行的每层仰角均值;横坐标为范围角:0-360°。
1.4雷达组网分析模块
按照民航局的总体规划,未来空管将实现多气象雷达覆盖,在这过程,多个气象雷达的组网将成为气象雷达数据的主要来源。这种模式将使得数据覆盖面更大、数据安全性更高、数据准确性更强。而与此同时带来了雷达数据融合组网的技术难点。设计上,首先模块将定义雷达站点配置信息,并与此同时提供组网雷达可选数据;其次对选择雷达数据进行数据预处理;再之则对雷达数据进行统计平均并做坐标转换;最后进行拼图处理。在这过程中,需要对雷达数据的强度进行自适应调整、显示范围自适应调整。与上述同理,系统核心在于预处理。在C#中定义List数据列表,并在定义其结构为[站点标示][距离][方位角],对于数据读取时,需要进行插值算法处理,此时的单时数据拼接分析可以实现不同仰角和方位角的筛选。为了控制系统数据的准确性可以在前端定义雷达数据方位角表,根据表进行映射处理。通常如若出现非连续数据可以在预处理上对其进行差值补偿。在C#上可以采用反差圆补偿方法。
2.结束语
[关键词]学术期刊 评价指标分类 因子分析 聚类分析
[分类号]G304
1 引 言
学术期刊是国家科技发展水平的重要窗口,是知识创新、科技成果转化为生产力的重要桥梁,在推动社会科技进步方面发挥着不可替代的作用。期刊评价是文献计量学研究的重要组成部分,它通过对学术期刊的发展规律和增长趋势进行量化分析,揭示学科文献数量在期刊中的分布规律,为优化学术期刊的使用提供重要参考,同时可以提高学术期刊的内在质量,促进学术期刊的健康成长和发展。对期刊评价指标进行分类是期刊评价的基础和前提,目前期刊评价方法有几十种,有些评价方法不需要对期刊评价指标进行分类,如主成分分析、灰色关联、TOPSIS等方法,但是有些评价方法必须建立在期刊评价指标分类的基础上,包括层次分析法、专家打分法、突变理论等。层次分析法是根据子指标对父指标的重要性程度进行两两判断,指标分类尤为重要。专家打分赋权类评价方法是在指标众多的情况下进行的,更需要分类。
Weiping Yue、Concepcion s.Wilson(2004)利用结构方程的原理建立了一个期刊影响力的分析框架,并对期刊评价指标进行了系统的分类。苏新宁(2008)在构建人文社会科学期刊评价指标体系时,将一级指标分为期刊学术含量(篇均引文、基金论文比、机构标注、地区分布数)、被引数量(总被引频次、学科论文引用数量、他引率)、被引速率(总被引速率、学科引用速率、它刊引用速率)、影响因子(总影响因子、学科影响因子、他引影响因子)、被引广度等。盖红波(2006)将期刊评价指标分为定量评价指标(被引量、被索量、载文量、被摘量、影响因子)、定性评价指标(双高、双效、双奖、双百)、质量考核指标(政治、学术、编辑出版、效益)、同行评议指标。赵惠祥、张弘等(2008)将科技期刊评价一级指标分为影响力指标(总被引频次、影响因子、5年影响因子、相对影响因子、即年指标、他引率、引用刊数、扩散因子、学科影响指标、学科扩散指标、被引半衰期、h指数)、文献指标(载文量、参考文献量、平均引文量、平均作者数、地区分布数、机构分布数、基金论文比、海外论文比等)、载体指标(文献书目信息完整率、编排规范化、差错率、装帧质量、印刷质量、网络通畅率、平均发表周期、平均出版时限等)、管理指标(期刊社体制、编委会状况、管理规章完备性、版权制度、发行体制、信息平台、人员状况、营业总额、资产总额、利润总额)。邱均平、张荣等(2004)将期刊评价指标分为技术性指标(影响因子、总被引频次、即年指标)、效益指标(直接效益、间接效益、社会效益)、标准规范化指标(编校质量、装印质量、现代化建设)。黄河胜(2000)将期刊内涵指标分为引文参数(影响因子、总被引频次、自引率、被引半衰期、外文引文率、SCI文献引用率)、稿件特征参数(基金论文比、学位稿)、稿流特征参数(平均时滞量、平均载文量)。潘云涛(2007)”将期刊一级指标分为学术质量指标、国际竞争力力指标、可持续发展潜力指标。庞景安、张玉华等(2000)将科技期刊评价指标分为经营管理水平指标、学术水平、编辑水平三大类。
由于评价目的不同,期刊评价的指标选取不同,当然分类也不一样。对于大多数评价指标而言,不同学者的分类基本相同,但由于学术期刊评价指标的特点,对于少数指标,不同学者分类截然不同,如基金论文比指标有的作为学术质量指标,而有的作为文献特征指标;即年指标有的被作为时效性指标,有的被作为影响力指标。这些难以分类的指标主要有基金论文比、地区分布数、海外论文比、即年指标等。此外,目前学者主要采用主观分类法进行分类,没有采用客观分类法。
本文以中国科学技术信息研究所的医学期刊评价为例,采用聚类分析与因子分析等客观分类法进行分类和比较,试图确定学术期刊评价指标的分类方法,从而为进一步的期刊评价打下基础。
2 方法
2.1 聚类分析(Cluster Analysis)
聚类分析是多元统计分析的一种,它把一个没有类别标记的样本集按某种标准分成若干个子集(类),使相似的样本尽可能归为一类,而不相似的样本尽量划分到不同的类中。聚类分析被广泛地应用于模式识别、数据挖掘和知识发现的许多领域。聚类的目的是要使各类之间的距离尽可能地远,而类中点的距离尽可能地近。并且分类结果还要有令人信服的解释。在聚类分析中,人们一般事先并不知道应该分成几类及哪几类,全根据数据确定。
对一组数据,既可以对变量(指标)进行分类,也可以对观测值(事件,样品)来分类,对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类,它们在数学上是无区别的。在学术期刊评价中,可以应用R型聚类分析来进行学术期刊评价指标的分类。
2.2 因子分析(Factor Analysis)
因子分析是从多个变量指标中选择出少数几个综合变量指标的一种降维的多元统计方法。该方法的基本思想是通过变量的相关系数矩阵或协方差矩阵内部结构的研究,找出能控制所有变量的少数几个随机变量去描述多个变量之间的相关关系。然后根据相关性大小把变量分组,使得同组内的变量之间相关性较高,不同组的变量之间相关性较低。每组变量代表一个基本结构,这个基本结构称为公共因子。对于所研究的问题就可试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。
建立因子分析模型的目的是找出主因子,解释每个主因子的实际意义,以便对实际问题进行分析。由因子模型矩阵得到的初始因子载荷矩阵,如果因子负荷的大小相差不大,对因子的解释可能有困难,因此,为得出较明确的分析结果,往往要对因子载荷矩阵进行正交旋转或斜交旋转。通过旋转坐标轴,使每个因子负荷在新的坐标系中能按列向0或1两极分化,同时也包含按行向两极分化。如果不对因子载荷矩阵进行旋转,就是主成分分析,因此,主成分分析实际上是因子分析的一种特殊情况。主成分分析只要求所提取出的主成分能包含主要信息即可,不需对其含义作准确解释;因子分析要求所提取出的因子有实际含义,因此采用因子分析进行变量的分类较好。
因子分析是根据现有的指标寻找公共因子,因此,可以借用因子分析进行指标的分类,与主观分类不同的是,由于因子分析是完全根据数据进行的客观分析,
因此不能首先确定一级指标的名称,而应该根据因子分析的结果对公共因子进行命名。
3 数据
本文数据来自于中国科学技术信息研究所CSTPC数据库,以医学类期刊为例进行分析。中国科学技术信息研究所从1987年开始对中国科技人员在国内外数量和被引情况进行统计分析,并利用统计数据建立了中国科技论文与引文数据库,同时出版《中国学术期刊引证报告》。本文数据是2006年的医学学术期刊数据,共518种医学期刊,如表1所示:
由于要对期刊进行评价,所以必须对数据进行标准化处理,每项指标最大值设为100,然后按比例进行调整。此外,被引半衰期和引用半衰期是两个反向指标,必须进行适当处理,方法是用100减去其标准化后的结果后再做标准化,这种处理方式是线性处理方式,比反向指标取倒数的非线性处理方式要科学一些。
4 指标分类结果
4.1 聚类分析
采用层次(hierarchical method)R聚类,第一步把最近的两个指标合并成一类;度量剩余的指标和小类间的亲疏程度,并将当前最接近的指标或小类再聚成一类;再度量剩余的指标和小类间的亲疏程度,并将当前最接近的指标或小类再聚成一类,如此循环,每次都少一类,直到最后只有一大类为止。越是后来合并的类,距离就越远。采用SPSS 15.0进行数据处理,选择组内联系最大法(within-groups linkage),结果见图1。总被引频次(x1)与学科扩散因子(X5)被划为一类,都是期刊影响力的指标;影响因子(x7)与即年指标(X8)被划为一类,还是期刊影响力的指标。在此基础上将以上4个指标划为一类,是可以解释的。然后以此为基础,依次增加平均引文数(X11)、海外论文比(X14)、基金论文比(X9)、学科影响指标(X4),关联性相对较弱,如平均引文数与期刊的影响力关系并不是很大,海外论文比和基金论文比与期刊影响力有一定关系,但基于聚类分析的角度,似乎又比较远。
平均作者数(10)和引用半衰期(12)被分为一类,几乎无法从理论上找到这种关系,在此基础上又和扩散因子()(3)聚类,更是无法解释。
被引半衰期(x6)和地区分布数(X13)被分为一类,从理论上也无法解释,在此基础上和他引率(x2)聚类,也无法解释。
由于期刊评价指标的特殊性,如果采用聚类分析对指标进行分类,结果可能是不能令人信服的,本文是基于大量数据分析得出的结论,应该是比较可靠的。
4.2 因子分析分类
同样采用SPSS 15.0进行因子分析,首先进行KMO与Bartlett检验。KMO是对样本充分度进行检验的指标,一般要大于0.5。本文采用SPSS进行数据处理,KMO值为0.680,也就是说,符合因子分析的条件;Bartlett值为3319.828,P
第一因子是总被引频次(x1)、学科影响指标(x4)、学科扩散因子(x5)、影响因子(x7)、地区分布数(X13),前4个指标都是与被引相关的指标,可以用影响力加以概括,地区分布数也是影响力的一种体现,影响力越大,论文地区分布越广。
第二因子包括基金论文比(X9)、平均作者数(XIO)、平均引文数(X11)、海外论文比(X14)、即年指标(x8)、前4个指标都是期刊特征指标,即年指标比较特殊,在第一因子中的系数为0.34,说明它也是影响力指标;在第四因子中的系数为0.424,第四因子包括引用半衰期和被引半衰期,也与引用相关,但第二因子系数最大,为0.531,所以认为其是期刊特征指标。
第三因子包括他引率(x2)和扩散因子(x3),也与被引相关,是影响力的体现,因此可以将第三因子和第一因子合并。
第四因子包括被引半衰期(x6)和引用半衰期(X12),它其实主要反映的是期刊的时效性情况,因为引用半衰期较短的论文,一般比较新,其参考文献也相对较新
因此,根据以上分析,可以将学术期刊指标分类如下:①影响力指标:总被引频次(x1)、他引率(x2)、扩散因子(x3)、学科影响指标(X4)、学科扩散因子(x5)、影响因子(x7)、地区分布数(X13);②期刊特征指标:即年指标(x8)、基金论文比(x9)、平均作者数(XIO)、平均引文数(x11)、海外论文比(X14);③时效性指怀:被引半哀期(x6)和引用半衰期(X12)。
关键词:聚类分析算法 应用研究 算法描述
中图分类号:TP311.13 文献标识码:A 文章编号:1007-9416(2016)10-0143-01
聚类分析(Cluster Analysis)就是将一组物理事物或抽象对象按照某种聚类规则或检验度量函数标准划分不同聚集组别的过程,其中被划分的若干相对独立的组为一个类,是一种无监督的学习方法。聚类分析方法是数据挖掘技术中的数据分析普遍运用方法之一,其功能最终实现被研究数据按照相关聚类分析算法进行聚类,对聚类的事物对象,最终要达到相似度大的对象在同一个聚类群组中,相似度小的对象在不同的聚类群组中,从而归纳出聚类数据对象的特征性。聚类分析中的“类(Cluster)”就是一组相似度较高的数据集合。聚类分析能够将一组事物或数据按照聚类算法规则进行聚类处理,根据聚类算法规则的不同而实现各自侧重的聚类分析结果。
1 聚类分析算法
根据聚类对象数据类型的不同,聚类分析分为R型聚类和Q型聚类,R型聚类是对变量型数据的聚类分析,Q型聚类是对具体观测值数据的聚类分析。对数据对象的聚类分析要借助于聚类分析算法来实现完成,聚类分析算法的基本定义为:
目标数据集合,对于数据集合中的任一数据元素,具有个特征属性,任一数据元素的属性特征向量集表示为。通过特定的数据分析处理准则对目标数据集进行聚类处理后,目标数据集被划分成具有个子集的数据类集合,,聚类结果数据集必须满足:
根据聚类分析所采取分析方法的不同,聚类分析算法分为基于划分的聚类分析算法、基于层次的聚类分析算法、基于密度的聚类分析算法、基于网格的聚类分析算法、基于模型的聚类分析算法。
2 K―means聚类分析算法描述
对于给定包含个数据对象的数据集,按照标准偏移量的目标函数进行划分,形成K个聚类。具体操作过程为:
第一步:数据规范化处理。对数据对象进行规范化预处理,消除非法值及极值影响。
第二步:数据准备。计算各科标准差:
第三步:计算各初始聚类中心。
第四步:计算与聚类中心最近邻的数据对象,并合并成新类。
第五步:重新计算聚类中心值。
第六步:验证聚类收敛性。
if 聚类中心值o新变化
结束聚类 else 转入第四步 endif
第七步:进行各个类数据分析。
3 结语
总之,聚类分析算法是数据挖掘中一种常用算法,在数据挖掘过程中有很多算法,每种算法都有自己的优缺点,数据挖掘是一项极其复杂过程,一般情况我们都是多种算法结合起来一起应用,目的提高工作效率,提高数据挖掘的准确性,数据挖掘技术在我国应用领域比较广,并且取得一定成绩,在当今大数据时代,研究数据挖掘具有一定的现实意义,具有深远的研究价值。
参考文献
[1]吴多智.基于语义的手机类产品用户评论维度挖掘研究[J].安徽电子信息职业技术学院学报,2016(03).
[2]孙永辉.聚类分析在学生成绩分析中的应用[J].中国管理信息化,2016(06).
[3]巨晓璇,邹小斌,屈直,刘春敏.层次聚类算法在气象客户细分中的应用[J].河南科技,2015(11).
[4]许进文.数据挖掘中聚类分析算法及应用研究[J].计算机光盘软件与应用,2013(06).
摘 要 对北京体育大学2003-2012年体操方向硕士学位论文的关键词词频统计与分析,研究高频词之间的结构关系,探究北京体育大学体操方向硕士学位论文的选题方向、研究内容及其不同的特点,分析热点的形成原因与未来发展趋势。
关键词 北京体育大学 硕士学位论文 研究热点
一、研究方法与对象
研究方法主要采用词频统计法与共词聚类分析法。词频统计法能够揭示或表达文献核心内容的关键词或主题词在某一研究领域中出现的频次高低来确定该领域研究热点和发展动向的文献计量法。共词聚类分析法是一种内容分析方法,通过对一组词两两统计它们在同一片文献中出现的频率,以此为基础对这些词进行聚类分析,从而反映出词与词之间的亲疏关系,进而分析这些词所代表的学科和主题的研究结构。
二、研究生学位论文的共词聚类分析
(一)关键词词频统计与分析
本文利用《CNKI中国优秀硕士学位论文全文数据库》,搜索出2003―2012年北京体育大学体操方向硕士学位论文共73篇,以73篇学位论文中的关键词为调研对象,通过共词分析法中的聚类分析探索各高频关键词之间的内在关系,归纳出北京体育大学体操硕士学位论文研究的热点,以及各个不同研究方向的亲疏性。本研究利用Excel对前期检索出的学位论文进行关键词统计,共得到硕士学位论文关键词283个,平均每篇硕士学位论文含关键词3.9个。然后对统计结果进行以下处理:去除对反应主题没有积极意义的词,如“展望”、“问题”等,对表达同一个意思的关键词进行标准化处理,如“高职院校”、“职业技术院校”、“职技高校”等标准化为“高职院校”,“高等院校”、“高等学校”、“高校”、“大学”等标准化为“高校”。
经过多次比较,最终选择词频大于的关键词作为高频关键词,从而确定个体操方向硕士学位论文的高频关键词(表1)。这个关键词总的出现频次为65次,占关键词总频次的36.3%。从高频关键词分布可以看出,北京体育大学体操方向硕士研究生重点关注的研究对象集中在“体育教育专业”、“分析”、“普通高校”、“竞技体操”、“北京市”、“教学理念”、“现状”、“发展对策”等。
表1 硕士学位论文高频关键词表
序号 关键词 词频
1 体育教育专业 12
2 分析 10
3 普通高校 8
4 竞技体操 8
5 北京市 7
6 教学理念 7
7 现状 7
8 发展对策 6
(二)构造词篇矩阵、相似矩阵
对于高频关键词共现频次的统计,本研究利用SPSS17.0,以每篇学位论文为一条记录,记录的内容为高频关键词是否在学位论文的关键词出现(出现为1,否则为0),构造出词篇矩阵。以词篇矩阵为基础,在SPSS软件中进行相关分析,数据类型选择“binary”二元变量,相似系数选择“Ochiai”系数,构造出高频关键词的相似矩阵(见表2)。相似矩阵中的数字为相似数据,数字的大小则表明词与词之间的距离远近,数值越大则表明词与词之间的距离越近,相似度越好;反之,数值越小,表明词与词之间的距离越远,相似度越差。相似矩阵对角线的数据为1,表明某高频关键词自身相关度。
表2 硕士学位论文高频关键词的相似矩阵(部分)
体育教育专业 分析 普通高校 竞技体操 北京市 教学理念 现状 发展对策
体育教育专业 1.000 0.060 0.286 0.004 0.192 0.321 0.334 0.215
分析 0.060 1.000 0.030 0.121 0.018 0.006 0.076 0.023
普通高校 0.028 0.030 1.000 0.150 0.030 0.068 0.119 0.029
竞技体操 0.004 0.121 0.150 1.000 0.008 0.192 0.043 0.020
北京市 0.192 0.018 0.030 0.008 1.000 0.192 0.035 0.078
教学理念 0.321 0.006 0.068 0.192 0.192 1.000 0.087 0.186
现状 0.334 0.076 0.119 0.043 0.035 0.087 1.000 0.100
发展对策 0.215 0.023 0.029 0.020 0.078 0.186 0.100 1.000
(三)北京体育大学体操方向硕士学位论文的研究热点可以概括为以下几类:
1.竞技体操的发展对策。包括关键词:竞技体操、发展对策、后备人才。
2.北京市普通高校体育教育专业教学理念。包括关键词:北京市、普通高校、体育教育专业、教学理念。
3.体育教育专业与教学能力。包括关键词:体育教育专业、教学能力。
三、研究热点的特点分析
(一)北京体育大学体操方向硕士学位论文的研究热点比较宽泛,选取对象比较广泛,包括普通高校、体育院校、竞技体操、体操普修课、教学理念等。
(二)硕士学位论文注重对教学理念及竞技体操发展状况的研究,旨在通过现状研究,探寻发展的脉络与经验。
(三)硕士学位论文注重对基本理论研究,研究内容宽泛。在理论分析上显得薄弱、创新能力欠缺。
参考文献:
[1] 高宝立,刘小强.高等教育研究热点分析:两个维度、四项指标――以现代大学制度研究为例[J].教育研究.2008(09).
[2] 迟景明,吴琳.近十年我国高等教育学学科研究热点和趋势――基于研究生学位论文的共词聚类分析[J].中国高教研究.2011(9):20-24.
[3] 马费成,张勤.国内外知识管理研究热点――基于词频的统计分析[J].情报学报,2006.25(02).
关键词:聚类分析 空气质量 集中治理污染源
Based on clustering analysis of air quality analysis
Wang Shuai
(College of mechanical Engineering, South East University, Nanjing, 211189)
Abstract: this paper make use of cluster analysis method to study the district shenzhen city air quality problem, the main pollutant SO2, NO2 and PM10 readings - which were taken, CO and O3 undertake an analysis, get the relationship between the content of each pollutant, and the correlation degree, find the main area is polluted, combined with its geographical position to judge the main pollution sources, to the same kind of area with the same method for centralized management.
Keywords: clustering analysis; air quality; centralized management; pollution sources;
中图分类号:Q938.1+4文献标识码: A 文章编号:
由于空气的扩散作用,导致对空气环境的治理有一定的盲目性,不能做到对症下药,导致效果不佳。将空气检测数据进行聚类分析找出污染问题相近的区域进行其中治理,使方案更加有针对性。
1 数据来源
本文所有的数据都收集自深圳市环境空气质量时报.空气质量时报对深圳各区的空气主要污染物的浓度进行检测,进行评级。
2 聚类分析
聚类分析方法聚类分析方法聚类分析方法聚类分析方法聚类分析关注于根据一些不同种类的度量构造一些相似的对象组成的群体。关键的思想去确定对分析目标有利的对象分类方法。在聚类分析前,首先把数据标准化为Z-分数,采用系统聚类(Hierachical Cluster) 方法,用音差平方和法(Ward法)计算欧几里得(Eudlidean)距离。聚类分析依据的基本原则是:直接比较样本中各事物之间的性质,,将性质相近的归为一类,而将性质差别比较大的分在不同类。也就是说,同类事物之间的性质差异小,类与类之间的事物性质相差较大。其中欧式距离在聚类分析中用得最广,它的表达式如下:其中Xik表示第i个样品的第k个指标的观测值,Xjk表示第j个样品的第k个指标的观测值,dij为第i个样品与第j个样品之间的欧氏距离。若dij越小,那么第i与j两个样品之间的性质就越接近。性质接近的样品就可以划为一类。 当确定了样品之间的距离之后,就要对样品进行分类。分类的方法很多,本节只介绍系统聚类法,它是聚类分析中应用最广泛的一种方法。首先将n个样品每个自成一类,然后每次将具有最小距离的两类合并成一类,合并后重新计算类与类之间的距离,这个过程一直持续到所有样品归为一类为止。分类结果可以画成一张直观的聚类谱系图。
3. 问题分析
3.1分析方法
本调查所采用的是聚类分析法,通过SPSS软件进行统计分析。对问卷进行统计处理得到原始数据表(见表1)。利用SPSS软件得到聚类成员(见表2)和聚类中心(见表3)。同时进行R型聚类即对变量进行分类(见表4)。
表1 原始数据
表2 聚类成员
表3 聚类中心
表4 聚类表
图1树状图
3.2结果分析
由聚类分析的计算结果可以看出,原变量之间的差异不大 ,根据表2所示可知,污染区域可以分为两类,第一类包含16个区域,第二类有两个区域即盐山和葵涌,由聚类中心(表3)可以看出,第一类是以SO2、NO2、PM10为主要污染物的区域,而第二类则以O3为主要污染物。从表4可以看出各类中各区域之间的相近程度。从图1中可以更为直观的看出福永、光明、横岗、观澜和沙井,相近程度更大,而宝安、龙华和华侨程度相近。南油、荔园和荔香相近。图中线条长度表示相近程度。
4 结论
聚类分析法表明,可以将全市分为两个大的空气质量区,一区中的十六个区域,主要治理SO2、NO2、PM10为主,而二区以O3的治理为主。由于空气的扩散作用可知,某一区域的作用会影响到周围一大片区域的空气环境,所以可以结合所属于同一类的区域之间的地理位置关系和该区的主要污染物,对区域内的主要污染源进行排查,从而准确找到相关问题的根源,避免了盲目性。
参考文献(Reference)
[1]汪应洛.系统工程[M].北京:机械工业出版社.2009.54-60.
[2]方开泰.实用多元统计分析[M].上海:华东师范大出版社.1989.291-302.
[3]王学仁,王松桂.实用多元统计分析[M].上海:上海科技出版社.1990.270-272.
[4]方开泰.实用多元统计分析[M].上海:华东师范大学出版社.1989.291-302.
[5]李冬梅,陈军霞.聚类分析法在公交网络评价中的应用[J].河北科技大学学报.2012(3)
【关键词】高压;聚类分析;特点;研究
1.引言
高压电缆是电力系统中重要的设备,由于其适合于地下走线方式在城市电网中得到了大量的应用,节约了大量的空间资源,然而由于地下潮湿等因素以及布线过程中人为的损坏都可能造成电缆绝缘层的损坏,在运行电压的长期作用下,可能造成局部放电的发生,如果得不到及时的处理,最终会导致电缆短路,从而引发停电事故,造成经济损失,所以,对电缆进行局部放电检测是必要的,基于此,文章分析了电缆局部放电的特点,然后根据聚类分析对放电进行了分析。
2.电缆局部放电信号传播特性仿真
在对电缆进行局部放电检测之前,需要对影响其局部放电信号传播特性的参数进行分析。为了得到其原理,我们假设其长度很长,同时由于电缆局部放电信号含有丰富的信息[7],其波长与线路长度相比非常短,因此在研究局部放电信号传播规律时,需要利用电缆的分布参数模型来分析[8],图1所示为电缆的分布简化模型。
图1 电力电缆的分布参数模型
图1中,R0、L0、C0、G0分别为电缆单位长度的电阻、电感、对地电容和对地电导,上这些基本参数决定了电缆中的相应特性[9-11]。结合上图,可以得到一个新的二次参数特性阻抗Zc,Zc表示均匀传输线上任一点的电压和电流之间的关系。
(1)
可见,这个公式就决定了相应的参数之间的关系。由于阻抗是一个复数,电压和电流的绝对值之比决定了其相对值;电压和电流的相位差决定了其幅值的大小,这个参数就可以反映出相应的特性参数。Zc重新表述为:
(2)
那么,|Zc|和就是其中所含有的信息。Zc反映了电缆上一点的特性[12]。对于脉冲信号来说,可以用传输常数来描述。在传输常数中,包含两个常数:固有衰耗常数和固有相移常数。固有衰耗常数反映了处于匹配连接的线路上[13],能量损耗方面的传输规律,固有相移常数则反映了信号传播过程中相位的变化。因此线路的传输规律可用式(3)表示,其中l是电缆的长度。
(3)
根据上述的分析,我们得到了如下的结论:
(1)由电缆的一次参数所决定,越大,就说明了信号的衰减会越大。
(2)小于1,那么,局部放电信号将会呈指数规律衰减,并且其衰减程度取决于电缆的长度,线路越长,衰减情况越严重。
式(3)中的反映的则是信号传输的相移,它影响的是局部放电信号的相位,并且随着信号频率的升高,、均随之增大。经过上述分析,可以看出:电缆长度越长,局部放电信号在传播过程中的衰减越严重。局放信号的频率越高,则与之对应的、也越大,即信号的幅度衰减及相位移动也越严重。
3.聚类分析
聚类是根据放电的性质不同,将具有相同性质的特征量进行聚合的算法。由于其具有直观的特点在许多领域得到大量的使用。基于聚类分析的工具已经被加入到许多统计分析软件包或系统中,如S-Plus、SPSS,以及SAS。总体说来,包括如下几个方面的内容:
(1)分化方法。假设一个数据集含有n个对象或数据行,相应的分化就是将数据集划分为k个子集(划分)。其中每个子集均代表一个聚类(k[n])。
(2)层次方法。该方法就是通过分解所给定的数据对象集来创建一个层次。它存在的缺陷就是在进行(组)分解或合并之后无法回溯。将循环再定位与层次方法结合起来使用常常是有效的,如BIRCH和CURE,就是基于这种组合方法设计的。
(3)基于密度的方法。只要临近区域的密度(对象或数据点的数目)超过某个阈值,就继续聚类。DBSCAN是一个有代表性的基于密度的方法。它根据一个密度阈值来控制簇的增长。
(4)基于网格的方法。基于网格方法将对象空间划分为有限数目的单元以形成网格结构。其主要优点是它的处理速度很快,其处理时间独立于数据对象的数目,只与量化空间中每一维的单元数目有关。STING就是一个典型的基于网格的方法。
(5)基于模型的方法。该方法就是为每个聚类假设一个模型,然后再去发现符合相应模型的数据对象。它根据标准统计方法并考虑到噪声或异常数据,可以自动确定聚类个数;因而它可以产生很鲁棒的聚类方法。数据挖掘在不同领域对聚类算法提出了各自特殊的要求。
定义:数据对象i与j的相异度为。其中,dijk2是第k个值距离的平方,对每个变量根据其重要性赋予一个权重,运用加权的欧几里得距它决定第k个值的重要性。根据局部放电的特点,可以得到相应的聚类效果。聚类分析也可以进行孤立点的分析。经常存在一些数据对象,它们不符合数据的一般模型,这些数据对象被称为孤立点。
结合实地的电缆局部放电特性,根据聚类方法,得到了如下的结果:
表1 最终的判断结果
故障类型 训练样本 测试样本 正确率(%)
1 50 100 81.13
82.31
83.61
84.15
2 50 100
3 50 100
4 50 100
图2 电缆局部放电聚类分析流程图
图3 聚类分析结果
4.结论
电缆是电力系统中重要的电气设施,文章根据电缆局部放电的相关特点,结合聚类分析法对其放电进行了分析,取得了一定的成果,对现场具有一定的指导意义。
参考文献
[1]谈克雄,吕乔青.交联聚乙烯电缆绝缘的在线诊断技术[J].高电压技术,1993,19(3):71-75.
[2]马丽婵,郑晓泉,谢安生.交联聚乙烯电缆中电树枝的研究现状[J].绝缘材料,2007,40(5):49-52.
[3]Yang J J,Brilasekaran S.Characteristic features of electrical treeing in XLPE and PE[C].The 7th International Power Engineering Conference,IPEC,2005:1-34.
[4]Yang J J,Zhang D M.Partial discharge phenomena due to electrical treeing in XLPE[C].1st IEEE Conference on Industrial Electronics and Applications,2006:1-6.
[5]李伟新.交联聚乙烯电缆在线监测系统在厦门的应用[J].福建电力电工,2001,21(2):49-51.
[6]韦斌.110kV高压XLPE电缆附件局部放电在线监测与故障特性的研究[D].北京:华北电力大学硕士学位论文,2004.
[7]刘兵.基于行波电力电缆故障单端在线测距研究[D].武汉:武汉大学硕士学位论文,2002.
[8]杨建国.小波分析及其工程应用[M].北京:机械工业出版社,2005.
[9]张国华,张文娟.小波分析与应用基础[M].西安:西北工业大学出版社,2006.
[10]刘贵忠,邸双亮.小波分析及其应用[M].西安:西安电子科技大学出版社,1992.
[11]黄子俊,陈允平.基于小波变换模极大值的输电线路单端故障定位[J].电力自动化设备,2005,25(2):101-102.
[12]华欣.电气设备绝缘在线监测刍议[J].四川电力技术,2001,2:49-52.
论文关键词:聚类分系,网络营销,策略,客户关系
0前言
现代科学技术的迅猛发展,特别是在互联网的应用和开发上更加的迅速,企业必须通过网络对自己的产品加强宣传以增强自己的竞争力。客户是一个非常重要的、有价值的重要资源,现在如何更好地从数据库中挖掘出客户中有价值的信息,更好的培植和经营与有价值客户的关系,抛弃那些无利可图没有发展前景而且营销费用高的客户,并且可以针对不同价值的客户给与不同的政策同时制定出个性化的营销策略,这些才能够保证企业的生存发展。对于这一切数据挖掘无疑是行之有效的好方法之一。本文以一个网络营销公司为例,提出了一套可操作性的对客户价值评价方法,然后使用数据挖掘技术中比较常见和常用的聚类分析算法对客户信息进行聚类从而达到非常重要的信息并为企业在网络营销中提供决策依据。
1聚类分析
聚类(clustering)是对于数据挖掘技术是非常重要的一部分,现在也是数据挖掘技术中关键的一种。聚类的意义就是针对物理或逻辑上的数据对象的进行自动分类,最后将数据对象分为多个类或簇的过程。对于聚类结果要使得数据对象在同一个分类中具有最大的相似度,而在不同的类中具有最小相似度。聚类的现实意义就是在于可以将数据按照一定得关系进行自动的分类,事先不知道所有的数据对象共有多少类,通过算法的处理最后得到一个分类结果进行应用。譬如在市场研究领域中,特别是针对网络营销的企业或网站,从大量的网络数据进行分析聚类,可以讲客户分成不同的类别,针对这些类别不同的购买力和兴趣爱好来进行个性化的营销手段,提高企业的经济效益。目前研究人员大多针对于聚类分析算法的改进和完善进行研究,进而提高聚类分析的工作效率。著名的算法有:CLARANS,BRICH,DBSCAN,CURE,STING,CLIGUE和WaveCluster等。
2聚类分析应用于企业客户资源管理
现针对某电子商务公司进行分析,该电子商务公司的客户分布在全国各地以及国外一些地区,现仅列出具有代表性的10个大客户:吉林,黑龙江,山东,江苏,浙江,安徽,湖南,缅甸,印度,南非等。在数据挖掘的目的就是从客户中找到一些共同点,在对这些客户数据进行处理前要使用聚类分析的方法进行研究看看这10个客户能否有一些共同之处以便企业针对不同类型的客户给与不同的对策,首先对该公司采用专家打分的方法,而且还有通过网上问卷调查和访谈的方式,收集各地销售专员的意见等方式,然后对数据加以综合,最后聚类分析法确定各项指标的权重。
那么在具体实施聚类分析法的时候可分为5个步骤进行:
第1步:首先对各项指数构建层次结构,其中被评定的10个大客户作为方案层,客户价值放在目标层中进行处理,各项指标是准则层,按照这样的分层结构来构造客户关系评价系统中个指数的结构图,见图2-1所示;
表2-1指标权重值表
指标
V
V
V
V
V
V
V
V
V
权重
0.0378
0.0401
0.0135
0.0161
0.0251
0.0060
0.0038
0.0091
0.0192
指标
V
V
V
V
V
V
V
V
V
权重
0.0381
0.1498
0.1721
0.0021
0.0201
0.0085
0.0053
0.0231
0.0701
指标
E
E
E
E
E
E
E
E
权重
0.0212
0.0312
0.0754
0.1841
0.0145
0.0510
0.0078
0.0684
从数据可以看出有两种情形:一是缅甸和南非,从数据中可看出这类客户的当前价值很小,但是具有很大的隐含价值,势必会有一天他们的成长给企业会带来丰厚的物质利益,这样具有发展潜能的客户应该采取措施激发潜能;二是安徽和印度这类客户,虽然从数据中看出这类客户当前价值很小,但是就这两个省份的地理位置和经济状况来分析他们隐含着较大的价值。对于这一类的客户,企业就应该采取灵活的措施,激发他们的购买能力促使该类型的客户不断地向前发展;
第2类是“维持型”客户,他们会源源不断的为企业提供利润,如黑龙江和江苏,他们这类客户根据以往的交易记录分析到得结果就是目前价值大,不过没什么发展的潜能,或者说在某种情况下它的时常还会萎缩,当前这类客户会给企业带肋比较丰厚的利润但是就长期发展而言却不是利润的主要来源,他们在某种情况下会流失掉,会被其他的企业竞争对手的介入而流失,为此对于企业一方面要维持与这类客户的良好关系,保持稳定的客户关系,另一方面还要采取一些营销手段来刺激该类客户的消费,提供一些个性化的服务和策略;
第3类“淘汰型”客户,这类用户就如同鸡肋了,对于企业的现在和将来都意义不大,目前的销售份额较小,企业对他们营销的成本还很高,年利润率很低,根据分析这类客户包括浙江、湖南和吉林,他们没有长期的发展的趋势,所以企业采取的策略就是应充分挖掘他们给企业带来的当前价值后逐渐地放弃他们;
第4类是“贵宾型”客户,这类用户是企业的主要经济利润的来源,在某种程度上可以说是企业生存的保证,他对企业是关系到生死存亡的重要客户,从数据中看山东就是该企业的这类贵宾型的客户,他的当前价值和潜在价值都很大,企业必须认真对待,细心呵护与这类客户的关系,以及该客户企业的关键性人物的关系,加强与这类客户的沟通和关系的培养,同时还要提高警惕,防止竞争对手抢走这些贵宾型客户。针对贵宾型客户企业就应该对其进行一对一的营销策略,进行良好的客户需求沟通,尽最大可能满足他们的需求,适当给与一些特殊政策来加强和他们的关系。从不同角度来加强客户对企业的忠诚度、满意度等。企业根据这些重要的信息就可以针对不同的客户采取合适的销售策略。
【关键词】聚类分析;K-均值算法;特征加权
K-均值聚类算法因结构简单、快速高效且适用于处理大数据集,在众多科研领域得到广泛应用。但它同时存在一些缺陷和不足,要求预先给定聚类个数;容易陷入局部极小值而得不到全局最优解等。针对以上问题研究人员提出了各种各样的有效改进措施。文献[1]的作者通过 DBI 聚类指标和最大最小距离方法来自动确定最佳聚类数目,较好地解决了 K-均值聚类算法中聚类数目 K 值的确定问题。文献[2]提出一种有效的混合聚类算法,在一定程度上克服了 K-均值聚类算法和层次聚类算法各自的缺陷。文献[3]提出一种基于变长编码的改进遗传算法,有效地解决了 K-均值聚类算法对初始中心选取敏感的问题。文献[4]提出了一种基于密度及最近邻相似度的初始聚类中心选取方法,大大提高聚类结果的稳定性。文献[5]提出了一种基于数据对象在空间分布规律的新的初始聚类中心选取方法,有效解决由于初始中心选取的随机性而导致的聚类结果不稳定的问题。本文利用分类领域中的特征选择及特征加权方法,提出了一种改进的特征加权 K-均值聚类算法。实验结果证明,所提出的算法能产生质量较高的聚类结果。
2.K-均值算法的改进
3.实验结果
为了验证本文所提出算法的有效性和可行性,选用 UCI 提供的机器学习公共数据库中的5 个数据集对本文改进的聚类算法的聚类性能进行聚类实验。(见表1)
从表 2 中不难看出,随机选取初始聚类中心的传统 K-均值算法得到的聚类结果准确率低且不稳定,而且对于有大值属性存在的 Wine数据集,错分数大大增加;而使用本文所设计的改进聚类算法所得到的聚类结果不仅准确率高,而且相对稳定。
4.结束语
本文针对传统K-均值算法由于随机选取初始聚类中心而导致聚类结果不稳定、准确率低的缺点,提出了一种改进的特征加权K-均值聚类算法。实验结果表明,本文算法可以有效得到准确率高、较为稳定的聚类结果。
参考文献:
[1] 冯超.K-means聚类算法的研究:[大连理工大学硕士学位论文].大连:大连理工大学,2007
[2] 曾志雄.一种有效的基于划分和层次的混合聚类算法.计算机应用,2007
[3] 范光平.一种基于变长编码的遗传K均值算法研究:[浙江大学硕士学位论文].杭州:浙江大学,2007
[4] 孙可,刘杰,王学颖.K均值聚类算法初始质心选择的改进.沈阳师范大学学报,2009
[5] 徐义峰,陆春明,徐云青.一种改进的K-均值聚类算法. 计算机应用与软件,2008