数据分析的方法优选九篇

时间：2023-07-24 16:25:59

引言：易发表网凭借丰富的文秘实践，为您精心挑选了九篇数据分析的方法范例。如需获取更多原创内容，可随时联系我们的客服老师。

数据分析的方法

第1篇

关键词：数据分析应用率；分析应用点；四个层次；数据中心；仪表盘

中图分类号：N37 文献标识码：B 文章编号：1009-9166（2009）02（c）-0063-02

现代企业的决策往往是在整合大量信息资料的基础上制定出来的，对数据的理解和应用将是企业决策的基石。与传统的操作型应用相比，数据利用的应用建设难度更大，它是随着管理水平而发展，同时又取决于业务人员的主观意识，这就决定了以数据利用为核心的应用建设不可能一蹴而就，而是一个长期迭展的建设过程。从2003年起工厂开始全面推进数据分析应用工作，经历过曲折，同时也有收获。经过多年的努力，工厂的数据分析应用工作开始进入良性发展阶段，笔者认为有必要对工厂目前数据分析应用工作作一总结和思考。

一、工厂数据分析应用工作开展现状

工厂数据分析应用工作推进至今已有四五年的时间，从最初全面调研工厂数据量和数据分析应用状况，将数据分析应用率指标作为方针目标定量指标来考核，到后来将数据分析应用工作的推进重心从量向质转移，采用以项目为载体进行管理，着重体现数据分析应用的实效性，再到目前以分析应用的需求为导向，以分析应用点为载体，分层次进行策划。经过上述三个阶段，工厂数据分析应用工作推进机制得到了逐步的完善，形成了广度深度协同发展的信息资源利用管理框架。截止到目前，工厂数据分析应用率达到96%，四个层次的分析应用点共计100多个，数据分析应用工作在生产、质量、成本、物耗、能源等条线得到广泛开展，有效推动了工厂管理数字化和精细化。2007年，工厂开始探索细化四个应用层次的推进脉络，进一步丰富工厂信息资源利用框架，形成层次清晰、脉络鲜明、职责分明的信息资源利用立体化的推进思路。

1、第一层次现场监控层。第一层次现场监控层，应用主体是一线工人和三班管理干部，应用对象是生产过程实时数据，应用目标是通过加强生产过程控制，辅助一线及时发现生产过程中的异常情况，提高生产稳定性。例如制丝车间掺配工段的生产报警，通过对生产过程中叶丝配比、膨丝配比、梗丝配比、薄片配比、加香配比等信息进行判异操作，对异常情况通过语音报警方式提醒挡车工进行异常处理；例如卷包车间通过在机台电脑上对各生产机组的工艺、设备参数、实时产量、质量、损耗数据的监控，提高对产品质量的过程控制能力。第一层次应用以上位机和机台电脑上固化的监控模型为主，制丝车间每个工序、卷包车间每种机型的应用点都有所不同，为此我们建立了制丝车间以工序为脉络，卷包车间以机种为脉络的应用点列表，围绕脉络对第一层次应用点进行梳理，形成第一层次应用的规范化模板。制丝车间第一层次应用点模板包括工序名称、应用点名称、应用模型描述、应用对象、应用平台、异常处置路径等基本要素。卷包车间应用点模板横向根据机种分，纵向按上班及交接班、上班生产过程中、下班及交接班三个时间段分，通过调研分别列出挡车工针对每个机种在三个时间段分别要查看的数据和进行的操作。随着模板的扩充和完善，一线职工的知识、经验不断充实其中，第一层次应用点模板将成为一线工人和三班管理干部日常应用监控的标准，同时可以规避人员退休或调动带来的经验、知识流失的风险。2、第二层次日常管理分析层。第二层次日常管理分析层，应用主体是一般管理干部，应用对象是产质损、设备、动能等指标，应用目标是通过加强对各类考核指标的监控和分析，提高工厂整体的关键绩效指标水平。例如制丝车间的劣质成本数据汇总和分析，通过对车间内各类废物料、劣质成本的数据进行汇总、对比和分析，寻找其中规律及薄弱环节，并寻根溯源，采取措施，降低劣质成本。例如卷包车间的产量分析，通过对产量数据、工作日安排、计划产量进行统计和汇总，结合车间定额计划、作业计划和实际产量进行分析，寻找实际生产情况与计划间的差异，并分析原因。第二层次应用以管理人员个性化的分析为主，呈现出分析方法多样化、应用工具多样化的特点。但是万变不离其中的是每个管理岗位的管理目标以及围绕管理目标开展的分析应用是相对固定的，至少在短期内不会有太大的变化。为此我们建立了一份以重点岗位为脉络的应用点列表，围绕脉络对第二层次应用点进行梳理，形成第二层次应用的规范化模板。模板包括岗位名称、管理目标、应用点名称、应用描述、涉及主要考核指标、应用平台、应用频次、分析去向等基本要素。通过构建第二层次应用点模板，明确了每个管理岗位应用信息资源支撑管理目标的内容和职责。随着新的管理目标的不断提出以及应用的逐步深入，模板每年都会有更新和扩充。3、第三层次针对性分析应用层。第三层次针对性分析应用层，应用主体是项目实施者，应用对象是各类项目的实施过程，例如QC项目、六西格玛项目、质量改进项目，或针对生产中的特定事件进行的分析和研究。应用目标是通过应用数据资源和统计方法开展现状调查、因果分析、效果验证等工作，提高各类项目实施的严密性和科学性。第三层次的应用工具在使用初级统计方法的基础上会大量应用包括方差分析、回归分析、正交试验、假设检验、流程图等在内的中级统计方法。以QC活动为例，我们可以看出其实施过程无一不与数据应用之间有密切的联系[1]。近年来，在质量改进项目和QC项目的评审工作中已逐步将“应用数据说话、运用用正确合理的统计方法，提高解决问题的科学性”作为项目质量考核标准之一。而六西格玛项目实施的核心思想更是强调“以数据和事实驱动管理”，其五个阶段[2]D（定义）、M（测量）、A（分析）、I（改善）、C（控制），每个阶段都要求结合如FMEA（失效模式后果分析），SPC（统计流程控制），MSA（测量系统分析），ANOVE（方差分析），DOE（实验设计）等统计方法和统计工具的应用。4、第四层次主题性应用层。第四层次主题性应用层，应用主体是中层管理者，应用对象是专业性或综合性的分析主题，应用目标是通过专业科室设计的专题性分析模型或综合性分析模型，为中层管理层提供决策依据。工厂在实施了业务流程“自动化”之后，产生了大量的数据和报表。如何将工厂的业务信息及时、精炼、明确地陈述给中层管理层，以此来正确地判断工厂的生产经营状况，是摆在我们眼前的一个突出问题。大家都有开车的经验，司机在驾驶车辆的时候，他所掌握的车况基本上是来自汽车的仪表盘，在车辆行使的过程中，仪表盘指针的变化，告知汽车的车速、油料、水温等的状况，驾驶员只要有效地控制这些指标在安全范围之内，车子就能正常地运行。我们不妨将仪表盘的理念移植于工厂，建立工厂关键指标及运行管理仪表盘，将工厂的关键信息直观地列在上面，及时提醒各级管理人员工厂生产运营是否正常。

⑴关键绩效指标监控系统。对分布在各处的当前及历史数据进行统一展示，以工厂关键绩效指标为中心，支持统计分析和挖掘，可为中层管理者提供工厂关键绩效指标一门式的查询服务，使各业务部门寻找、阐释问题产生的原因，以有效监控各类关键绩效指标，及时采取改进措施，提高生产经营目标完成质量。⑵系统运行状态监控系统。通过数据采集、手工录入等各种渠道收集各类系统的运行状态，及时掌握故障情况，采取措施加以闭环，将因系统故障造成对用户的影响减至最小，确保各类系统的稳定运行和有效应用。通过建立系统运行状态监控系统，中层管理人员上班一打开电脑进入系统，就能了解到当天及上一天各类系统的运转情况，发生了什么异常，哪些故障已经得到解决，哪些故障还未解决。⑶第四层次主题性分析应用。在展示关键绩效指标和系统运行状态的基础上，由各专业科室思考专业条线上的分析主题，采用先进科学的理念和方法对数据进行分析和挖掘。近两年来，工厂充分发挥专业科室的优势和力量，相继设计和开发了工艺质量条线的六西格玛测评系统，设备条线的设备效能分析系统，还有质量成本核算与分析系统。通过这些分析主题的支持，工厂管理人员可以更方便快捷地了解质量、设备、成本等条线上的关键信息，及时采取相应措施，从而提升管理效率。

二、数据分析应用工作存在的不足及思考

工厂数据分析应用工作的推进方法从最初的采用数据分析应用率单个指标进行推进发展到目前按上文所述的四个层次进行推进，每个层次的推进脉络已经逐步清晰和明朗，但事物发展到一定的阶段总会达到一个瓶颈口，目前工厂数据分析应用工作存在的问题及措施思考如下：

1、从推进手段上要突破信息条线，充分发挥专业条线的力量。信息条线作为推进工厂数据分析应用的主管条线，其作用往往局限在技术层面上的支撑。虽然信息条线每年都会规划形成工厂数据分析应用整体的工作思路和具体的实施计划，但是无论从工厂层面还是从车间层面来讲，单纯依靠信息条线从侧面加以引导和推进，使得数据分析应用工作始终在业务条线的边缘徘徊，与产量、质量、设备、消耗、成本、动能等各个条线本身工作的结合度有一定的距离。所以工厂要进一步推进数据分析应用工作，调动起业务人员的积极性和主动性，突破现有的瓶颈，应该考虑如何调动起专业条线的力量。一是可以在年初策划应用点的时候要加强专业条线对车间业务自上而下的指导，引导管理人员加强对缺少数据分析支撑的工序、岗位/管理目标的思考；二是建立平台加强各车间同性质岗位之间的沟通与交流，均衡各个车间的数据分析应用水平和能力；三是对车间提交的分析报告给出专业性的指导意见。2、要加强对数据中心的应用。数据中心的建立可以使业务系统从报表制作、数据导出等功能中解放出来，专注于事务处理，将数据应用方面的功能完全交给数据中心来解决。目前，数据中心已建立了涉及产量、质量、消耗等各个条线的Universe模型，并对全厂管理干部进行了普及性的培训。但是从目前应用情况来看，还比较局限于个别管理人员，追寻原因如下：一是业务系统开发根据用户需求定制开发报表，业务人员通常习惯于从现成的报表中获取信息。如果要求业务人员使用数据中心工具自行制作报表模板，甚至可能需要将其导出再作二次处理，那么业务人员一定更倾向于选择第一种方式。二是近几年来人员更替较多，新进管理人员不熟悉数据中心应用，导致数据中心应用面受到限制。随着今后MES的建设，业务系统中的数据、报表、台帐和分析功能将有可能由业务用户自行通过集成在MES中的数据中心前端开发工具来访问和灵活定制。因此，要尽快培养工厂业务人员数据中心的应用能力，包括数据获取以及报表定制方面的技能。笔者认为应对方法如下：一是对于岗位人员变更做好新老人员之间一传一的交接和培训；二是适时针对新进管理人员开展集中培训；三是通过采用一定的考核方法。3、提高新增应用点的质量。工厂每年都会组织各部门审视第一、第二层次应用点列表，围绕重点工序和重点管理岗位调研有哪些应用上的空白点是需要重点思考的，以新增分析应用点的方式进行申报和实施。同时针对第三层次针对性分析应用，工厂也会要求部门以新增分析应用点的方式将需要数据支撑的项目进行申报。作为一项常规性工作，工厂每年都会组织部门进行应用点的申报，并按项目管理的思想和方法实施，事先确立各个应用点的应用层次、数据获取方式、实现平台，并对其实施计划进行事先的思考和分解，确定每一个阶段的活动目标、时间节点以及负责人员，每个季度对实施情况予以总结，并动态更新下一阶段的实施计划。该项工作从2005年起已经连续开展了三年，部门可供挖掘的应用点越来越少，如何调动部门的积极性，保持并提高应用点的实效性，我们有必要对新增分析应用点的质量和实施情况进行考评，考评标准为：一是新增分析应用点是否能体现数据应用开展的进取性、开拓性和创新性；二是新增分析应用点是否能切实提高管理的精细化和科学化水平；三是新增分析应用点是否能采用项目管理的思想和方法实施，按时间节点完成各项预定计划。

三、结束语。随着近几年来技术平台的相继成熟以及管理手段的逐步推进，工厂业务人员用数据说话的意识已经越来越强，但是要真正使工厂管理达到“三分技术、七分管理、十二分数据”的水平，还有很长的路要走，这既需要我们的业务人员从自身出发提高应用数据的水平和能力，同时也需要工厂从管理手段和管理方法上不断拓宽思路、创新手段，真正实现数据分析应用成为工厂管理的重要支撑手段。

作者单位：上海卷烟厂

参考文献：

第2篇

关键词：粗糙集理论；数据分析方法；信息系统；决策表；属性约简

中图分类号：TP18 文献标识码：A文章编号：1009-3044(2007)06-11651-01

1 引言

粗糙集（Rough Set）理论[1]是波兰数学家Z.Pawlak于1982年提出的，它建立在完善的数学基础之上，是一种新的处理含糊性和不确定性问题的数学工具。其主要思想是在保持分类能力不变的前提下，通过知识约简，导出问题的决策或分类规则[2]。由于粗糙集理论不需要任何预备或额外的有关数据信息，使得粗糙集理论成为研究热点之一，被广泛应用与知识发现、机器学习、决策分析、模式识别、专家系统和数据挖掘等领域。

属性约简是粗糙集理论中核心研究内容之一[3]。在众多的属性约简算法中，大致可以分为两类：一类是基于信息熵的启发式算法[4]，这类算法往往不能得到系统的所有约简．另一类是基于区分矩阵和区分函数构造的算法[5]，这种算法直观，易于理解，能够计算出所有约简。但在区分矩阵中会出现大量的重复元素，造成时间和空间的浪费，从而降低了属性约简算法的效率。

本文基于数据分析方法[6]的属性简约算法是在保持分类能力不变的前提下，逐个约去冗余的属性，直到不再有冗余的属性，此时得到的属性集是最小属性集，即为约简。该算法简单，能够求出所有约简，不会出现区分矩阵中大

量的重复元素，从而提高了属性约简的效率。

2 粗糙集概念

定义2.1设U为所讨论对象的非空有限集合，称为论域；R为建立在U上的一个等价关系族，称二元有序组S=(U，R)为近似空间。

定义2.2令R为等价关系族，设P?哿R，且P≠?I，则P中所有等价关系的交集称为P上的不可分辨关系，记作IND(P)，即有：[x] IND(P)= ∩ [x]R,显然IND(P)也是等价关系。

定义2.3称4元有序组K=(U，A，V，f)为信息系统，其中U为所考虑对象的非空有限集合，称为论域；A为属性的非空有限集合；V=∪Va，Va为属性a的值域；f：U×AV是一个信息函数，?坌x∈U，a∈A，f(x,a)∈Va。对于给定对象x，f(x,a)赋予对象x在属性a下的属性值。信息系统也可简记为K=(U，A)。若A=C∪D且C∩D=?I，则S称，为决策表，其中C为条件属性集，D为决策属性集。

显然，信息系统中的属性与近似空间中的等价关系相对应。

定义2.4设K=(U，A，V，f)为信息系统，P?哿A且P≠?I，定义由属性子集P导出的二元关系如下：

IND(P)={(x,y)|(x,y)∈U×U且?坌a∈P有f(x,a)=f(y,a)}

则IND(P)也是等价关系,称其为由属性集P导出的不可分辨关系。

定义2.5称决策表是一致的当且仅当D依赖于C，即IND(C)?哿IND(D)，否则决策表是不一致的。一致决策表说明：在不同个体的条件属性值相同时，他们的决策属性值也相同。

定义2.6设K=(U，A)为一个信息系统。若P?哿A是满足IND(P)=IND(A)的极小属性子集，则称P为A的一个约简，或称为信息系统的一个约简。

定义2.7设K=(U，CUD)为一个决策表，其中C为条件属性集，D为决策属性，若P?哿C为满足POSC(D)=POSP(D)的极小属性子集，则称P为决策表K的一个约简。其中POSC(D)表示决策D关于属性集C的正域。

定义2.8数据分析方法对于信息系统K=(U，A)，逐个移去A中的属性，每移去一个属性即刻检查新得到的属性子集的不可分辨关系，如果等于IND(A)，则该属性可被约去，否则该属性不可被约去；对于决策表K=(U，CUD)，逐个移去C中的属性，每移去一个属性即刻检其决策表，如果不出现新的不一致，则该属性可被约去，否则该属性不可被约去。

3 基于数据分析方法的属性简约算法

3.1 算法思路

利用函数的递归调用，逐个判定信息系K=(U，A)中属性a(a∈A)，若IND(A)＝ND(A－{a})，则a可以约去，A‘=A－{a}，否则a不可以约去，继续检查A‘中的每个属性是否能被约去，此过程一直进行下去，直到出现某一属性子集中的每个属性都不可约去为止，此时该属性子集即为所求的属性简约。对于决策表，每次检查是否增加了不一致的决策规则，作为是否约去属性的依据。

算法如下：

输入：信息系统K=(U，A)。

输出：K的属性约简。

Match(A') // A’=A-{a}//

begin

for i=1to|U|-1 //|U|表示U的基数//

for j=i+1to|U|

begin

r=|R|//|R|表示属性个数//

if((f(ui，a1)= f(uj，a1))∧（f(ui，a2)= f(uj，a2)）∧….∧（f(ui，ar)= f(uj，ar)))

then a不可被约去，return0

end

a可以被约去return1

end

Reduce (A)

begin

flag=1

for i=1 to |R|//|R|表示属性个数//

begin

a=ai

A'=A-{ai}

if match(A')thenflag =0 ， reduce (A’)

if (flag且A未被输出)then

输出A中所有元素//flag≠0，说明A中所有元素不可移去，且不会被重复输出//

End

end

以上给出的函数是求解信息系统的属性约简算法；对于决策表，只要将Match(A’)函数中的if语句的条件换成(f(ui，a1)= f(uj，a1))∧（f(ui，a2)= f(uj，a2))∧….∧(f(ui，ar)= f(uj，ar))∧(f(ui，ag)≠f(uj，ag))，r=|C|是条件属性个数，ag是决策属性。Reduce (A)函数中|R|换成|C|即可。该算法适用于一致决策表，对非一致决策表，算法类似，也就是逐个移去属性并检查决策表是否出现新的不一致，作为约去此属性的依据。

4 举例

文献[7]中决策表1，a，b，c，d，e是条件属性，g是决策属性，求出的约简是{a,b,d}

应用本算法，求得的属性约简为{a,e}和{a,b,d}，得到决策简化表2和表3。

表1 决策表表2简化表表3简化表

如果将决策表表1看作一信息系统，运用本算法，求得的属性约简有{c,d,e,g}, {b,e,g}, {a,c,d,g}, {a,c,d,e}, {a,b,g}, {a,b,e}h和{a,b,d}

5 结束语

本文通过数据分析方法讨论了属性约简问题。该算法是基于不可分辨关系的，具有直观、易于理解和完备性的特点。当属性和对象都较少时，效率较高，但当属性和对象较多时，计算的复杂度较高。实例表明，该算法是有效的。

参考文献：

[1]PAWLAK z．Rough set[J]．International jom：ua ofcomputer and information science，1982，(11)：341―356．

[2]张文修，吴伟志，梁吉业等．粗糙集理论与方法[M]．北京：科学出版社，2001．

[3]Pawlak Z．Slowinski R．Rough set approach to muhiattribute decision analysis．Ivited Review[J]．European Journal of Operational Research．1994，72：443-459

[4]王国胤，于洪，杨大春．基于条件信息熵的决策表约简[J]．计算机学报，2002（7）：760―765．

[5]Skowron A，Rauszer C．The Discernibility Matrices and Functions in Information Systems[A]．I Slowinsk R．ntelligent Decision Support― Handbook of Applications and Advances of the Rough Sets Theory[c]．1991，331-362．

[6]刘请．Rough集及Rough推理[M]．北京：科学出版社，2001．

第3篇

关键词：大数据；数据分析；数据挖掘

中图分类号：TP311 文献标识码：A 文章编号：1007-9416（2017）03-0104-02

1 综述

1.1 简介

在数字化时代，需要新一代系统架构提升业务创新能力。在新一代系统架构中，大数据是核心要素。业务应用能否自主发现与自助获得高质量的大数据，就成为业务创新成败的关键。这就要在搭建大数据平台时，就着手大数据治理相关建设。

1.2 需求和意义

从某种意义上说大数据治理架构需要以元数据为核心、提高大数据质量、透明化大数据资产、自助化数据开发、自动化数据、智能化数据安全，提升大数据平台服务能力，让大数据平台变得易使用、易获得、高质量。

但是，目前很多技术解决方案存在诸多安全和效率隐患：业务系统多，监管力度大；数据量庞大且呈碎片化分布，急需提升大数据质量；数据格式不规范、难以在短时间内找到所需数据；数据在各阶段的应用角度不同，需要降低系统间的集成复杂度。

2 功能设计

2.1 总体架构

本文讲述的数据分析方法及实现技术是建立在Hadoop/Spark技术生态圈的基础之上，以实现用户集成处理、、清理、分析的一个统一的数据处理平台；按数据类别分为线数据、归档数据；按数据格式分为非结构化数据、结构化数据；按数据模型分类为范式化模型数据、维度模型数据；按数据采集频度分为非实时数据、准实时数据处理架构；并提供数据中心平台与安全管理方案，为企业级用户建立一个通用数据处理和分析中心。如图1所示。

2.2 在线数据

在线数据在线通过接口去获得的数据，一般要求为秒级或速度更快。首先应当将数据进行区分：在线数据、或归档数据。本平台中采用：Storm或Spark Streaming框架进行实现。Spark Streaming将数据切分成片段，变成小批量时间间隔处理，Spark抽象一个持续的数据流称为DStream（离散流），一个DStream是RDD弹性分布式数据集的micro-batch微批次，RDD是分布式集合能够并行地被任何函数操作，也可以通过一个滑动窗口的数据进行变换。

2.3 归档数据

归档数据是在线存储周期超过数据生命周期规划的数据，处理的要求一般在分钟级或速度更慢。通常归档数据的计算量、数据量、数据复杂度均超过试试数据处理。本平台中采用：Hadoop、Spark技术生态体系内的框架进行计算，这里不详细阐述。

2.4 非结构化数据

通常非结构化的数据不一定具备字段，即使具备字段其长度也不固定，并且字段的又可是由可不可重复和重复的子字段组成，不仅可以包含结构化数据，更适合处理非结构化数据。常见的非结构化数据包括XML、文本、图象、声音、影音、各类应用软件产生的文件。

针对包含文字、数据的为结构化数据应当先利用数据清洗、数据治理工具进行提取，这项工作目前仍依赖技术员进行操作，由于格式的复杂性所以难以使用自动化方式进行较为高效的批处理。在治理数据的过程中，需要根据情况对数据本身额外建立描述数据结构的元数据、以及检索数据的索引服务，以便后续更佳深度利用数据。

2.5 结构化数据

结构化数据具备特定的数据结构，通常可以转换后最终用二维的结构的数据，并且其字段的含义明确，是挖掘数据价值的主要对象。

本平台中主要使用Hadoop Impala和Spark SQL来进行结构化数据的处理。Impale底层采用C++实现，而非Hadoop的基于Java的Map-Reduce机制，将性能提高了1-2个数量级。而Spark SQL提供很好的性能并且与Shark、Hive兼容。提供了对结构化数据的简便的narrow-waist操作，为高级的数据分析统一了SQL结构化查询语言与命令式语言的混合使用。

结构化数据根据采集频度可以继续分类为：非实时数据、准实时数据。

2.6 准实时数据

通常准实时数据是指数据存储在平台本身，但更新频率接近于接口调用数据源的数据。适合用于支持数据和信息的查询，但数据的再处理度不高，具有计算并发度高、数据规模大、结果可靠性较高的特点。通常使用分布式数据处理提高数据规模、使用内存数据进行计算过程缓冲和优化。本平台主要采用Spark SQL结合高速缓存Redis的技术来实现。Spark SQL作为大数据的基本查询框架，Redis作为高速缓存去缓存数据热区，减小高并发下的系统负载。

2.7 非实时数据

非实时数据主要应用于支持分析型应用，时效性较低。通常用于数据的深度利用和挖掘，例如：因素分析、信息分类、语义网络、图计算、数值拟合等。

非实时数据根据数据模型可继续分类为：范式化模型数据、维度模型数据。

2.8 范式化模型

范式化模型主要是针对关系型数据库设计范式，通常稻菔遣捎玫谌范式3NF或更高范式。面向近源数据查询、数据主题的整合。范式化模型数据的数据存储区，建议使用并行MPP数据库集群，既具备关系型数据库的优点，又兼顾了大数据下的处理。

2.9 基于维度模型

维度模型数据主要应用于业务系统的数据挖掘和分析。过去多维度数据处理主要依赖OLAP、BI等中间件技术，而在大数据和开源框架的时代下，本技术平台采用Hadoop Impala来进行实现。Impala并没有使用MapReduce这种不太适合做SQL查询的范式，而是参考了MPP并行数据库的思想另起炉灶，省掉不必要的shuffle、sort等开销，使运算得到优化。

3 应用效果

本系统在不同的业务领域上都可以应用，以2016年在某银行的应用案例为例：该银行已完成数据仓库建设，但众多数据质量问题严重影响了数据应用的效果，以不同的数据存储方式，以更高的要求去进行数据的统一管理。通过组织、制度、流程三个方面的实施，以元数据、数据标准、数据质量平台为支撑，实现了数据管控在50多个分支，60个局，1000余处的全面推广，实现了全行的覆盖；管理了120个系统和数据仓库，显著提升了新系统的快速接入能力；通过14个数据规范和流程明确了数据管控的分工；数据考核机制的实施，使其在数据质量评比中名列前茅。

4 结语

本文介绍了大数据下数据分析方法及实现技术的大体设计和思路，从需求分析、总体架构和数据处理以及数据分析这几个方面来介绍。文章在最后介绍出了这种平台的应用效果。笔者相信这些思路和技术能够在业务中能得到很好的应用。

参考文献

第4篇

[关键词]财政收入；GDP；面板数据

中图分类号：F01 文献标识码：A 文章编号：1006-0278（2013）02-024-01

在计量经济学中，我们一般应用的最多的数据分析是截面数据回归分析和时间序列分析，但截面数据分析和时间序列分析都有着一定的局限性。在实际经济研究当中，截面数据回归分析会遗漏掉数据的时间序列特征，例如在分析某年中国各省的GDP增长数据时，单纯的截面数据回归分析无法找出各省GDP随时间变化的特征，使得分析结果没有深度。而如果只用时间序列分析，则会遗漏掉不同截面间的联系与区别，例如在分析中国单个省市的GDP随时间增长的数据时，无法找出各个省市之间经济增长的联系与区别，因而同样无法满足我们的需要。而面板数据，是一种既包括了时间序列数据，也包括了相关截面数据的复合数据，是近年来用得较多的一种数据类型。

下面我们将基于2000-2009年中国各省GDP和财政收入的面板数据的实例来详细阐述面板数据的分析方法。

一、GDP与财政收入关系的经济学模型

财政收入是保证国家有效运转的经济基础，在一国经济建设中发挥着重要作用。随着中国经济发展速度的日益加快，财政收入不断扩大，而扩大的财政收入又以政府支出来调节和推动国民经济发展。正确认识财政收入与经济增长之间的长期关系，把握财政收入与经济增长之间的相互影响，发挥财政收入对经济发展的调节和促进功能，对于完善财税政策，深化财税体制改革，实现财政与经济之间的良性互动，具有重要的现实意义。文章就将从中国各省的面板数据出发研究，中国不同地域间财政收入和GDP之间的关系。

二、实证分析

（一）单位根检验

Eviews有两种单位根检验方法，一种在相同根的假设下的检验，包括LLC、Breintung、Hadri。另一种则是在不同根下的假设前提下，包括IPS，ADF-Fisher和PP-Fisher5。检验结果表明所有检验都拒绝原假设，因此序列GDP和CZSR均为一个2阶单整序列。

（二）协整检验

如果基于单位根检验的结果发现变量之间是同阶单整的，那么我们可以进行协整检验。协整检验是考察变量间长期均衡关系的方法。所谓的协整是指若两个或多个非平稳的变量序列，其某个线性组合后的序列呈平稳性。此时我们称这些变量序列间有协整关系存在。

在最终的结果中，Pedroni方法中除了rho-Statistic、PP-Statistic项目外都拒绝GDP和CZSR不存在协整关系的原假设，同样Kao和Johansen检验方法也都拒绝原假设，因此，上述检验结果表明，我国各省2000-20009年的GDP和财政收入面板数据间存在着协整关系。既然通过了协整检验，说明变量之间存在着长期稳定的均衡关系，其方程回归残差是平稳的，因此可以在此基础上直接对进行回归分析，此时假设方程的回归结果是较精确的。

三、建立模型

混合模型：如果从时间上看，不同个体之间不存在显著性差异；从截面上看，不同截面之间也不存在显著性差异，那么就可以直接把面板数据混合在一起用普通最小二乘法（OLS）估计参数。

我们根据混合模型的回归结果，得到财政收入和GDP之间的回归方程为：

CZSR=227.3123+0.103224*GDP

（26.47637）（0.002839）

R2=0.810995 F=1321.587

显然从模型的回归结构来看，R2的值达到了0.81，有了比较好的回归解释力，同时，GDP的回归系数为0.103224，表明各省的财政收入平均占到了国民收入的10.3%左右。

变系数模型：显然，在中国各省之间由于处在不同的地区，因而拥有不同的区位优势，那么各省的发展水平显然就不一样。正是由于这种不同的地方政策、管理水平、文化差异等会导致经济变量间出现一些关联性的变化，此时在进行模型回归的时候，我们就有必要考虑变系数模型。

在回归结果中，R2的值达到了0.97，比混合模型拥有更好的回归解释力，而在变系数模型回归结果中，GDP的回归系数大于0.5的只有、青海、宁夏三个省份，也就是说这三个省份的财政收入占到了GDP的50%以上，他们同处于经济并不是很发达的西部地区，由此可以看出，处在经济发达地区的财政收入占GDP的比重要低，而不发达地区则要高。

四、结论

通过以上的分析检验，我们发现针对于中国财政收入和GDP的面板数据，我们应建立起变系数模型，并通过模型分析，我们可以得出这样的结论，中国各省间由于存在着地域经济发展水平不同、管理水平不同以及国家的相关政策等诸多不同，造成了各省之间在财政收入以及国民收入上面存在着一定的差异。而回归结果也告诉我们，我国西部地区的财政收入占GDP的比例要明显高于东部地区，地区发展落后地区的财政收入占GDP的比例也要明显高于东部地区。因此，这为我们改善我国落后地区的经济发展提供了一定的新思路，就是对一地区的税收征收可以适当放缓，而将GDP中以前政府占用的部分归还于民众和企业，因为，按照发达地区的经验表明，财政收入所占比重过高，经济发展的活力或者就不会很高，对于进一步刺激财政收入的增加也没有任何帮助。因此，我们应该适度降低财政收入占GDP的比重，从而增加经济活力，使西部地区以及落后地区及早的跟上东部发达地区的发展步伐，从而消除我国经济发展的地域不平衡。

参考文献：

[1]谢识予，朱洪鑫.高级计量经济学[M].复旦大学出版社，2005.

[2]张晓峒.Eviews使用指南（第二版）[M].南开大学出版社，2004.

第5篇

关键词自组织映射组织特异性基因管家基因基因表达谱

一、SOM算法介绍

由Kohonen提出的自组织映射（SOM）的神经网络是神经网络中适合用于对数据进行分类的有效方法。SOM神经网络包含一个输入层和一个输出层，组织成一个二维的网格结构（图1.1）。该网络能够从任意一个随机选择输入的结点开始最终形成一个拓扑结构的映射，这个映射反映了输入模式的内在的关系。但是运用SOM有一些参数的限制，首先需要指定类别数目，对映射空间结点进行权值的初始化等。如（图1.1）所示，SOM网络是一个的映射，如果这个神经元被安排在一个平面网格上面的话，这个神经网络就称为二维神经网络，因为这个网络将一个高维的输入向量映射到一个二维的平面上面。给定一个网络，输入向量是一个维的向量，相应的第个突触向量的第个元素与输入向量的第个元素相连，这样，一个维的突触向量就和第个神经元实行连接。

图1.1 SOM网络的基本结构

SOM算法描述如下：

（1）令网络学习次数，赋予初始化权值向量一个小的随机向量值，对拓扑邻域（）、学习率（）进行初始化，设置网络总的学习次数（）。

（2）当学习次数（）小于总的学习次数（）时，重复步骤3至步骤6。

（3）随机选一个输入向量进入网络进行训练。

（4）确定获胜神经元，相应的权值向量为与输入向量距离最短的向量，成为获胜神经元，输入向量与获胜神经元的最短距离为，定义如下：

（1.1）

（5）按照下式更新获胜神经元及其邻域内神经元权值向量：

（1.2）

与函数定义如下：（1.3）

（6）令，如果，回到第（3）步继续训练，否则结束训练。

二、数值模拟计算

本文以HUGEindex数据库中人7000多条基因在19个正常组织中的表达情况这19个组织中表达的基因为样本对其进行分析。不同组织下的全基因表达数据构成了一个7070x59的数据矩阵，其中每一个元素表示第个基因在第个组织中的表达水平值，行向量代表基因在19个人组织中的表达水平，成为基因的表达谱，列向量代表某一组织的各基因的表达水平。

（1.4）

本文运用SOM方法对人基因19个组织的59个样本进行聚类，SOM网络的拓扑结构见（图1.2）及参数选择见表（表1.1）。

图1.2 样本聚类SOM网络结构图

上图中，根据Genechip得到的人体19个组织的59个微阵列数据所得到的信息，我们采用4x5的二维拓扑结构的SOM网络对人体组织样本进行分类（其中第（4，5）个结点为空），图中每个结点的位置（结点位置用与输入模式维数相同的向权值向量表示，初始权值由系统自动产生）为各个结点权值尺度化之后所得到的位置。

三、结论

通过分类可以将芯片实验的59个样本按照人体组织类别分为19个类别，并且与采用层次聚类法所得结果进行比较，可以看出自组织映射的聚类方法与层次聚类方法比较，可以看出采用SOM网络聚类方法比层次聚类得到的结果更为明确，其分类正确率达到了92.2%，证明了SOM方法是有效的。

参考文献：

[1]孙啸，陆祖宏，谢建明.生物信息学基础[M].北京：清华大学出版社，2005：282-285.

[2]许东，吴铮.基于matlab6.x的神经网络系统分析与设计[M].西安电了科技大学出版社，2002.

[3]阎凡平，张长水.人工神经网络与模拟进化计算[M].北京：清华大学出版社，2005.：11-34，360-395.

作者简介：

第6篇

一、以认知冲突，引发学生产生数据收集与整理的强烈愿望

学生每一个学习行为的背后，都是有目的、有价值、有意义的。简言之，学生自己要真正认识到这种学习是有用的，哪怕仅仅是因为有趣、好玩，才能激发学生进行相关学习的愿望和兴趣。对于数据分析观念的培养，教师有必要替学生问一个“为什么”，问题不必明确提出，但一定要把相关信息告诉学生，引发学生强烈的认知冲突，才会产生进行数据收集、整理与分析的欲望，才会使他们认识到学习数据分析的必要性，产生兴趣，从而建立与培养其初步的数据分析观念。

以二年级上册“统计”一课的学习为例，学生首次接触“统计”的相关内容。在学生尚不真正知道与理解该词的确切含义的情况下，教材提供的课例是“统计最喜欢的动物”，以统计图形式呈现出喜欢四种动物（小猫、小狗、小兔、乌龟）的学生的人数，并提供了3道题目，但教材始终没有告诉学生，“为什么我要学习这个知识”、“为什么我要进行数据分析”。此时，对这一问题的提出与引导学生思考，只能由教师在不动声色中完成。所以，教学时，利用学生爱吃零食的特点，我调整了教学思路，首先，我征得学生同意，打算用班上卖废品的钱给学生买糖吃。此举得到学生们的一致欢迎；其次，我要求5个小组长提前去学校门口的超市，了解糖块的种类与价格，并告知其他同学；再次，我要求班委成员负责了解班上每一名同学的需求并进行分类、计算总量。每人限一块，以便于合理安排买糖的数量与花费；再次，将买来的糖带入教室，上课，进行相关的数据整理与分析；最后，完成全部教学任务后，吃糖。

当我将此想法与实际的授课过程讲给其他老师听时，有老师笑谈“孩子们学习的动力就是吃糖”。我不否认这是学生们积极参与教学活动的动力之一，因为事先我有告诉学生全部的活动过程与“完不成就不会有糖吃”的话。但不可否认的是，对于二年级的学生来说，为了达成“每个同学都能吃到自己想吃的糖”这一目标，要在活动的每一个步骤都进行相关数据的收集、整理与分析，才能正确且顺利地完成任务。简言之，等于我们告诉学生，“为什么要进行数据分析”、“只因为我们需要达成一定的目的”，并且，活动的每一步骤的数据分析都有学生亲自进行，并明确知晓这样做的原因——当然不是教师的程式化的要求，这就使得学生的数据分析工作是主动的，各成员之间是相互合作的，既使学生愉快地接受了数据分析的内容与过程，也在增强学生数据分析观念的同时，培养了学生主动学习与合作的精神。

二、挖掘数据中蕴藏的深层信息，体验数据分析的应用价值

统计教学的一个重要目标，是鼓励学生通过分析从统计图表中获取尽可能多的信息，为后续的某项工作或学习做出合理的决策。表现在教材中，数据分析观念的首次引入即是一个简单的“最喜欢的动物”的统计图，接下来的每一个问题的答案无不需要从该统计图进行寻找。这样的例子，在学生生活中也是有接触的。但是，教学过程中，也存在一个常见现象，学生通过统计图表获取的信息，多是一些最基本的、一眼即可看出的直接信息，而很少能够对图表上的数据信息进行更为深入的整理与分析，挖掘出更多有价值和有意义的信息来做出合理的决策。

第7篇

第8篇

【关键词】大数据分析；电网调度能力；方法；应用

0.引言

为了评测区域内电网调度能力，根据调度能力评测结果，调整输变电调度方案，提高变压器等主要设备的可靠运行，合理利用电网中各项资源和设备。本发明的目的是提供一种基于计算机实现的评测电网调度能力的方法，该方法通过对电压、有功功率、无功功率的分析，保持各个变压器都处于最佳工作状态，提高设备使用寿命，降低设备故障率，降低设备运行的电能损耗，提高电网运行的可靠性，提升电网调度水平。

1.大数据分析评测电网的现状

随着我国城市化的发展逐渐加快，我国对电力的需求也在逐渐的增多，未来十几甚至几十年，电力需求的增长主要集中在城市地区。这也就对我国的电网带来很大的挑战，城市电网是城市的重要基础设施，也是电力网的重要组成部分。建设好城市电网对满足城市经济发展、人民生活水平提高具有重大意义。但是，由于我国长期以来收着“重主网、轻配网”的思想，导致我国很长一段时间内，对电网的投资非常的少，城市的电网发展普遍落后于高压电网[1]。导致我国在很长一段时间内，处于用电不平衡的情况，很多的地方在年前或者重大节日之前就会出现的停电的现象。

2.大数据分析评测电网调度能力的具体方法

2.1获取两卷变或三卷变高低压侧的监控数据

该方法主要是用根据变压器端的终端设备，来获取的，首先通过各地市部署的调度EMS系统，将变电站中各变压器的运行情况准确的监控，通过变压器内的监控元件，对变压器的的运行情况、采集电压、有功负荷、无功负荷等检测数据，按指定频率采集。然后将采集的数据通过生产区的专用网络进行传输，通过生产区的安全交换机制放置到电力系统信息内网，开始清洗、筛选，去除设备检测的异常数据，保留有效数据用于负载率分析该评测电网调度能力工具通过在信息内网中载入电网运行的监控数据[2]。

2.2得到变压器实际功率与额定功率的比值

通过对变压器内高低压侧的检测数据，计算变压器实际功率与额定功率的比值，负责率分析，接下来对采集的调度EMS系统的电网运行数据进行计算，负载率有两种计算方法，一是根据选定的地区、时间段，使用公式二“有功负荷与无功负荷平方根/容量”计算每个时点该地区各个变压器的负载率；二是根据选定的地区、时间段，使用公式“有功负荷/（容量*0.95）”计算每个时点该地区各个变压器的负载率[3]。

2.3计算各个变压器的平均负载率以及平均负载率的平均值

首先要通过选定的地区、时间段，得到该地区在本时间段内各个变压器的平均负载率以及平均负载率的平均值。然后再计算各个变压器平均负载率的均方差，由变压器的均方差，判断选定区域在该时间段的调度运行能力。主变不均衡度分析，根据选定地区和时间段，统计负载率分析结果，得出平均负载率[4]。根据平均负载率计算各个变压器平均负载率的均方差，作为变压器的不均衡度，将结果逐级放大，能够得出变压器、变电站、县公司、市公司乃至网省公司在该时间段的调度健康情况，从而有效的调整调度策略和计划，改善电网运行情况。

3.大数据分析评测电网调度能力的应用

3.1调度EMS数据采集

要对EMS数据采集，首先要制定EMS系统监控数据的格式，然后加载指定格式的调度数据，其中指定数据额格式要求主要为：（1）按“变电站+地区+变电站电压等级+主变名称+时间”的顺序排序，每小时记录一次，主要记录每个整点、时点的有功、无功负荷该数据容量的单位是MVA，负荷的单位是MW。（2）时间，变电站，地区，变电站电压等级，主变名称，绕组电压，容量，有功负荷值，无功负荷值。（3）变电站的数据采集按照一定的顺序进行，不可以同时多个变电站的数据进行采集。

在这个过程中还要对数据进行“清洗”。清洗的流程为：（1）使用8个逗号作为数据的分隔符，分别隔开不同字段的数据。如果有多余逗号或缺逗号或两个逗号中间为空的行，则该行数据无效。（2）在计算的过程中除了容量、有功负荷值及无功负荷值外，其他各字段如数据超长，则页面抛出提示错误，结束导入。（3）厂站电压等级为110kV的变压器容量小于等于100MVA（系统用户可以在管理端修改此值大小），否则该行数据无效。

3.2负载率计算

负载率计算有两种情况，分别是近似计算和精确计算，其中近似计算效率高，能够很快得到近似结果。但是在常规检查时可使用本公式计算；精确计算算法相对复杂、比较耗时，但是计算准确，通常用于分析调度情况时使用。

简便公式为：

计算要求：

1、选定地区、场站或主变和时间段；

2、根据选定的地区、时间段，使用公式计算每个时点该地区各个变压器的负载率；

3、使用意义在于根据负载率大小得出各变压器负载率的最高或最低时点，从而判断当前电网的负荷情况。

精确公式：

计算方法：

1、选定地区、场站或主变和时间段；

2、根据选定的地区、时间段，使用公式二计算每个时点该地区各个变压器的负载率；

3、使用意义在于根据负载率大小得出各变压器负载率的最高或最低时点，从而判断当前电网的负荷情况。

4.结语

该发明可及时调整调度方案，从而均衡电网的运行负荷，保持各个变压器都处于最佳工作状态，提高设备使用寿命，降低设备故障率，降低设备运行的电能损耗，提高电网运行的可靠性，提升电网调度水平，对提高大数据分析电网调度能力具有显著的作用。

参考文献

[1]李庚银，罗艳，周明，等.基于数学形态学和网格分形的电能质量扰动检测及定位[J].中国电机工程学报，2012，26（03）：25-30.

[2]贺仁睦，王卫国，蒋德斌，等.广东电网动态负荷实测建模及模型有效性研究[J].中国电机工程学报，2015，22（03）：78-82.

第9篇

关键词：Matlab软件；制流与分压电路实验；特性研究

一、分压电路特性研究及参数的变化

首先，用1000Ω滑线变阻作分压器，负载电阻用1000Ω（K=1），测出滑线电阻滑动端的位置参数X和U/Umax分压比，并作出U/Umax的关系曲线。其次，同上，用1000Ω滑线电阻和500Ω的负载电阻（K=0.1），测出X和U/Umax，记录不同的K值。在Matlab软件中编写下列程序实现分压电路实验数据的处理和图像的拟合：

x0=0：0.1：1.0；

y1=[0 0.24 0.48 0.58 0.72 0.92 1.12 1.58 2.18 3.42 4.46]；

z1=max（y1）；

y2=[0 0.38 0.72 0.98 1.32 1.72 2.02 2.48 3.26 4.18 4.64]；

z2=max（y2）；

y3=[0 0.40 0.82 1.18 1.58 2.02 2.40 2.98 3.62 4.32 4.52]；

z3=max（y3）；

y4=[0 0.18 0.28 0.34 0.48 0.58 0.78 1.02 1.66 2.98 4.48]；

z4=max（y4）；

n=3；

p1=polyfit（x0，y1，n）

p2=polyfit（x0，y2，n）

p3=polyfit（x0，y3，n）

p4=polyfit（x0，y4，n）

xx=0：0.01：1.0；

yy1=polyval（p1，xx）；

yy2=polyval（p2，xx）；

yy3=polyval（p3，xx）；

yy4=polyval（p4，xx）；

plot（xx，yy1/z1，'r'，x0，y1/z1，'.r'）

hold on；

plot（xx，yy2/z2，'k'，x0，y2/z2，'.k'）

hold on；

plot（xx，yy3/z3，'b'，x0，y2/z2，'.b'）

hold on；

plot（xx，yy4/z4，'g'，x0，y4/z4，'.g'）

hold off；

由实验可得不同K值的分压特性曲线，如图1所示。从曲线可以清楚看出分压电路有如下几个特点：第一，不论R0的大小，负载RZ的电压调节范围均可从0■E；第二，K越小电压调节越不均匀，曲线线性程度越差，细调程度较差；第三，K越大电压调节越均匀，因此要电压U在0到Umax整个范围内均匀变化，则取K>1比较合适。

■

图1 不同K值的分压特性曲线

二、制流电路特性研究及参数的变化

首先，用1000Ω滑线变阻作制流器，负载电阻用100Ω（K=0.1），测出滑线电阻滑动端的位置参数X和分压比I/Imax，并作出I/Imax-x的关系曲线。其次，同上，用10000Ω滑线电阻和20Ω的负载电阻（K=0.02），测出X和I/Imax，记录不同的K值，并作出关系曲线，在Matlab软件中编写下列程序实现制流电路实验数据的处理和图像的拟合：

x0=0：0.1：1.0；

y1=[0.04 0.04 0.08 0.12 0.18 0.22 0.30 0.52 1.02 3.58 4.18]；

z1=max（y1）；

y2=[0.04 0.04 0.08 0.12 0.18 0.24 0.30 0.52 0.92 2.38 4.98]；

z2=max（y2）；

y3=[0.02 0.02 0.02 0.04 0.12 0.18 0.28 0.40 0.70 2.98 3.52]；

z3=max（y3）；

y4=[0.01 0.01 0.01 0.01 0.02 0.08 0.20 0.30 0.60 1.20 2.0]；

z4=max（y4）；

n=3；

p1=polyfit（x0，y1，n）

p2=polyfit（x0，y2，n）

p3=polyfit（x0，y3，n）

p4=polyfit（x0，y4，n）

xx=0：0.01：1.0；

yy1=polyval（p1，xx）；

yy2=polyval（p2，xx）；

yy3=polyval（p3，xx）；

yy4=polyval（p4，xx）；

plot（xx，yy1/z1，'r'，x0，y1/z1，'.r'）

hold on；

plot（xx，yy2/z2，'k'，x0，y2/z2，'.k'）

hold on；

plot（xx，yy3/z3，'b'，x0，y2/z2，'.b'）

hold on；

plot（xx，yy4/z4，'g'，x0，y4/z4，'.g'）

hold off；

（上接第47页）

■

图2 不同值的制流特性曲线

图2表示不同K值的制流特性曲线，从曲线可以清楚地看到制流电路有以下几个特点：第一，K越大电流调节范围越小；电流调节越均匀，曲线线性程度较好；第二，K（K≥1）时调节的线性较好；第三，K较小时（即R0>RZ），电流调节范围大，电流调节越不均匀，曲线线性程度越差，细调程度较差；第四，不论R0大小如何，负载RZ上通过的电流都不可能为零。第五，制流电路适用于负载电阻较小，功耗较大，电压调节范围较小的场合。

综上所述，当负载电阻较大时，要求调节范围较宽时宜采用分压电路。相反，在负载电阻较小，功耗较大且调节范围不太大时，选用制流电路较好。

参考文献：

[1]陈玉林，李传起.大学物理实验[M].北京：科学出版社，2007：186-190.

[2]穆晓东.制流与分压电路实验参数的选择与确定[J].大学物理实验，2004，（01）.

数据分析的方法优选九篇

第1篇

第2篇

第3篇

第4篇

第5篇

第6篇

第7篇

第8篇

第9篇

数据时代论文

大数据营销论文

统计数据论文

数据库论文

数据存储技术论文

数据处理论文

大数据时代论文

统计学数据论文

数据库需求分析报告

数据分析毕业论文

数据云存储方案

数据安全论文

数据

大数据

大数据时代

数据法学

文献与数据学报

中国数据通信