时间:2023-08-02 16:30:15
引言:易发表网凭借丰富的文秘实践,为您精心挑选了九篇数据分析的统计学基础范例。如需获取更多原创内容,可随时联系我们的客服老师。
关键词:大数据时代;统计学;影响
随着大数据时代的到来,各企业采用了新的策略,获得了更多的利润。对于统计专业来说,改变发展策略,使培养出来的专业人才能够适应大数据背景的需求是其主要任务。目前,高校统计学专业逐渐认识到大数据时代综合性人才培养的重要性,并对专业建设进行了相关改革。
一、大数据时代对统计学的影响
大数据时代的到来对现代统计专业的发展造成了新的冲击,要确保培养出来的人才能够起到应有的作用,首先要了解大数据时代对统计专业所造成的影响。
(一)大数据时代使数据结构和数据性质发生变化
网络技术以及基于网络技术的电子商务等新的数据记录模式标志着大数据时代的到来。大数据时代,不再依赖于抽样调查的记录模式,网站浏览、视频监控都将形成大量数据。传统的数据结构甚至是数据性质发生了变化。大量的数据信息对于需求者来说,如何甄别其可用价值成为关键。传统的数据可以二维表格显示和整理。但大数据时代所产生的数据具有多样化和复杂化特征,往往包含了大量的音频、视频、HTML等。这要求大数据的收集具有较强的目的性,才能实现其价值。
(二)大数据时代要求统计分析方法和统计思维更新
大数据时代的主要特征为数据多且复杂,数据分析要求分析者对总体进行分析。在这一背景下,参数统计不再具有意义,假设检验法也随着总体分析而失去价值。数据的复杂化对传统大数据统计思维造成了巨大的冲击,要求统计者具有活跃的思维。只有对传统数据的改变进行分析,并且树立新的统计方法。
二、大数据时代下的统计学发展新策略
为适应大数据时代的需求,统计学专业的发展势必要对传统模式进行改革。目前,多数高校统计学专业已经认识到大数据对于其发展带来的冲击。为此,本文提出了以下策略,以及能够帮助统计学取得更好发展。
(一)加强统计应用性教学
根据大数据时代数据的总体分析特征,数据分析人员应掌握全面的分析方法。在人才培养过程中,应致力于培养实践分析能力,提高数据和资料收集能力,并且培养其强烈的数据价值观,使其能够从众多数据中找到所需的。另外,对传统模式进行改革,增加大数据统计内容,以适应时代的需求。基于大数据的结构特点,实施资料透视化教学,提高分析者对复杂数据的分析能力。
(二)培养大数据统计思维
在人才培养过程中,新的统计思维的培养具有重要意义,即强调数据分析实践能力的提高。统计思维的培养有助于数据分析者对复杂的数据进行区分,从而整理有效信息。在大数据时代,不仅要以传统的平均思维、动态思维和变异思维为基础,还要注重基于整体分析的大数据思维。另外,还要培养数据分者的复杂性思维,以应对复杂的数据库。总之,大数据时代需要数据分析者具有全面的、创新性的思维。
(三)强化基础性统计知识
统计学自身具有复杂性,其改变多且抽象。基础的统计知识是进一步掌握大数据分析思维的基础,可见学习基础性统计知识的重要性是不言而喻的。为此,应该采取深入浅出的方法,利用多媒体等方式使复杂的数据统计清晰化、简单化。结合具体的案例使数据分析者正确认识统计概念、掌握统计原理和方法。此外大数据分析不再是一种专业,而是更倾向于一种技术,这要求我们将大数据分析与统计学以外的相关知识相互联系。注重真实相关与伪相关的讲解,强调商务智能的开发和分析。只有具有坚实的基础,才能确保数据分析者大数据分析思维的养成,适应现代社会的需求。
(四)加强复合型人才培养
为适应大数据时代的需求,复合型人才的培养是关键。所谓复合型人才,是指其不但要具有专业的数据分析能力,还要相应的具备管理以及其从事专业的技术。大数据时代,高校应建立全面的人才培养模式,注重培养人才的数据分析能力、编程能力等,使其真正了解大数据,懂得如何利用大数据对其所处的行业起到积极作用才是关键。总之,大数据时代对综合性人才具有更高的需求,大数据时代不仅培养的是一种能力,而且是一种思维,是对全新模式下的数据的分析和利用。高校作为人才培养的重要基地,其教学模式的改革、对大数据时代所需教学模式的认识是高校的主要任务。
三、总结
统计学是经济学的基础课程,传统的统计人才培养具有定向性。而随着大数据时代的到来,数据产生的形式多样,且具有复杂性。大数据分析不仅是作为一种专业存在,而是应以一项必备的技术而存在。大数据时代,传统的统计思维和统计方法发生了改变,统计人才培养方式的改革也就势在必行。(作者单位:海南师范大学)
参考文献:
[1] 朱怀庆.大数据时代对本科经管类统计学教学的影响及对策[J].高等教育研究,2014(3).
[2] 姚寿福.经济管理类本科专业统计学课程教学改革思考[J].高等教育研究,2012(3).
[3] 孙耀东.大数据背景下统计学专业课程教学探究[J].廊坊师范学院学报(自然科学版),2015(06).
【论文摘要】所谓统计思想,就是在统计实际工作、统计学理论的应用研究中,必须遵循的基本理念和指导思想。统计思想主要包括均值思想、变异思想、估计思想、相关思想、拟合思想、检验思想等思想。文章通过对统计思想的阐释,提出关于统计思想认识的三点思考。
【论文关键词】统计学;统计思想;认识
1关于统计学
统计学是一门实质性的社会科学,既研究社会生活的客观规律,也研究统计方法。统计学是继承和发展基础统计的理论成果,坚持统计学的社会科学性质,使统计理论研究更接近统计工作实际,在国家和社会得到广泛发展。
2统计学中的几种统计思想
2.1统计思想的形成
统计思想不是天然形成的,需要经历统计观念、统计意识、统计理念等阶段。统计思想是根据人类社会需求的变化而开展各种统计实践、统计理论研究与概括,才能逐步形成系统的统计思想。
2.2比较常用的几种统计思想
所谓统计思想,就是统计实际工作、统计学理论及应用研究中必须遵循的基本理念和指导思想。统计思想主要包括:均值思想、变异思想、估计思想、相关思想、拟合思想、检验思想。现分述如下:
2.2.1均值思想
均值是对所要研究对象的简明而重要的代表。均值概念几乎涉及所有统计学理论,是统计学的基本思想。均值思想也要求从总体上看问题,但要求观察其一般发展趋势,避免个别偶然现象的干扰,故也体现了总体观。
2.2.2变异思想
统计研究同类现象的总体特征,它的前提则是总体各单位的特征存在着差异。统计方法就是要认识事物数量方面的差异。统计学反映变异情况较基本的概念是方差,是表示“变异”的“一般水平”的概念。平均与变异都是对同类事物特征的抽象和宏观度量。
2.2.3估计思想
估计以样本推测总体,是对同类事物的由此及彼式的认识方法。使用估计方法有一个预设:样本与总体具有相同的性质。样本才能代表总体。但样本的代表性受偶然因素影响,在估计理论对置信程度的测量就是保持逻辑严谨的必要步骤。
2.2.4相关思想
事物是普遍联系的,在变化中,经常出现一些事物相随共变或相随共现的情况,总体又是由许多个别事务所组成,这些个别事物是相互关联的,而我们所研究的事物总体又是在同质性的基础上形成。因而,总体中的个体之间、这一总体与另一总体之间总是相互关联的。
2.2.5拟合思想
拟合是对不同类型事物之间关系之表象的抽象。任何一个单一的关系必须依赖其他关系而存在,所有实际事物的关系都表现得非常复杂,这种方法就是对规律或趋势的拟合。拟合的成果是模型,反映一般趋势。趋势表达的是“事物和关系的变化过程在数量上所体现的模式和基于此而预示的可能性”。
2.2.6检验思想
统计方法总是归纳性的,其结论永远带有一定的或然性,基于局部特征和规律所推广出来的判断不可能完全可信,检验过程就是利用样本的实际资料来检验事先对总体某些数量特征的假设是否可信。
2.3统计思想的特点
作为一门应用统计学,它从数理统计学派汲取新的营养,并且越来越广泛的应用数学方法,联系也越来越密切,但在统计思想的体现上与通用学派相比,还有着自己的特别之处。其基本特点能从以下四个方面体现出:(1)统计思想强调方法性与应用性的统一;(2)统计思想强调科学性与艺术性的统一;(3)统计思想强调客观性与主观性的统一;(4)统计思想强调定性分析与定量分析的统一。
3对统计思想的一些思考
3.1要更正当前存在的一些不正确的思想认识
英国著名生物学家、统计学家高尔顿曾经说过:“统计学具有处理复杂问题的非凡能力,当科学的探索者在前进的过程中荆棘载途时,唯有统计学可以帮助他们打开一条通道”。但事实并非这么简单,因为我们所面临的现实问题可能要比想象的复杂得多。此外,有些人认为方法越复杂越科学,在实际的分析研究中,喜欢简单问题复杂化,似乎这样才能显示其科学含量。其实,真正的科学是使复杂的问题简单化而不是追求复杂化。与此相关联的是,有些人认为只有推断统计才是科学,描述统计不是科学,并延伸扩大到只有数理统计是科学、社会经济统计不是科学这样的认识。这种认识是极其错误的,至少是对社会经济统计的无知。比利时数学家凯特勒不仅研究概率论,并且注重于把统计学应用于人类事物,试图把统计学创建成改良社会的一种工具。经济学和人口统计学中的某些近代概念,如GNP、人口增长率等等,均是凯特勒及其弟子们的遗产。
3.2要不断拓展统计思维方式
统计学是以归纳推理或归纳思维为主要的逻辑方式的。众所周知,逻辑推理方式主要有两种:归纳推理和演绎推理。归纳推理是基于观测到的数据信息(尤其是不完全甚至劣质的信息)去产生新的知识或去验证一个假设,即以所掌握的数据信息为依据,归纳得出具有一般特征的结论。归纳推理是要在数据信息的基础上透过偶然性去发现必然性。演绎推理是对统计认识能力的深化,尤其是在根据必然性去研究和认识偶然性方面,具有很大的作用。
3.3深化对数据分析的认识
任何统计研究都离不开数据分析。因为这是得到统计研究结论的必要环节。虽然统计分析的形式随时代的推移而变化着,但是“从数据中提取一切信息”或者“归纳和揭示”作为统计分析的目的却一直没有改变。对统计数据分析的原因有以下三个方面:一是基于同样的数据会得出不同、甚至相反的分析结论;二是我们所面对的分析数据有时是缺损的或存在不真实性;三是我们所面对的分析数据有时则又是海量的,让人无从下手。虽然统计数据分析已经经历了描述性数据分析(DDA)、推断性数据分析(IDA)和探索性数据分析(EDA)等阶段,分析的方法技术已经有了质的飞跃,但与人类不断提高的要求相比,存在的问题似乎也越来越多。所以,我们必须深化对数据分析的认识,围绕“准确解答特定问题并且从数据中获取一切有效信息”这一目的,不断拓展研究思路,继续开展数据分析方法技术的研究。
参考文献:
[1]陈福贵.统计思想雏议[J]北京统计,2004,(05).
[2]庞有贵.统计工作及统计思想[J]科技情报开发与经济,2004,(03).
关键词:大数据;数据分析;统计学
大数据在如今社会已经成为热点词汇,不仅在计算机领域,在其他各个行业都能够得到运用,为各个行业提供便捷,为了让大数据能够得到充分利用,下文将对大数据分析相关方面进行讨论。
一、大数据与大数据时代
(一)大数据大数据是在当今科技飞速发展的情况下,一种新兴的信息数据处理技术。随着社会科技的进步,各行各业对于数据的应用也越来越广泛,传统的数据处理技术耗时较长且精准度较为低下,已经不能满足现代科技对数据应用的要求。新时代的大数据系统具有超大的数据容量,同时兼容半结构化与结构化的数据,远远超出传统数据库管理系统的管理能力。因此新的大数据技术就此诞生。大数据在发展过程中,具有比为鲜明的特点。与传统数据处理技术相比,大数据具有数量庞大、多样化、速率快、价值高的特点。在信息处理的速度不断加快的当今社会,这样的特点为大数据的广泛应用打下了坚实基础。由于数据的数量较为庞大,且各种数据近年来的增长趋势呈指数型,其数据的种类和形式也各有不同。其次,合理利用大数据技术,能够在一定程度上降低成本,提高效率,因此,大数据处理各项关键技术的进一步的开发与利用已成为了提高自身效率,实现核心竞争力的重中之重。
(二)大数据时代大数据时代是指在物联网技术、计算机技术、数据信息处理技术的基础上,通过互联网途径,大量收集并处理分析数据资源,而形成一种新型的信息时代。大数据时代的主要核心内容是对庞大的数据体系进行处理以发挥价值,从而提升数据分析效率以及数据应用价值。大数据时代是由多种信息技术共同组成,可以有效地避免数据处理中不同步、使用不方便的情况发生,具有高效可靠的数据处理、整合、分析及汇总的功能。因此,大数据时代的新型数据处理技术可最大程度的对数据进行分析与挖掘,极大提高处理数据的效率。
二、大数据时代与统计学
(一)大数据时代与统计学的关系统计工作是集数据的搜集、整理、分析和解释为一体的系统的过程。大数据与统计二者互相依存,通过统计的方法和原理对数据进行整理和分析,提高数据的精确度和适用度,以此来实现数据的价值和利用率。由此看来,大数据与统计学的联系既紧密,又存在区别。大数据与统计学的关系甚为密切,它们都是关于数字的学科。统计学为大数据提供了了施展方向,而大数据将统计学引领至更深更广的空间。共性之一就是社会与数据。几乎所有的行业与大数据都有着密切联系,这些联系或直接或间接,而人们正是通过获取数据并进行分析,从而才能得到商业知识和社会服务等能力。大数据与统计学的区别。首先,信息规模不同。大数据的分析对象是与某事物有关联的所有数据,要求数据量庞大。统计学则是用样本来分析和推断总体的数量特征。在大数据时代,则可以通过各种方法和渠道获得全面而又完整的的信息资料,从而完成更多从前无法完成的事情。其次,动静标准不同。数据经过了搜集、整理、分析的过程就很有可能因为精确性不足而被认为失去了用处。而大数据时代,则不必再担心这个问题,数据的精确性和原始性不在被过分重视,人们可以接受复杂数据。第三,数据搜集形式不同。在以往数据搜集形式主要是抽样调查,方法局限。而在大数据时代,特点是信息爆炸和互联网飞速发展,这一情况得到改观。最后,思维方式不同。大数据时代人们的思维发生转变,人们开始更多的关注事物的相关关联。
(二)大数据对统计学研究工作的影响首先,大数据丰富了统计学的研究对象。在大数据时代,我们既可以以结构化数据作为测量单位对文本、图像和视频等进行分析,还可以对非结构化数据实行分析。其次,大数据影响了统计学的工作进程。统计数据需求丰富,原有的统计抽样分析不能在适应时代的发展,而现代科技方法如透过传感器自动收集数据等方法取代了传统方法,更加便捷有效。
三、大数据数据分析理念
(一)统计学的应用随着现代科技的发展,传统的大数据已经不能满足人们对数据处理的要求。传统的抽样数据调查不能满足大数据的数据处理以及知识发现。因此,新技术及思维的引进就显得尤为重要。新的统计学思维以及知识的应用能够很大程度的提高大数据分析的效率。摒弃对传统的小数据样本的依赖,不在用传统的统计工具对数据进行全部分析。而是对数据进行针对性的分析,使数据分析更加精准,并且能够更加全面的体现数据的价值。我们利用统计计算工具对数据进行分析从而判断数据的变化趋势。统计学的应用可以,为数据分析提供科学的参考依据。
关键词:统计测度;统计学;大数据;数据科学;
作者简介:李金昌,男,50岁,浙江义乌人。浙江财经大学校长,统计学教授,博士生导师。研究方向为经济统计学,统计理论与方法,抽样技术,政府统计等。
最近两年,统计学界对大数据问题所进行的理论探讨逐渐增多,视角也各有千秋,引起了一些共鸣。围绕大数据问题,由统计学、计算机科学、人工智能、数学等学科共同支撑的数据科学开始形成。但大数据毕竟是一个新课题,因此远未达到对其有一个系统完整的认识,仍然需要从不同的方面加以研究,其中有一个重要但又容易被忽视的问题,即统计测度问题,值得去探讨。
一、什么是统计测度
汉语上,测度是指猜测、揣度、估计。数学上,测度是一个函数,它对一个给定集合的某些子集指定一个数,这个数可以比作大小、体积、概率等等。通俗地说,测度把每个集合映射到非负实数来规定这个集合的大小:空集的测度是0;集合变大时测度至少不会减小(因为要加上变大的部分的测度,而它是非负的)。
除了数学角度的测度论,查阅国内文献资料,带有测度这个词汇的文献不少,但专门针对统计测度(或测度)内涵的讨论几乎没有。一些对社会经济现象进行分析测度的文献,例如新型工业化进程测度、货币流动性测度、全面小康社会发展进程测度、收入分配公平性测度、技术效率测度、人力资本测度、金融风险测度、产业关联测度等等,所做的测度都是再测度,均不对测度本身进行讨论。查阅国外文献资料(关键词:measurement),也同样存在这样的问题,只能收集到一些比较零散的表述。LudwikFinkelstein(1975)[1]认为,在我们对事物或现象进行描述时,测度可以被定义为对现实世界中某一现象的个体属性或特征进行量化的过程。JamesT.Townsend和F.GregoryAshby(1984)[2]认为,如果按照极端的观点,那么统计分析中的基本测度理论的含义仍然是存在争议的。LudwikFinkelstein(2003)[3]指出,测度在那些原来尚未得到卓有成效或广泛应用的领域,也已取得了明显的进步,社会、政治、经济和行为科学正在更大程度地利用定量技术;测度是现代思维的一种实际有效的工具,是我们借以描述世界的一种方法。GiovanniBattistaRossi(2007)[4]认为,用以表示测度结果的,是数字或者数字符号。LucaMari(2013)[5]认为,测度的基础特征是被公认为世界上获取并正式表达信息的基本方法,这让它成为一种跨学科的工具。LudwikFinkelstein(2014)[6]指出,在自然科学技术中,测度的重要性不可否认,它是科学调查和发现必不可少的工具,它可将宇宙中的复杂现象用精确、简洁和普遍的数学语言来描述。
那么,到底什么是统计测度呢?目前没有一个统一的定义。本文认为,统计测度具有不同于测度的意义,并且大大超越数学上的界定,即它具有数学定义的一般属性,但又不受制于函数表现形式,因为统计测度所要面对的是现实世界,实际问题要比理论上可以定义的问题复杂得多。按照我们的理解,统计测度就是用一定的符号和数字,用一定的形式和载体,对所研究的现象或事物的特征进行量化反映,表现为可用于统计分析的数据的过程。它应该具有这样一些属性:以实际现象为测度对象,测度结果具有实际意义;以量化为目的,把信息转化为数量,提供人们容易理解的定量结论;个体特征的测度符合形成总体定量结论的要求,同时能够体现个体差异。可以发现,统计测度需要借用数学工具,但更重要的是对具体测度现象本质特征的认识和掌握。
统计测度可以从若干不同角度进行分类。邱东教授(2012)[7]曾在“宏观测度的边界悖律及其意义”一文中,从边界的角度对宏观测度进行了分类:一是因事物本身可测度性而形成的边界,即本体论意义上的测度边界;再一是由人的认知能力而形成的边界,即认识论意义上的测度边界;第三则是由统计相关性偏好和投入约束而形成的边界,即操作意义上的测度边界。这三条测度边界,应该以本体论意义的测度边界最大,认识论意义的测度边界次之,而操作意义的测度边界最小。这样的分类,对于我们正确理解统计测度的内涵很有帮助。受此启发,笔者认为统计测度还可以有如下分类:
1.从测度的实现形式看,可以分为原始测度和再测度。原始测度也可以称为直接测度,它通过对测度对象进行直接测度来获取数据,例如清点库存物品数量、丈量作物播种面积、观察培育细菌数目、检测药物成分等获得的数据,以及各种登记、记录的原始数据等等。再测度也称为间接测度,它以其他已知的测度数据为基础去计算、推算或预测所需的未知数据,例如根据GDP和人口数测度人均GDP、根据人口普查分年龄人口数据测度老龄化系数和社会负担系数、根据相关指标数据测度CPI的变化等等。复杂的再测度则需要借助相应的统计模型作为工具,因为它实际上是对相关变量之间的关系进行定量反映。从两者关系上看,原始测度是基础,是根本,没有科学的原始测度就不会有可靠的再测度;再测度则是测度功能提升的必然要求,以解决原始测度不能解决的问题。
2.从测度的计量方式看,可以分为自然测度、物理测度、化学测度、时间测度和价值测度。自然测度是利用现象的自然属性所进行的一种统计测度,例如人口规模、企业数量等的测度,采用自然计量单位;物理测度是利用现象的物理属性所进行的一种统计测度,例如公路长度、作物播种面积、天然气产量等的测度,采用物理计量单位;化学测度是利用现象的化学属性所进行的一种统计测度,例如医学、生物学中化学合成物的成分结构测度,采用百分数、千分数或特定标识为计量单位;时间测度是利用现象的时间属性所进行的一种统计测度,例如劳动用工、闲暇时间等测度,采用时间计量单位;价值测度是利用现象的价值属性所进行的一种统计测度,例如劳动报酬、经济活动成果等测度,采用货币计量单位。在这些测度计量方式中,价值测度因最具有综合功能而应用最为广泛。
3.从测度的方法看,可以分为计数测度、测量测度、实验测度、定义测度和模型测度。计数测度是一种通过观测计数来获得数据的方法,最为简单,一般用于自然测度或时间测度;测量测度是一种根据物理或化学规制对现象进行测量、测算来获得数据的方法,一般用于物理测度或化学测度;实验测度是一种按照科学实验原理、通过观察实验对象在既定条件下的反应来获得数据的方法,一般与测量测度相结合,用于获取科学研究数据;定义测度也可以称之为指标测度,是一种通过探究现象的本质特征和活动规律、归纳出表现其数量特征的范畴、给出统计指标定义(包括内容、口径、计算方法和表现形式等)来获取数据的方法,最常用于价值测度,也用于其他形式的测度。可以说,定义测度方法应用最为广泛,但也最为困难。模型测度是一种根据现象与现象之间的内在联系关系、或者现象自身的发展变化规律,通过建立一定的方程模型来获取数据的方法。前面三种统计测度方法基本上都属于直接测度,定义测度既可能是直接测度、也可能是间接测度,而模型测度都属于间接测度方法。
4.从测度的维度看,可以分为单一测度与多维测度。单一测度是指采用单一的方式方法对所研究现象或事物进行单一角度的测度,获得单一的数据。多维测度是指对所研究现象或事物进行多角度的测度,测度过程中可能需要采用多种测度方法和计量方式,例如多指标综合评价就需要借助统计指标体系对评价对象进行多角度的测度。显然,单一测度是多维测度的基础。
二、统计测度是统计学的立足之本
首先,从统计学的发展历史看,是统计测度使统计学破茧而出。为什么主流观点认为政治算术是统计学的起源而不是国势学?正是因为威廉·配第首次采用统计测度的方式进行了国家实力的统计分析和有关推算,得出了令人信服的结论。威廉·配第在1693年出版的《政治算术》[8]中写道“因为和只使用比较级或最高级的词汇以及单纯作思维的论证相反,我却采用了这样的方法(作为我很久以来就想建立的政治算术的一个范例),即用数字、重量和尺度的词汇来表达我自己想说的问题,只进行能诉诸人们的感官的论证和考察在性质上有可见的根据的原因”,这一观点在统计学的发展过程中产生了非常重要的影响。他的这段话虽然没有出现测度一词,但却道出了测度的本质,即让事物变得明白、变得有根据,因为“数字、重量和尺度”就是测度、就是根据,用“数字、重量和尺度的词汇来表达想说的问题”就是一种测度的思想,尽管测度的方式方法还很简单。相反,国势学虽然提出了归纳法这一统计学的基本方法并首创了统计学一词,但由于没有采用统计测度的方式进行国势问题的研究而难以修成正果。正如邱东教授[7]所说:“在配第之前,统计学的研究对象虽然是国家的态势,但它在方法论上只是定性言说。一个国家的财富总量在本体论意义上是可以测度的。然而只是到了配第时期,人类才想到了要测度它,并发明了如何测度的基本方法。政治算术,即开创期的经济统计学,实现了从无到有的转变,大大扩展了宏观测度的认识论边界,因而才具有了统计学范式创新的革命性意义。”同样,格朗特的《关于死亡表的自然观察和政治观察》也是人口统计测度方面的经典之作,无论是原始测度还是再测度,都给后人留下了宝贵的财富。之后,统计学就是沿着如何更加科学、准确测度世界这一主线而发展的。笔者曾在“从政治算术到大数据分析”一文[9],对数据的变化与统计分析方法的发展进行了粗浅的归纳,其主题实际上就是统计测度问题。
其次,从统计学的研究对象上看,统计测度是体现统计学数量性特征的前提条件。统计学的研究对象是现象的数量方面,或者说统计学是关于如何收集和分析数据的科学。统计数据从何而来?从统计测度中来。数据不同于数字,数字是统计测度的符号,数据是统计测度的结果,这也正是统计学区别于数学之处。所以说,数据的本质问题就是统计测度问题,故此统计测度是统计学的基本问题。这里重点讨论两个问题:一是统计测度与统计指标的关系,二是统计测度面临的新问题。关于第一个问题,本文认为统计测度与统计指标是一个事物的两个方面,这个事物就是数据。统计指标法是统计学的基本方法之一,尽管前面对统计测度从方式方法上进行了分类,但从广义上说所有统计测度都是定义测度,都表现为指标。也就是说,任何统计测度———不论是直接测度还是间接测度,最终目的是获得能够让人明白的数据,而表现数据的最主要形式就是统计指标,其他表现数据的形式都是派生出来的。所以,统计测度就是根据所设定的统计指标去获得所需的数据。关于第二个问题,与后文所要论及的大数据有关,就是定性测度问题。在统计学中,数据可以分为两类———定性数据与定量数据,其中定性数据又包括定类数据与定序数据两种,它们属于非结构化或半结构化数据。相应地,统计测度也可分为定性测度与定量测度。很显然,只有定性测度与定量测度方法得到同步发展,统计学才能更加完善。总体上看,定量数据的统计测度已经比较完善,但定性数据的统计测度还有很多问题尚待解决,难点就在于测度的切入点———如何提取有效的信息、如何最终转化为统计指标。尽管关于定性数据分析的论著已经不少,但还没有从理论方法上建立起定性数据统计测度的体系,因此统计学在这方面的任务依然很重。
第三,从统计学的永恒主题看,通过科学的数据分析、得出有效的结论是其不变的追求,而数据分析过程就是综合的统计测度过程。获得数据的目的是为了发现隐含其中的有价值的信息,即发现数据背后的数据,让数据再生数据,从而满足人们认识事物、掌握规律、科学决策的需要。除了总量、结构等基本信息外,更重要的是通过数据分析来呈现现象的变化规律与相互关系。不难发现,这种数据分析的过程,就是不断进行各种统计测度的过程,所以最终的统计分析结果实际上就是各环节、各方面的各种类型的统计测度的叠加结果,或者说是统计测度不断放大的过程。大量针对社会经济现象进行分析研究的文献(不论是否冠以“测度”两字),只要有数据分析,都是如此。可以说,统计测度贯穿于统计数据分析的全过程。但是,为什么很多统计数据分析并没有得出有效的结论呢?本文认为原因就出在统计测度上,尤其是没有首先解决好原始统计测度问题。应该说,围绕数据分析已经建立起一整套比较完整的统计方法体系,很多方法也都身经百战、行之有效,但一旦原始统计测度有问题、数据不准确或不真实,那么任何方法都只是摆设。仔细研读很多所谓的实证分析文献,其重点均在于构建什么样的模型或运用什么样的方法,虽然有的文献也必须要讨论选择什么样的变量(指标)这个问题,但并不是系统地从测度的角度进行阐述,因此所用的模型越来越复杂,但所得的结论却离实际情况越来越远。学界总是有这样一种观念:变量越多、符号越新奇、模型越复杂的文章才越有水平,似乎这样分析所得的结论才越可靠。殊不知,不以科学可靠的原始统计测度为基础,任何数据分析都会成为无源之水、无本之木,所得的结论也只是更精确的错误而已。本文认为,任何脱离科学统计测度的统计分析都是毫无意义的,充其量是一种数字游戏而已。应该树立这样一种观念:科学的统计数据分析首先取决于科学的统计测度,而不是首先取决于什么样的分析模型,虽然模型也很重要。这也再一次证明,统计测度问题是统计学的根本问题。其实,归根结底看,在统计数据分析过程中,每一步分析都以前一步的测度为原始测度,每一步所用的方法都是统计测度方法,因此所有的统计分析方法都是统计测度方法。甚至可以说,统计学方法体系就是统计测度方法体系。
当然,在实际的统计分析中,统计测度往往遇到一些困难,即有些指标数据由于各种原因无法获得,这就不得不采用替代这种途径。例如,绿色GDP核算的概念已经提出很多年,但为什么还没有哪个国家真正公布绿色GDP数据,原因就是自然资源价值、生态环境价值等的统计测度目前还面临着很大的困难,其背后存在着一系列有待进一步研究和解决的理论与实践问题,因此不少学者进行了替代测度的探讨。这一方面说明统计测度的重要性,另一方面说明统计测度替代的无奈性。但是,替代测度必须遵守相应的规则与逻辑,要经得起推敲。有的文献明明知道有关变量无法测度、有关数据无法获得,却随意地、不符合逻辑地进行所谓的替代,结果是最后的结论不知替代成什么样了,很难理解它的意义。关于替代测度的有效性问题,邱东教授[7]已有精辟的论述,在此不再展开讨论。
三、统计测度是数据科学的基础
笼统地讲,数据科学就是以大数据为研究对象的科学,需要多学科交叉融合、共同支撑。由于大数据是快速增长的复杂数据,因此大数据分析仅有统计思维与统计分析方法是不够的,还需要强大的数据处理能力与计算能力。只有把统计思维、统计方法与计算技术结合起来,才有可能真正挖掘出大数据中的有价值信息。本文认为统计思维、统计方法与计算技术相结合的基础就是科学的统计测度。
首先,大数据技术不能自行解决其计算和分析应从何处着手的问题。现代信息技术与互联网、物联网技术的快速发展,使人类进入大数据时代,也有人说进入到数联网时代,这意味着我们一方面被各种越来越多、越来越复杂的数据所包围,另一方面又被数据中巨大的信息价值所吸引,想从中挖掘出可供决策之用的信息。如何挖掘大数据?人们已经进行了艰苦的探索,发展了很多专门的方法技术,并已尝到了不少甜头,但远未达到充分利用大数据中有效信息的目的,因为已有的大数据分析研究主要集中于计算机科学与技术、软件工程、计算数学等领域,重点是计算能力与算法研究,而很少从统计学的角度进行有针对的探讨,还没有真正进入数据分析的深层。这里面实际上忽略了最基础的统计测度问题。如果说,计算技术的发展能够解决数据储存与计算的能力问题,算法模型的改进能够解决大数据分析的综合能力问题,那么它们仍然不能解决对谁进行计算与分析的问题,也即从何处着手的问题。无论是传统的结构型数据,还是现在的包含大量非结构型数据的大数据,要对它们进行分析都必须找到正确的切入口,即分析的基本元素是什么,或者说需要测度什么。当然,还有如何测度的问题。然后,才能进行分组、综合和构建模型,否则大数据分析不会达到人们的预期。
其次,大数据之所以催生数据科学,就是为了通过多学科交叉融合来共同解决大数据分析中存在的问题,其中包括统计测度问题,这一点对于非结构化数据尤为突出。实际上,大数据的本质就是非结构化数据,一是体量大、比重高(超过95%),二是变化快、形式多,三是内容杂、不确定。通过各种社交网络、自媒体、富媒体,以及人机对话和机器感应记录等产生的各种非结构化数据,例如各种文字、各种表情符号、各种声音、各种图像,到底表示什么?综合在一起能体现什么规律?如何综合各种信息?存在着大量有待研究的问题。其实,文字的长短、用词、表达形式(叙述式、议论式、散文式、诗歌式,等)甚至字体大小与颜色,表情类型与偏好,声音高低、频率与情绪,图像颜色等等,都是有特定意义的,即在特定环境条件下的反应。所以,一句话或一段声音的意义并非文字本身的意思,一个表情符号的意义并非符号表征的意思,一个图像的意义并非图像内容与色彩本身的意思,因为背后有太多的未知。人们浏览检索各种信息的习惯、收看与回复邮件等信息的习惯、参与信息网络的习惯、购物习惯与支付习惯等等,也是如此。更何况,同样的网络词汇在不同的时间代表着不同的语义。这背后隐藏着的是人们的行为与社会关系,既具有个性又具有共性,极其复杂。所以对这样的数据进行分析,首先绝非是计算问题,也不是用什么模型问题,而首先是从何处着手、如何选取关键词、如何选定关联词、可以用什么样的指标来综合、可以用什么样的表式来表现等问题,一句话就是统计测度问题。非结构化数据的统计测度将主要是定义测度,这些问题不解决,分析模型也是难以构建的,或者难以得出令人信服的结论。
例如,关于《红楼梦》前80回与后40回是否同一作者的争论,韦博成[10]进行了综合性的比较研究并提出了自己的观点,他指出已有美国威斯康辛大学华裔学者陈炳藻教授(1980)[11]、我国华东师范大学陈大康教授(1987年)[12]和复旦大学李贤平教授(1987年)[13]等学者从统计学的角度进行过专门的研究,但却得出了不同的结论:陈炳藻教授认为前80回与后40回均是曹雪芹所著;陈大康教授认为前80回与后40回为不同人所著;李贤平教授认为前80回是曹雪芹根据《石头记》增删而成,后40回是曹雪芹亲友搜集整理原稿加工补写而成。此外,还有其他一些学者进行过类似的研究,也有一些不同的结论。为什么都通过提取关联词和统计的方法却得出不同的结论?原因就在于用以分析的关联词不同,即统计测度的切入点不同,当然也有统计方法上的差异,但前者是根本。至少存在几个统计测度上的问题:提取单一维度的关联词还是多维度的关联词?提取什么类型的关联词(例如:关联词是名词、形容词还是动词;是花卉、树木、饮食、医药还是诗词)?这些关联词可以综合为什么样的指标?等等。由此可见,原始统计测度代表着数据分析的方向。
相比《红楼梦》,大数据分析要复杂得多、困难得多。所以,数据科学除了需要数学、统计学、计算机科学与技术、人工智能等学科的交叉融合外,还需要与行为科学、语言学、社会学、经济学等学科相结合,以便能很好地解决作为数据分析之前提的统计测度问题。
第三,数据科学将进一步拓展统计测度的边界,并提出更高的要求。伴随着人类认识世界的范围的不断拓展,统计测度的范围也不断扩大,从自然现象统计测度到人口现象、经济现象统计测度,再到社会现象、环境现象、政治现象等统计测度,几乎已经渗透到了所有可以想象到的领域。相应地,统计数据分析也从少量数据的分析进入到了大数据分析。大数据的复杂性、不确定性和涌现性(王元卓等,2013)[14],意味着统计测度的内容大大增加,原来一些不能测度的数据被纳入到了统计测度的范围,按照邱东教授的说法就是统计测度的边界大大扩展了。统计测度边界的扩大,必须以统计测度能力的提升为前提,即要求统计学借助现代信息技术进一步提升处理和分析数据的能力———对大数据“化繁为简”、“变厚为薄”的能力,这就必须以科学准确的大数据统计测度为前提,既改变统计思维,又创新统计分析方法,其中就包括统计测度思维、统计测度方法与统计测度标准。面对大量繁杂的数据,如果没有更好的统计测度思路与方法,包括个体标志定义方法、最小数据细胞分组与聚类方法、关联词含义的时间影响计量方法、定性测度指标筛选方法、再测度路径与方法、大数据统计测度评价标准等,那么统计学在数据科学发展过程中就难以发挥应有的作用,数据科学也将裹足不前。这就是统计学迈向数据科学的重要挑战之一。
综上所述,统计测度的基础性问题从统计学延伸到了数据科学,是两者的共同基础,并且对于数据科学而言显得更为重要。大数据的复杂性、不确定性和涌现性导致了统计测度的难度猛增,亟需建立面向大数据分析的统计测度理论与方法。要通过研究大数据的复杂性、不确定性和涌现性特征的基本因素,以及这些因素之间的内在联系、外在指标和测度方法,进而研究基于先进计算技术的大数据度量模型,构建寻找面向计算的数据内核或者数据边界的基本方法。总之,建立有效易行的数据表示方法,即科学的统计测度方法,是数据科学必须解决的基础问题之一。
四、创新与完善大数据统计测度方法
如前所述,统计学研究对象已经从结构化数据延伸到了包括非结构化数据在内的一切数据,统计测度边界得到了大大的扩展。按照邱东教授[7]曾经引用过的海德格尔的话:“界限并不表示某一事物的发展到此为止,而是像希腊人所认知的那样,界限是某种事物开始展现的地方”,预示着统计学在数据科学发展阶段的新起点已经展现在我们面前。新的统计测度边界催生统计测度方法的创新,统计测度方法的创新促进统计测度边界的拓展,两者相辅相成,共同推动统计学与数据科学的发展。为此,我们要系统梳理统计测度方法的发展历程,面对大数据提出的新挑战,大胆探索统计测度的新思路、新理论和新方法,为数据科学奠定坚实的统计学基础。为此提出如下几点建议:
首先,要紧密结合现象的本质去探求更科学的统计测度方法。本质决定一切,既然统计测度的目的是获得客观反映现象本质的数据,那么深入到现象本质、认识和掌握现象的本质,是科学统计测度的关键,也是探求新的统计方法的出发点。换句话说,科学的统计测度方法能够体现出数据的真正意义。例如,要探求社交网络数据的统计分析和测度方法,就必须了解社交网络的产生背景、构成要素、表现形式与基本特征,既要研究它的共性问题,又要研究它的个性问题与差异性,同时还要研究它的变化趋势。只有这样,才能掌握社交网络数据的构成要件或元素,才能建立起科学的、能有效体现社交网络数据意义的统计测度方法。再如,要分析研究电子商务数据,也必须先弄清楚什么是电子商务,尤其是弄清楚它与传统的商业模式有什么不同(包括物流、资金流与信息流)、有哪些新生事物(包括时空特征、法律监管)等等,否则统计测度无从下手或者抓不住要害。同时,作为一个新的研究领域,数据科学的理论基础将与计算机科学、统计学、人工智能、数学、社会科学等有关,离不开对相关学科领域知识与研究方法的借鉴,因此对相关领域的知识与研究方法的学习十分重要。否则,就会严重扭曲统计测度方法,胡乱设置测度标志,这需要引起高度关注。
其次,要紧密结合大数据的特点去创新统计测度方法。大数据的特点是复杂性、不确定性和涌现性并存,构成了多维的数据空间,里面蕴藏着丰富的信息资源,这是传统的统计数据不可比拟的。那么该从何处进入这样的数据空间?怎么进去?又怎么出来?这归根结底还是统计测度方法问题。因此,在开展大数据分析之前,首先要研究大数据的基础性问题,包括大数据的内在机理(包括大数据的演化与传播机制、生命周期),数据科学与社会学、经济学、行为科学等之间的互动机制,以及大数据的结构与效能的规律性等等,为创新统计测度方法提供导向。本文认为,再复杂的数据也有共性,再不确定的数据也有规律,再涌现的数据也有轨迹。网络大数据背后的网络平均路径长度、度分布、聚集系数、核数、介数等具有共性的特征与参数,是开展复杂网络数据分析的基础(李国杰、程学旗,2012)[15];大数据在时空维度上的分布形式、内在结构、动态变化和相关联的规律,是找到大数据分析切入口、进而简化大数据表征的前提;大数据的涌现性轨迹(包括模式涌现性、行为涌现性和智慧涌现性),是研究更多的社会网络模型和理解网络瓦解失效原因,理解人们网络行为涌现特征(例如人们发邮件数量的时间分布特征),以及探求大量自发个体语义融合连接形成有特定意义的通用语义之过程的路径(靳小龙等,2013)[16]。也就是说,这些共性、规律和轨迹就是统计测度的主要依据,也是重点内容。发展和创新能够准确发现大数据的共性、规律和轨迹的定量方法,其实就是发展和创新大数据统计测度方法。
第三,要紧密结合现代信息技术以完善统计测度方法。复杂、多变和不断涌现的大数据,不仅需要借助现代信息技术(包括硬件与软件)来解决极其复杂的分析计算问题,也需要利用现代信息技术来解决其繁杂多样的统计测度问题。对于大数据,不论是原始统计测度还是再测度,其复杂性或难度都不是传统的结构化数据所能相提并论的,哪怕是基本的关联词计数、分类与汇总,其工作量之大也超乎想象,不借用现代信息技术几乎是不可能完成的。而事实上,有些统计测度的内容与方法本身也是以数据处理能力的提升为前提的。可以说,脱离现代信息技术,人们难以承受大数据的统计测度与分析任务;要把统计测度思想变为可实现的统计测度方法,必须借助现代信息技术。为此,要充分利用各种信息技术和手段,把统计测度与数据清洗相结合、与数据分析模型相结合、与计算方法相结合,努力建立融自动搜索统计测度、动态演化统计测度和自主优选统计测度为一体的大数据统计测度方法体系。
关键词:统计学;教育改革;大数据
一、引言
最早提出大数据时代到来的机构是全球知名的麦肯锡咨询公司,该公司在一份研究报告中指出:“数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素,人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来”。
大数据是随着互联网技术的广泛应用带来的数据量和数据类型激增而衍生出来的一种现象,但大数据一词不仅指规模大、种类多的数据集,还包括对这种数据集进行采集、处理与分析以提取有价值信息和直接创造价值的技术构架和技术过程。大数据的第一个特征是数据量巨大。截止到2012年,数据量已经从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)级别。第二个特征是数据类型繁多、异构性突出,包括网络日志、音频、视频、图片、地理位置信息等等。第三个特征是数据价值密度较低,数据中存在大量重复性和无价值性信息或噪声。如何通过强大的计算技术和统计分析等方法迅速完成数据的价值提纯,是大数据时代亟待解决的难题。第四个特征是处理速度快、时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。
目前,不同的学科领域对大数据概念有着不尽相同的解释,但各种解释中大致可以从两个方面去理解。首先,大数据概念体现在数据量的巨大、种类的众多及产生速度的飞快,同时产生的数据集极有可能包含着各种半结构化和非结构化数据;其次,大数据概念还体现在对数据进行处理的手段和流程方面,由于数据量的庞大和类型复杂,利用常规的统计软件已经无法对当今的数据进行及时有效的存储、分析及处理。因此,所谓的大数据并不是单纯指数据流量的巨大,还指其结构的复杂和种类的多样,在数据处理和分析上需要采用高端计算平台或高级统计软件,以及海量数据中存在着可挖掘的潜在的大量价值信息与知识。
近年来,随着高速计算机的应用、信息技术的快速发展,特别是云计算技术的发展,使大数据的存储和分析技术得到迅速发展,目前的核心技术有MapReduce、GFS、BigTable、Hadoop,以及数据可视化等。在数据搜集上,可方便地通过在线互联网数据库获取二手数据或一手实时数据。在数据分析上,传统统计学方法采取的是基于统计模型的样本数据分析,而大数据分析技术则是通过高端计算平台,对大数据中的信息进行挖掘。
统计学作为对数据进行处理和分析的科学,必然受到大数据的影响。在大数据时代,统计学教育必须与时俱进,跟上时展步伐。近年来,有不少文献讨论了大数据环境下我国统计学教育的改革问题(例如[1]-[5]),本文在分析大数据时代特征的前提下,进一步讨论我国统计学教育的现状与挑战、统计学教育改革的内容、方法、借鉴和适应时代要求的变革问题。
二、统计学教育的现状与挑战
2013年,教育部对我国统计学专业设置进行一次新的调整,将原来的既可授予理学学位,也可授予经济学学位的统计学专业划分为统计学、应用统计学和经济统计学三个本科专业[6]。根据教育部高等学校统计类专业教学指导委员会2013年11月公布的数据,当时全国有194所高校开设了统计学专业,156所高校开设了应用统计学专业,164所高校开设了经济统计学专业[6]。目前,全国开设这三个统计学专业的高校个数和在校学生人数与2013年相比都有不少的增加。
面对大数据时代,我们目前的统计学教育无论在培养目标和教学内容上,还是在教育方式和人才培养模式上,都存在着亟待解决的挑战性问题。例如,在专业培养目标和人才培养过程中,我们比较重视课程层面上的评价,比较轻视专业层面上的整体评价,缺乏对学生综合能力的反馈机制。
关于教学内容,目前三个统计学专业在统计理论和应用统计两个方面有不同的侧重。统计理论主要包括:抽样理论、实验设计、估汁理论、假设险验、决策理论、贝叶斯统计、半参数和非参数统计、序贯分析、多元统计分析、时间序列分析、小样本理论和大样本理论等。在数据分析中,现今的统计方法基本以结构化数据为主要处理对象,而对非结构化和半结构化数据的分析和工具涉及较少。因此,现今统计学课程及内容已不能满足从事非结构型和半结构型的大数据研究和商业应用对人才培养的需要,必须进行必要的改革。
对于教育方式,鉴于大数据时代要求,统计分析人员需要具备较高的数学和现代统计学基础,具有较高的软件操作能力,掌握一定的大数据收集、整理、分析、处理和挖掘数据的技能。日本学者城田真琴认为:“数据科学家要有计算机科学专业背景,数学、统计方面的素养和使用数据挖掘软件的技能,善于利用数据可视化的手法展现晦涩难懂的信息,而且具备相应的专业知识、眼界和视野,具有适应社会发展和创造价值的能力”。现今的统计学教育方式还不能很好适应大数据时代数据科学人才培养需要,必须进行必要及时的调整和变革。
对人才培养模式,大数据时代不仅要求培养具有数据处理和分析所需的基本素质与技能,更重视培养从海量数据中发现和挖掘价值信息、把握市场机遇、创造利润的潜在能力。面对大数据时代的诸多挑战,现代统计技术、数据挖掘方法、计算机信息技术、软件工具和理念的日新月异,培养统计人才的教育模式也需要相应变化,统计学教育只有与时俱进,主动做出全面的调整和变革才能适应新时代知识进步和激烈人才市场竞争的需要,积极迎接大数据时代的挑战。
大数据时代对统计学教师有更高的要求,统计学教师需要与时俱进,跟上时代步伐。随着互联网、物联网、云计算等信息技术的发展,对数据的分析和处理的技术也随之要求更高,统计学教师固有的知识体系已不能满足培养现代统计人才的需要,必须进一步深化和更新原有的统计学理论知识,而且还需要学习掌握计算机技术、互联网、数据库和信息科学等有关知识和技术,同时还要熟悉处理非结构型和半结构型数据的知识和技能,以适应现代统计学教育对教师的知识结构和基本素质的要求。
大数据时代对统计专业的学生也提出了更高的要求,他们不仅需要掌握现代统计理论、统计方法和专业统计软件,还要学会如何分析、处理来自互联网或各种实际问题中的海量数据,如何利用统计软件和互联网技术进行数据操作,如何借助软件技术和统计准则判断数据质量,如何进行模型选择和评价模型方法的有效性,如何准确清晰地呈现统计分析结果和结论,等等。
2014年11月,美国统计学会了统计学本科专业指导性教学纲要 [7],该教学纲要对统计学专业提出四个方面的要求:(1)具有扎实的数学和统计学基础、强大的统计计算和编程能力,熟练使用统计软件和数据库;(2)分析来自现实问题的真实数据,真实数据是统计专业教育的重要组成部分;(3)掌握多样化的统计模型方法;(4)具有通过语言、图表和动画等方式解释数据分析结果的能力。美国是统计学教育和人才培养最先进的国家之一,该指导性教学纲要代表着美国统计学专业培养人才的基本要求和发展方向,对我国统计教育的改革具有重要的参考价值。以该指导性教学纲要为参考依据,对照我国目前的统计学本科专业教育,无论是在培养目标和课程设置方面,还是在教学内容和教学方法方面,都存在着亟待解决的挑战性问题。
三、统计学教育的改革
大数据时代的统计学教育不仅是各种统计方法、数据挖掘方法和信息技术手段的延续或发展,更主要的是这些方法的集成应用和在实际数据分析中的真实体验。过去,企业数据库价格昂贵,在统计学教育的教学案例或实验课教学中,很少采用真实和海量的数据库资源,基本都是采用过时或虚拟的数据。今天,像百度大数据引擎这样的数据库的逐步对外开放,将有助于开展“线上大数据统计实验”教学。为了适应大数据时代要求,有必要利用网络资源以及各种数据处理软件,搭建线上大数据分析实验教学平台,全面开展大数据统计实验教学的改革。实际上,借助大数据分析平台,本科阶段的统计学教育就可以融人联机分析和数据的可视化教学。其次,要时刻关注大数据分析理论的进展,及时将新理论新方法融入课堂教学内容。
需要指出的是,在大数据时代,经典统计理论和方法并没有过时,但需要进行改进和进一步发展。这是因为,网上采集的巨型数据集往往存在大量的重复性和无价值数据信息,使得大数据价值密度降低。在对这些数据进行分析处理之前往往需要通过去噪、分层、截断、聚类等方法的预处理,将其变成便于进行分析处理的小数据,继而借助于经典统计方法进行分析和处理。因而在大数据时代仍然需要采用传统统计学的小样本理论和方法。所以,即便是在大数据时代,经典统计方法仍然是进行统计分析的基石,其核心地位不可动摇。所以,在大数据时代仍然要强化统计学的基本理论和方法,尤其是在长期发展和实践应用中经过验证的、成熟有效的经典和现代统计方法,在大数据时代仍然没有过时,但需要结合大数据分析的需要对经典统计方法进行必要的发展和改进。
大数据科学需要统计学与数学、计算机等学科的结合。亚马逊大数据科学家John Rauser 认为:“数据科学家是统计学家和计算机工程师的结合体”。为了满足大数据时代的要求,统计学专业的课程设置需要进行必要的调整。应根据新时代人才培养的要求,增设与大数据前沿领域发展相关的课程,如计算机网络和大数据相关的软件应用,同时要加大实验课和社会实践课的比重,引导学生理解和掌握大数据概念、理论、技术和方法,培养其运用大数据的相关分析工具解决实际问题的能力。对于理论课程,除基本统计理论外,还应开设一些较为现代和深入的课程,如现代贝叶斯方法、神经网络、数据挖掘、应用随机过程论等。另外,还应开设与大数据分析相关的关联规则、决策树、机器学习、支持向量机等课程。
为了培养与时代适应的统计学人才,统计学专业教师应不断更新自身的知识结构和价值观念,改变认识数据、收集数据和分析数据的思维,主动学习和补充互联网、现代数据分析技术、数据库和数据挖掘技术,使自己的知识体系不断更新和提升,跟上时展的步伐。
在大数据时代,要注意培养学生适应社会的能力。统计专业人才培养模式应以提高本专业学生数据分析方面的能力,开阔他们的视野,培养其适应社会的能力。应积极引导学生进入实训场所动手操作和锻炼,尝试以企事业单位的财政、金融、保险、统计、咨询和信息公司等部门为主构建专业性教育实践基地。鼓励学生到大数据相关的机构部门、产业园区和企业中去调查研究和实践。此外,统计专业应积极同其他专业进行合作,联合培养适应新时代要求的数据分析人才。鉴于大数据对数据分析人员在计算机技术、行业认知、业务知识、数据分析工具和方法的要求提高,统计学科应主动与计算机、经济学、管理学等相关学科合作,培养学生的计算机能力、专业素质和业务修养。
“它山之石可以攻玉”,关于统计学专业的课程设置,可以参考和借鉴美国统计学会公布的统计学本科专业指导性教学纲要。根据该教学纲要,统计专业的课程设置应该涵盖五个模块[7]:(1)统计方法与统计理论。建立统计模型并对模型的输出结果进行评价,熟悉统计推断,能够从数据分析中得出恰当的结论。(2)数据操作和统计计算。熟练使用一款专业统计软件进行探索性数据分析,发现和清洗数据中的错误记录,具有编程能力和算法思维,可以进行各种数据操作,还应掌握统计计算技术,能够进行模拟研究。(3)数学基础。熟练掌握微积分、线性代数、矩阵论、概率论和数理统计的基础知识。(4)实践训练和表达能力。具有良好的表达和交流能力,善于通过图示和动画等听众易于理解的方式展示分析结论,并且具有团队合作精神和项目领导能力。(5)特定领域的知识。掌握特定应用领域的知识,并用统计学特有的思维方法来分析和解决特定领域的实际问题。
大数据时代是以数据为中心的时代,统计学专业的教育改革必须适应这个时代的要求。统计数据分析中软件应用能力至关重要。在众多统计软件中推荐使用R和SAS软件,因为R是免费开源软件,其统计建模、统计计算和可视化功能强大,更新迅速,是最新统计方法的主要平台,非常有利于培养学生的编程能力和知识更新能力,而SAS软件被很多公司用于数据管理和数据分析,在实际应用领域具有长期而深远的影响,是数据分析不可或缺的专业统计软件。当然,教学中也可以尝试使用其他专业统计软件,例如经济统计专业学生也可使用SPSS软件,但最好会使用SAS或R软件。在加强软件使用和编程能力的基础上,应加强学生统计计算和统计模拟能力的培养。在大数据时代,强调统计计算的重要性是大势所趋。统计模拟技术是伴随着高速计算机和信息技术的快速发展而广泛应用的现代技术,可用来解决传统学科领域中无法解决的问题。例如,在计算技术飞速发展的今天,贝叶斯统计方法过去曾经面临的计算瓶颈正在逐渐消失,基于马尔科夫链蒙特卡洛(MCMC)技术的统计模拟方法在数据分析中的强大威力正在日益显现[8]。
参考文献:
[1] 刘春杰,大数据时代对当代统计学教育的挑战,统计与决策,2015年,第8期。
[2] 孟生旺,袁卫,大数据时代的统计教育,统计研究,2015年,第32卷4期。
[3] 葛虹,韩伟,大数据时代统计教育变革的SWOT分析与发展策略,统计与决策,2015年,第4期。
[4] 张海波,黄世祥,统计学专业学生大数据分析能力的培养方式选择,统计与决策,2014年,第24期。
[5] 李卫东,大数据对统计学科发展的影响,统计与决策,2014年,第13.期。
[6] 教育部高等学校统计类专业教学指导委员会.统计学专业教学单位.http:///category/信息公开/教学单位,2013-11-15.
【论文摘要】所谓统计思想,就是在统计实际工作、统计学理论的应用研究中,必须遵循的基本理念和指导思想。统计思想主要包括均值思想、变异思想、估计思想、相关思想、拟合思想、检验思想等思想。文章通过对统计思想的阐释,提出关于统计思想认识的三点思考。
一、关于统计学
统计学是一门实质性的社会科学,既研究社会生活的客观规律,也研究统计方法。统计学是继承和发展基础统计的理论成果,坚持统计学的社会科学性质,使统计理论研究更接近统计工作实际,在国家和社会得到广泛发展。
二、统计学中的几种统计思想
2.1统计思想的形成
统计思想不是天然形成的,需要经历统计观念、统计意识、统计理念等阶段。统计思想是根据人类社会需求的变化而开展各种统计实践、统计理论研究与概括,才能逐步形成系统的统计思想。
2.2比较常用的几种统计思想
所谓统计思想,就是统计实际工作、统计学理论及应用研究中必须遵循的基本理念和指导思想。统计思想主要包括:均值思想、变异思想、估计思想、相关思想、拟合思想、检验思想。现分述如下:
2.2.1均值思想
均值是对所要研究对象的简明而重要的代表。均值概念几乎涉及所有统计学理论,是统计学的基本思想。均值思想也要求从总体上看问题,但要求观察其一般发展趋势,避免个别偶然现象的干扰,故也体现了总体观。
2.2.2变异思想
统计研究同类现象的总体特征,它的前提则是总体各单位的特征存在着差异。统计方法就是要认识事物数量方面的差异。统计学反映变异情况较基本的概念是方差,是表示“变异”的“一般水平”的概念。平均与变异都是对同类事物特征的抽象和宏观度量。
2.2.3估计思想
估计以样本推测总体,是对同类事物的由此及彼式的认识方法。使用估计方法有一个预设:样本与总体具有相同的性质。样本才能代表总体。但样本的代表性受偶然因素影响,在估计理论对置信程度的测量就是保持逻辑严谨的必要步骤。
2.2.4相关思想
事物是普遍联系的,在变化中,经常出现一些事物相随共变或相随共现的情况,总体又是由许多个别事务所组成,这些个别事物是相互关联的,而我们所研究的事物总体又是在同质性的基础上形成。因而,总体中的个体之间、这一总体与另一总体之间总是相互关联的。
2.2.5拟合思想
拟合是对不同类型事物之间关系之表象的抽象。任何一个单一的关系必须依赖其他关系而存在,所有实际事物的关系都表现得非常复杂,这种方法就是对规律或趋势的拟合。拟合的成果是模型,反映一般趋势。趋势表达的是“事物和关系的变化过程在数量上所体现的模式和基于此而预示的可能性”。
2.2.6检验思想
统计方法总是归纳性的,其结论永远带有一定的或然性,基于局部特征和规律所推广出来的判断不可能完全可信,检验过程就是利用样本的实际资料来检验事先对总体某些数量特征的假设是否可信。
2.3统计思想的特点
作为一门应用统计学,它从数理统计学派汲取新的营养,并且越来越广泛的应用数学方法,联系也越来越密切,但在统计思想的体现上与通用学派相比,还有着自己的特别之处。其基本特点能从以下四个方面体现出:(1)统计思想强调方法性与应用性的统一;(2)统计思想强调科学性与艺术性的统一;(3)统计思想强调客观性与主观性的统一;(4)统计思想强调定性分析与定量分析的统一。
三、对统计思想的一些思考
3.1要更正当前存在的一些不正确的思想认识
英国著名生物学家、统计学家高尔顿曾经说过:“统计学具有处理复杂问题的非凡能力,当科学的探索者在前进的过程中荆棘载途时,唯有统计学可以帮助他们打开一条通道”。但事实并非这么简单,因为我们所面临的现实问题可能要比想象的复杂得多。此外,有些人认为方法越复杂越科学,在实际的分析研究中,喜欢简单问题复杂化,似乎这样才能显示其科学含量。其实,真正的科学是使复杂的问题简单化而不是追求复杂化。与此相关联的是,有些人认为只有推断统计才是科学,描述统计不是科学,并延伸扩大到只有数理统计是科学、社会经济统计不是科学这样的认识。这种认识是极其错误的,至少是对社会经济统计的无知。比利时数学家凯特勒不仅研究概率论,并且注重于把统计学应用于人类事物,试图把统计学创建成改良社会的一种工具。经济学和人口统计学中的某些近代概念,如GNP、人口增长率等等,均是凯特勒及其弟子们的遗产。
3.2要不断拓展统计思维方式
统计学是以归纳推理或归纳思维为主要的逻辑方式的。众所周知,逻辑推理方式主要有两种:归纳推理和演绎推理。归纳推理是基于观测到的数据信息(尤其是不完全甚至劣质的信息)去产生新的知识或去验证一个假设,即以所掌握的数据信息为依据,归纳得出具有一般特征的结论。归纳推理是要在数据信息的基础上透过偶然性去发现必然性。演绎推理是对统计认识能力的深化,尤其是在根据必然性去研究和认识偶然性方面,具有很大的作用。
3.3深化对数据分析的认识
任何统计研究都离不开数据分析。因为这是得到统计研究结论的必要环节。虽然统计分析的形式随时代的推移而变化着,但是“从数据中提取一切信息”或者“归纳和揭示”作为统计分析的目的却一直没有改变。对统计数据分析的原因有以下三个方面:一是基于同样的数据会得出不同、甚至相反的分析结论;二是我们所面对的分析数据有时是缺损的或存在不真实性;三是我们所面对的分析数据有时则又是海量的,让人无从下手。虽然统计数据分析已经经历了描述性数据分析(DDA)、推断性数据分析(IDA)和探索性数据分析(EDA)等阶段,分析的方法技术已经有了质的飞跃,但与人类不断提高的要求相比,存在的问题似乎也越来越多。所以,我们必须深化对数据分析的认识,围绕“准确解答特定问题并且从数据中获取一切有效信息”这一目的,不断拓展研究思路,继续开展数据分析方法技术的研究。
参考文献:
[1]陈福贵.统计思想雏议[J]北京统计,2004,(05).
[2]庞有贵.统计工作及统计思想[J]科技情报开发与经济,2004,(03).
【论文摘要】所谓统计思想,就是在统计实际工作、统计学理论的应用研究中,必须遵循的基本理念和指导思想。统计思想主要包括均值思想、变异思想、估计思想、相关思想、拟合思想、检验思想等思想。文章通过对统计思想的阐释,提出关于统计思想认识的三点思考。
一、关于统计学
统计学是一门实质性的社会科学,既研究社会生活的客观规律,也研究统计方法。统计学是继承和发展基础统计的理论成果,坚持统计学的社会科学性质,使统计理论研究更接近统计工作实际,在国家和社会得到广泛发展。
二、统计学中的几种统计思想
2.1统计思想的形成
统计思想不是天然形成的,需要经历统计观念、统计意识、统计理念等阶段。统计思想是根据人类社会需求的变化而开展各种统计实践、统计理论研究与概括,才能逐步形成系统的统计思想。
2.2比较常用的几种统计思想
所谓统计思想,就是统计实际工作、统计学理论及应用研究中必须遵循的基本理念和指导思想。统计思想主要包括:均值思想、变异思想、估计思想、相关思想、拟合思想、检验思想。现分述如下:
2.2.1均值思想
均值是对所要研究对象的简明而重要的代表。均值概念几乎涉及所有统计学理论,是统计学的基本思想。均值思想也要求从总体上看问题,但要求观察其一般发展趋势,避免个别偶然现象的干扰,故也体现了总体观。
2.2.2变异思想
统计研究同类现象的总体特征,它的前提则是总体各单位的特征存在着差异。统计方法就是要认识事物数量方面的差异。统计学反映变异情况较基本的概念是方差,是表示“变异”的“一般水平”的概念。平均与变异都是对同类事物特征的抽象和宏观度量。
2.2.3估计思想
估计以样本推测总体,是对同类事物的由此及彼式的认识方法。使用估计方法有一个预设:样本与总体具有相同的性质。样本才能代表总体。但样本的代表性受偶然因素影响,在估计理论对置信程度的测量就是保持逻辑严谨的必要步骤。
2.2.4相关思想
事物是普遍联系的,在变化中,经常出现一些事物相随共变或相随共现的情况,总体又是由许多个别事务所组成,这些个别事物是相互关联的,而我们所研究的事物总体又是在同质性的基础上形成。因而,总体中的个体之间、这一总体与另一总体之间总是相互关联的。
2.2.5拟合思想
拟合是对不同类型事物之间关系之表象的抽象。任何一个单一的关系必须依赖其他关系而存在,所有实际事物的关系都表现得非常复杂,这种方法就是对规律或趋势的拟合。拟合的成果是模型,反映一般趋势。趋势表达的是“事物和关系的变化过程在数量上所体现的模式和基于此而预示的可能性”。
2.2.6检验思想
统计方法总是归纳性的,其结论永远带有一定的或然性,基于局部特征和规律所推广出来的判断不可能完全可信,检验过程就是利用样本的实际资料来检验事先对总体某些数量特征的假设是否可信。
2.3统计思想的特点
作为一门应用统计学,它从数理统计学派汲取新的营养,并且越来越广泛的应用数学方法,联系也越来越密切,但在统计思想的体现上与通用学派相比,还有着自己的特别之处。其基本特点能从以下四个方面体现出:(1)统计思想强调方法性与应用性的统一;(2)统计思想强调科学性与艺术性的统一;(3)统计思想强调客观性与主观性的统一;(4)统计思想强调定性分析与定量分析的统一。
三、对统计思想的一些思考
3.1要更正当前存在的一些不正确的思想认识
英国著名生物学家、统计学家高尔顿曾经说过:“统计学具有处理复杂问题的非凡能力,当科学的探索者在前进的过程中荆棘载途时,唯有统计学可以帮助他们打开一条通道”。但事实并非这么简单,因为我们所面临的现实问题可能要比想象的复杂得多。此外,有些人认为方法越复杂越科学,在实际的分析研究中,喜欢简单问题复杂化,似乎这样才能显示其科学含量。其实,真正的科学是使复杂的问题简单化而不是追求复杂化。与此相关联的是,有些人认为只有推断统计才是科学,描述统计不是科学,并延伸扩大到只有数理统计是科学、社会经济统计不是科学这样的认识。这种认识是极其错误的,至少是对社会经济统计的无知。比利时数学家凯特勒不仅研究概率论,并且注重于把统计学应用于人类事物,试图把统计学创建成改良社会的一种工具。经济学和人口统计学中的某些近代概念,如GNP、人口增长率等等,均是凯特勒及其弟子们的遗产。
3.2要不断拓展统计思维方式
统计学是以归纳推理或归纳思维为主要的逻辑方式的。众所周知,逻辑推理方式主要有两种:归纳推理和演绎推理。归纳推理是基于观测到的数据信息(尤其是不完全甚至劣质的信息)去产生新的知识或去验证一个假设,即以所掌握的数据信息为依据,归纳得出具有一般特征的结论。归纳推理是要在数据信息的基础上透过偶然性去发现必然性。演绎推理是对统计认识能力的深化,尤其是在根据必然性去研究和认识偶然性方面,具有很大的作用。
3.3深化对数据分析的认识
任何统计研究都离不开数据分析。因为这是得到统计研究结论的必要环节。虽然统计分析的形式随时代的推移而变化着,但是“从数据中提取一切信息”或者“归纳和揭示”作为统计分析的目的却一直没有改变。对统计数据分析的原因有以下三个方面:一是基于同样的数据会得出不同、甚至相反的分析结论;二是我们所面对的分析数据有时是缺损的或存在不真实性;三是我们所面对的分析数据有时则又是海量的,让人无从下手。虽然统计数据分析已经经历了描述性数据分析(DDA)、推断性数据分析(IDA)和探索性数据分析(EDA)等阶段,分析的方法技术已经有了质的飞跃,但与人类不断提高的要求相比,存在的问题似乎也越来越多。所以,我们必须深化对数据分析的认识,围绕“准确解答特定问题并且从数据中获取一切有效信息”这一目的,不断拓展研究思路,继续开展数据分析方法技术的研究。
参考文献:
[1]陈福贵.统计思想雏议[J]北京统计,2004,(05).
[2]庞有贵.统计工作及统计思想[J]科技情报开发与经济,2004,(03).
【关键词】统计学;统计思想;认识
1关于统计学
统计学是一门实质性的社会科学,既研究社会生活的客观规律,也研究统计方法。统计学是继承和发展基础统计的理论成果,坚持统计学的社会科学性质,使统计理论研究更接近统计工作实际,在国家和社会得到广泛发展。
2 统计学中的几种统计思想
2.1 统计思想的形成
统计思想不是天然形成的,需要经历统计观念、统计意识、统计理念等阶段。统计思想是根据人类社会需求的变化而开展各种统计实践、统计理论研究与概括,才能逐步形成系统的统计思想。
2.2 比较常用的几种统计思想
所谓统计思想,就是统计实际工作、统计学理论及应用研究中必须遵循的基本理念和指导思想。统计思想主要包括:均值思想、变异思想、估计思想、相关思想、拟合思想、检验思想。现分述如下:
2.2.1 均值思想
均值是对所要研究对象的简明而重要的代表。均值概念几乎涉及所有统计学理论,是统计学的基本思想。均值思想也要求从总体上看问题,但要求观察其一般发展趋势,避免个别偶然现象的干扰,故也体现了总体观。
2.2.2 变异思想
统计研究同类现象的总体特征,它的前提则是总体各单位的特征存在着差异。统计方法就是要认识事物数量方面的差异。统计学反映变异情况较基本的概念是方差,是表示“变异”的“一般水平”的概念。平均与变异都是对同类事物特征的抽象和宏观度量。
2.2.3 估计思想
估计以样本推测总体,是对同类事物的由此及彼式的认识方法。使用估计方法有一个预设:样本与总体具有相同的性质。样本才能代表总体。但样本的代表性受偶然因素影响,在估计理论对置信程度的测量就是保持逻辑严谨的必要步骤。
2.2.4 相关思想
事物是普遍联系的,在变化中,经常出现一些事物相随共变或相随共现的情况,总体又是由许多个别事务所组成,这些个别事物是相互关联的,而我们所研究的事物总体又是在同质性的基础上形成。因而,总体中的个体之间、这一总体与另一总体之间总是相互关联的。
2.2.5 拟合思想
拟合是对不同类型事物之间关系之表象的抽象。任何一个单一的关系必须依赖其他关系而存在,所有实际事物的关系都表现得非常复杂,这种方法就是对规律或趋势的拟合。拟合的成果是模型,反映一般趋势。趋势表达的是“事物和关系的变化过程在数量上所体现的模式和基于此而预示的可能性”。
2.2.6 检验思想
统计方法总是归纳性的,其结论永远带有一定的或然性,基于局部特征和规律所推广出来的判断不可能完全可信,检验过程就是利用样本的实际资料来检验事先对总体某些数量特征的假设是否可信。
2.3 统计思想的特点
作为一门应用统计学,它从数理统计学派汲取新的营养,并且越来越广泛的应用数学方法,联系也越来越密切,但在统计思想的体现上与通用学派相比,还有着自己的特别之处。其基本特点能从以下四个方面体现出:(1)统计思想强调方法性与应用性的统一;(2)统计思想强调科学性与艺术性的统一;(3)统计思想强调客观性与主观性的统一;(4)统计思想强调定性分析与定量分析的统一。
3 对统计思想的一些思考
3.1 要更正当前存在的一些不正确的思想认识
英国著名生物学家、统计学家高尔顿曾经说过:“统计学具有处理复杂问题的非凡能力,当科学的探索者在前进的过程中荆棘载途时,唯有统计学可以帮助他们打开一条通道”。但事实并非这么简单,因为我们所面临的现实问题可能要比想象的复杂得多。此外,有些人认为方法越复杂越科学,在实际的分析研究中,喜欢简单问题复杂化,似乎这样才能显示其科学含量。其实,真正的科学是使复杂的问题简单化而不是追求复杂化。与此相关联的是,有些人认为只有推断统计才是科学,描述统计不是科学,并延伸扩大到只有数理统计是科学、社会经济统计不是科学这样的认识。这种认识是极其错误的,至少是对社会经济统计的无知。比利时数学家凯特勒不仅研究概率论,并且注重于把统计学应用于人类事物,试图把统计学创建成改良社会的一种工具。经济学和人口统计学中的某些近代概念,如gnp、人口增长率等等,均是凯特勒及其弟子们的遗产。
3.2要不断拓展统计思维方式
统计学是以归纳推理或归纳思维为主要的逻辑方式的。众所周知,逻辑推理方式主要有两种:归纳推理和演绎推理。归纳推理是基于观测到的数据信息(尤其是不完全甚至劣质的信息)去产生新的知识或去验证一个假设,即以所掌握的数据信息为依据,归纳得出具有一般特征的结论。归纳推理是要在数据信息的基础上透过偶然性去发现必然性。演绎推理是对统计认识能力的深化,尤其是在根据必然性去研究和认识偶然性方面,具有很大的作用。
3.3深化对数据分析的认识
任何统计研究都离不开数据分析。因为这是得到统计研究结论的必要环节。虽然统计分析的形式随时代的推移而变化着,但是“从数据中提取一切信息”或者“归纳和揭示”作为统计分析的目的却一直没有改变。对统计数据分析的原因有以下三个方面:一是基于同样的数据会得出不同、甚至相反的分析结论;二是我们所面对的分析数据有时是缺损的或存在不真实性;三是我们所面对的分析数据有时则又是海量的,让人无从下手。虽然统计数据分析已经经历了描述性数据分析(dda)、推断性数据分析(ida)和探索性数据分析(eda)等阶段,分析的方法技术已经有了质的飞跃,但与人类不断提高的要求相比,存在的问题似乎也越来越多。所以,我们必须深化对数据分析的认识,围绕“准确解答特定问题并且从数据中获取一切有效信息”这一目的,不断拓展研究思路,继续开展数据分析方法技术的研究。
参考文献:
[1] 陈福贵.统计思想雏议[j]北京统计, 2004,(05) .
[2] 庞有贵.统计工作及统计思想[j]科技情报开发与经济, 2004,(03) .
[关键词]大数据;应用型人才;SPOC建设
1大数据的含义
各行各业都存在着大数据,从表面来看,它就是实时性较强、种类较多、数据量大的一个集合,但其真实含义不仅仅如此,大数据的深层含义是在众多错综杂乱的数据中,利用科学方法及时提取出有效的数据,并进行整理和分析,为政府、企业等决策者提供潜在价值的数据。因此大数据时代给《统计学》带来了更多发展机遇。这就要求《统计学》课程无论从内容上,还是教学方式、教学资源上必须进行改革和完善。
2大数据为人才培养的研究带来新的发展机遇
《统计学》是一门应用性较强的学科,它是经管类专业的专业基础课,旨在于培养学生能进行数据收集、数据整理与数据分析的专业技能;从数量的角度去认识经济变量及经济变量间的关系,掌握其发展规律,指导实践的方法论科学。大数据现代信息化扩大了统计学的应用范围,为统计学的发展带来新的机遇。
2.1有效提升数据收集的时效性、准确性、全面性
大数据时代出现前,只有当要分析某经济现象时,才会主动调查收集此方面的数据,且数据的收集只限于人工,查找一下有关的统计年鉴、权威性较强的经济报告等,遇到一些具体数据没有的,只能在文章中进行说明,用一些相关的数据去代替,所以说传统的数据收集来源存在不稳定性,且数据的可靠性较一般,这些特点对数据分析结果存在着一定程度的误差。但大数据时代的到来,给数据收集带来了发展的机遇,数据收集的时效性、准确性、全面性得到了大幅度的提升。数据的收集不再仅局限于人工,因为大数据的数据收集是建立在网民在互联网留存的信息,且数据收集更有针对性、数据质量也更为精确、数据的时效性更高以及数据更加全面。相对于传统的数据收集,它更加省时、省力和省物。
2.2数据分析结果更加准确
传统的统计分析在分析总体的规律性时,由于数据收集的有限性,只能对样本数据进行分析,使用推断性统计分析方法推断总体的规律,其结果并不能全面、总体概括数据的整体情况。大数据的出现,为数据分析提供了良好的数据基础,利用现有的多种统计软件同时进行多方面的统计分析,对分析对象的了解更全面、更准确,为统计员提供更准确的决策依据。
3人才培养存在的问题
3.1与思想教育长期相互隔离
作为一名高校教师经常会在课堂上问学生们“你喜欢现在自己的专业吗?”“你对自己的未来有什么规划?”等问题,但很多同学不喜欢自己的专业,甚至有的学生都不知道自己专业将来毕业后可以做什么,对自已的规划就更谈不上了。这些问题都显示了高校大学生的思想教育存在着问题,无法树立正确的人生观、价值观和世界观。而高校的思政教育通常开设了专门的课程,如《基本原理概论》《中国近现代史纲要》《思想和中国特色社会主义理论体系概论》《形势与政策1-4》,分别设于大学生的前四学期,作为公共基础课,总学时比例也很高,但由于大学生在学习过程中,对课程的不重视,导致这些课程没有对大学生的思想教育起到作用。高校的专业课教育虽然经过长期的改革及教师们的努力研究,专业课之间进行了有效的融合讲解,但专业课教育长期与思想教育相脱离,这种现象不利于学生的整体发展,也没有体现出公共基础课与专业课的相辅相成作用,导致人才培养方案设计的失效。所以大学生的专业课与思想教育融合是势在必行的。《统计学》课程是高校经管类专业的专业基础课,讲解如何收集数据、整理数据、分析数据、解释数据,并从数据得出规律性结论的一门学科,提高学生数据分析和解决实际问题的能力,是学生在日后工作中提供经营管理的咨询、决策、实施管理的工具。《统计学》课程一定要在授课过程中融入“课程思政”元素,发挥《统计学》课程的思政教育功能。
3.2SPOC建设不完善
2020年受肺炎疫情的影响,各大高校纷纷改为以“网上授课”为主。在疫情期间,教师为了监督学生学习,提高学习效果,不断地更新和探索新的教学方法,向学生推送网络资源,利用学习通、腾讯课堂等方式进行网络授课。线上和线下结合的教学模式已成为一种教育的发展趋势。但疫情期间,《统计学》课程线上教学出现了很多问题,导致学生的学习积极性不强。《统计学》课程的网络资源很多,但由于各大高校的学情不同,很难从现有的线上资源找到一个适合不同层次学生的网络资源,尤其对于民办高校学生来说,其知识基础薄弱、学习兴趣不浓、学习积极性较差,很难固定找到一个网络资源完全与民办高校的《统计学》教学大纲培养应用型人才相符。除了向学生推送网络资源提前预习外,课堂前、课堂中、课堂后提高学生学习的参与率、考核学生在授课后其基本理论知识的掌握程度等也是非常重要。那如何能做到这些有效的监督呢?这就需要高校针对自己的学情进行课程SPOC建设,再以其他网络资源为辅,可以有效提高学生的主动学习性。而现有的高校《统计学》课程SPOC建设还不完善,甚至有很多高校的《统计学》课程SPOC建设几乎为零。
4大数据背景下人才培养的建设
4.1与思政教育相结合的建设
(1)理论授课的要点与思政教育的融合。第一,统计学的基本理论包括统计学定义、统计学研究对象、特点、统计学的起源和发展、统计学学科的性质等内容,它与思政教育的融入点为:认识统计学的作用、统计学的发展历史,以史为鉴可知兴替。在原始社会中只是有计数活动;到了奴隶社会为了课税和征兵,开始对人口进行普查、土地和财产进行统计;到了封建社会,秦汉、唐宋、明清分别对地方田亩和户口统计、土地调查和计算、人品登记和保甲制度;到封建社会后期和资本主义社会前期,随着社会生产力发展及分工细化,直到目前已进入大数据时代。第二,统计数据的收集,数据的来源有两种:直接来源和间接来源。对于间接来源数据,融入“诚实守信,尊重他人劳动成果,为企业一些机密数据保密原则,遵守统计人员的职业道德等”思政教育;对于直接来源数据,要“实事求是,对真实数据产生敬畏,做一个有思想不盲从的统计从业人员等”思政教育。第三,统计学的分析主要有描述性统计和推断性统计。其中推断性统计分析的参数估计引入“以点概面、从局部到总体”、假设检验引入“事物的对立面”等思政教育。(2)课程思政融入于案例和实践教学中。检验学生对《统计学》课程内容掌握的程度及是否能进行应用去解决经济问题,最有效的方法就是实训教学。在实训教学中,教师以生活熟悉的案例为载体讲解统计学各种分析方法在软件的操作,将学生进行分组,利用学生的好奇心和兴趣,让学生自选一个身边感兴趣的现象作为研究。引导学生们用科学的方法进行问卷调查收集数据,对回收的数据进行细致的审核和整理,此时融入“坚持客观、严谨科学的态度等”思政教育。在整理好的数据进行数据分析时,融入“尊重数据分析的最终结果等”思政教育。在实训过程中,让每组学生对所收集的数据中某一问卷中的某一数据进行撰改后数据分析结果与未撰改数据分析结果相比,有何差别,引导学生们去认识数据真实性的重要性,让学生养成严谨、敬业、尊重事实的科学态度,培养他们成为真正热爱并有职业操守的统计职业人才。
4.2线上SPOC建设
《统计学》课程的SPOC建设针对校内线上资源建设,它的完善会极大提高学生自主学习的能力。作为一名民办高校《统计学》教师,笔者认为针对我校的学情,此课程的SPOC建设包括线上微课、线上讨论、线上答疑的建设。线上微课视频是指通过“碎片化”教学,将教学过程中的重点、难点和疑点结合实例讲解,以教学视频方式呈现出来,具有针对性强、目标明确和时间短等特点。利用学习通等软件提前上传给学生,向学生布置任务,利用软件的一些功能,监督学生观看的时间,并设置在学生观看后,需学生总结出学习视频内容的心得,即理解内容、不理解内容,也可以提出问题及意见。这不仅可以监督学生学习,提高他们自主学习的时间,也可以为教师后续的课程改革提出方向及依据。线上讨论主要是设置在每一章理论课结束后,在线上设计一些案例,并提出任务,让学生在课后对所提出的案例任务进行线上讨论,运用所学的理论知识去解决实际的经济问题,不仅提高学生理论与实践相结合能力,还可以提高学生的独立思考、解决实际问题的能力。教师根据学生在线上讨论的参与率及讨论效果给予学生平时成绩,也体现了各大高校对课程考核成绩的一项改革,侧重于平时学习的考核。而线上答疑,是利用现代信息技术,在网上进行的一种答疑方式,教师可随时随地在线上看到学生的疑问,针对学生的疑问及时进行解答。这种线上答疑方式为学生对重点知识的反复学习和深刻理解提供了及时、较好支持,为其巩固知识和加强理解给予很大的帮助,提高学生学习积极性,提升其学习兴趣。
参考文献:
[1]胡瑞香.浅谈课程思政理念下《统计学基础》课程教学改革的探索[J].国际教育,2020(10).
[2]方万里.统计学与思政课程同向同行的思考[J].太原城市职业技术学院学报,2020(11).
[3]杨潇伟.大数据对高职统计学教学的影响[J].产学研经济,2020(11).
[4]唐谦.大数据背景下统计学教学改革探讨[J].课程教学,2020(10).
[5]马斐斐,尚增振.大数据背景下经管类专业统计学课程教学改革研究[J].科技经济导刊,2020,28(33).