时间:2023-08-16 17:11:45
引言:易发表网凭借丰富的文秘实践,为您精心挑选了九篇统计学经典理论范例。如需获取更多原创内容,可随时联系我们的客服老师。
关键词:统计学;地质工作;重要作用;研究
近些年来,我国对地质工作的重视程度不断提高,投入的资金力度也有所增加,在国家的大力支持下,地质工作取得了一定的进展,但和发达国家相比较,还存在一些问题。此种情况导致我国地质工作的发展受到阻碍,为了解决其中存在的问题,工作人员将统计学相关知识和地质工作结合在一起,通过有效的应用此方面的知识,推动了我国地质工作的发展。
一、地质统计学的概念
地质统计学是在1962年由法国的著名学者G.马特隆教授提出的,此统计学的基础是区域变化量,是在使用变异函数的情况下对随机性以及空间性等为一体的自然现象进行热分析的一门科学。只要是和空间数据所具有的随机性以及结构性,或者是依赖性等有关系的研究,或者是使用无偏内插的方式来对数据进行估计,再或者是对数据所具有的波动性等进行模拟,都可以使用地质统计学理论[1]。
二、地质统计和经典统计两者之间差异
地质统计和经典统计两者之间是存在差异的,具体表现在以下几个方面:第一,经典统计在对地质变量进行深入研究的时候,并没将样品所具有的空间分布特性考虑在内,要知道,即使地质变量的均值以及方差是一样的,若是其样品的分布位置不同,则其地质变量的稳定性也会是不相同的;第二,经典统计学的研究对象是随机抽取出来的,所以这些对象都是按照一定概率来进行分布的,而地质统计则不同,在地质统计下的地质变量是集结构性以及随机性为一体的;第三,经典统计对变量的原则可以进行无数次的实验,并且每次实验的结果可能都存在差异,而地质变量则做不到这一点;第四,经典统计学对抽样的要求是独立进行,而地质变量则并没有这一方面的要求,反而是要求抽样之间具有空间相关性[2]。地质研究人员为了可以同时满足其对概率统计有效性的要求以及地质变量的特点,所以研究出了地质统计学。地质统计以及经典统计两者的基础都是大量采样,通过对样本属性值所具有的分布频率以及均值等进行分析,从而明确空间分布格局与其之间的关系。地质统计区别于经典统计的主要特点是,地质统计可以对样本值所具有的大小、空间位置以及距离进行综合考虑,这样就可以对经典统计中存在不足进行弥补,进而提高地质工作的效率,推动地质工作的发展[3]。
三、统计学对地质工作的重要作用
1.地质统计工作可以深化经济体制改革,并强化经济管理
我国的市场经济体制已经逐渐稳定,在市场经济体制下,地质企业想要生存下去,就必须在发展过程中,采用创新的思想观念,并建立完善的符合社会发展需求的管理机制,对企业内部的环境进行优化,采用科学的方法来开展管理工作,对地质勘查生产经营活动进行科学的指导,进而确保其可以从自我封闭的状态中逐渐地走向开放,走出国门[4]。这样的情况就使得地质勘查工作必须采用统计学理论,只有这样才能推动地质工作更好地发展,使其适应当今社会的发展趋势,加快地质工作现代化的发展步伐。
2.地质统计学是国民经济信息化发展的必要要求
近些年来,我国科技水平的不断提高,使计算机技术越来越成熟,其应用范围日益广泛,在这样的情况下,地质工作部门在进行工作的过程中应用了计算机技术,开始地质信息自动化的建设。在发达国家中,信息的重要性已经被人们普遍的认可,因此,我国应该吸取国外先进的经验,对信息的重要性进行深入地认识,进而推动我国地质工作的发展。
3.统计学可以对地质工作进行估计
在进行地质工作的过程中,相关人员需要对其进行估计,在估计过程中,使用统计学知识,就可以对其整体进行估计,也可以对其局部进行估计。
4.可以创新数学理论
在地质工作中人们应用了数学理论,但由于社会对地质工作的要求不断提高,所以传统的数学理论已经无法满足社会需求,面对此种情况,相关人员可以应用统计学理论来对传统的数学理论进行创新,这样就可以解决地质工作中存在的问题,推动其发展。
5.可以提高估计精度
在地质工作中,工作人员需要对精度进行估计,应用了统计学理论之后,其中的克立格方程会提高估计精度,这样地质工作的作用就可以更加充分地发挥出来。
6.可以对地质变量的变化进行模拟
应用了统计学理论之后的地质工作,可以将地质变量产生的变化更加真实的模拟出来,进而为工作人员对地质体进行定量研究提供有力的数据依据。
7.可以充分利用已知信息
在地质工作中,工作人员需要利用已知信息来深入地开展工作,在此过程中,传统的地质工作已经无法满足需求,但应用了统计学的地质工作可以帮助工作人员对未知地区以及已知信息的空间关系与区域变化量所具有的结构特征进行深入地分析,进而帮助工作人员作出正确的判断。
8.可以节省时间
传统的地质工作不仅需要耗费大量的时间,还需要大量的人力资源,为了节约时间提高工作效率,在其中应用了统计学理论,统计学理论可以自动的生成拼图,这样就为工作人员进行计算提供了方便。
四、结束语
综上所述,地质统计学在地质工作中应用具有重要的作用,而且随着理论的不断丰富和完善,其应用范围有了明显的扩大,已经逐渐成为研究界中的常用科学方法,并且随其在各领域中的广泛应用,实际作用愈发突出,已经成为不容人们忽视的存在。因此,地质工作人员应该对统计学进行深入地研究,并提高自身应用统计学的水平,在地质工作中充分发挥其作用,推动地质工作的进一步发展。
作者:马红霞 单位:中国冶金地质总局第三地质勘查院
参考文献:
[1]王允锋.论统计学对地质工作的重要作用[J].知识经济,2010(,11):77.
[2]周旋,王选问,金瑜,等.基于地质统计学方法的某铁矿资源量估算[J].金属矿山,2015(,7):86-90.
关键词:数理统计;西方统计思想史;数量经济学;贝叶斯
一、古典统计学时期
古典统计时期统计学同时存在不同的两大学派,在这种情况下,争议是必然的,但他们之间的争议并未在国势学派和政治算术学派之间爆发,而是通过内部纷争表现的。随着政治算术学派的发展,其计量思想冲击使得国势派分为两个阵营,一个是以哥根廷大学教授为代表的正统派,他们坚持统计研究要以文字记述为主,另一个是以克罗姆为代表的图表派,主张在文字记述的基础上,接受政治算术学派所提倡的计量方法的思想。图表派和正统派的矛盾在十九世纪初期终于爆发了,正统派指责图表派的表式统计是没有方法的大杂烩,没有形式,只能沉迷于表现;而图表派则坚持认为,正统派只是固步自封、墨守成规,不能真正意识到能真正反映客观事实的图表和数字的重要性。克尼斯指出,虽然统计学的命名最早是由国势学派提出的,但国势学派没有统计学之实,它仅仅是关于用文字记述国家事项的“国家记述学”,并且其所使用的研究方法和目的与历史学相一致,所以应该把它被归为历史学,而政治算术学派属于以新任务、新方法的方式提出的新的观点,因而政治算术学派才是真正的统计学。克尼斯的论证宣告了政治算术学派在此次思想交锋中取得胜利,结束了国势学派和政治算术学派长期以来的争论,同时也为统计学界指出了未来统计学的发展方向。
二、近代统计学时期
到了近代统计学时期,比利时统计学家凯特勒同时融合了国势学派和政治算术学派的思想,并在计量思想的基础上引进概率论的方法,将统计学的发展推向了一个新的高度,形成了近代统计学发展的起源思想,开辟了统计学的新时代。
十八世纪中后期,起源于英国的政治算术学派将其研究中心转移到了欧洲,政治算术学派在保留自身研究方法和内容的同时,吸收了国势学派的研究目的形成新的统计学派――社会统计学派。社会统计学派的开创之作就是克尼斯在在解决政治算术学派和国势学派争端时发表的《作为独立科学的统计学》,在这篇著作中克尼斯确立了统计学作为独立社会科学的地位,随后恩格尔支持并发展了他的统计理论。恩格尔认为统计学是根据合理的观察,从而描述一定时期人类社会的组织和状态以及这些组织、状态的变化的一门科学。在克尼斯和恩格尔的统计思想基础之上,德国统计学家梅尔总结了当时统计学界在各个方面取得的学术成果,建立和完善了社会统计学派的理论体系,由此社会统计学派又被人们称为梅尔学派,该学派认为统计学是在大量事实的基础上对社会现象进行研究,在研究中揭示社会现象发生变动的原因和规律,基于此,该学派将统计学定义为研究规律性的独立实质性社会科学。并且他们提出将统计学的研究内容分为自然和社会,将其从存在形式分为总体与个体。
在社会统计学派发展的同时,留在英国本土的政治算术学派开始朝着数学方面发展,形成了旧数理统计学派。作为旧数理统计学派代表性人物的高尔顿比较擅长用统计方法研究生物进化(这主要受其热衷于科学研究和统计调查的父亲以及研究生物的表哥达尔文的影响),他在其创办的杂志中首次提出生物研究中所使用的统计方法论为生物统计学,并在生物实验中建立了若干新的数理统计概念和方法,诸如“相关”“回归”“中位数”等。旧数理统计学派在方法上主要使用数学、概率论的方法,在搜集样本资料时,更倾向于使用大样本观察,这与他们的生物统计研究思想是密不可分的。该学派的出现实现了统计学从实质性到方法性的转变。
三、现代统计思想
到了现代,戈塞的出现为旧数理统计学派走向新数理统计学派提供了基础,其实相比于他的原名,他的笔名“student”更为人所熟知。在戈塞之前,人们一直认为统计认识思想的核心是大量观察法,依靠大样本统计来研究问题,然而他提出大样本统计方法并不是适合于所有的情况,有时候受客观原因的限制,有的实验很难进行多次,所以人们只能从少量的观察得出结论,这一思想构成了后来形成的小样本理论的基础。该统计思想的出现也拉开了新数理统计时代的大幕,实现了数理统计学从描述性统计学向推断性统计学的划时代的转变。
贝叶斯学派的思想源于1764年贝叶斯发表在伦敦皇家学会的遗作《An Essay Solving a Problem in the Doctrine of Chance》,在这篇著作中,贝叶斯提出了贝叶斯假设、贝叶斯公式以及参数的后验分布密度等,从思想的呈现到贝叶斯得到广泛的认可,期间经历了近200年的历史,原因就在于贝叶斯统计思想与经典统计思想之间存在很多分歧。他们之间的分歧基础就在于统计学中对“概率”的理解,即“概率”的定义是客观意义下还是主观意义下。概率的存在有两种解释,第一是某系统的内在特性,该特性不依赖于人们对系统的认识,即属于客观意义下;第二是对某一说法的相信程度的度量,这是在主观意义下的解释。经典统计学坚持认为概率是客观意义下的,而贝叶斯统计在经典统计中概率意义基础上,扩展了意义的外延,即在包括第一种意义的同时加入了第二种意义。基于统计学中“概率”定义的不同理解,引发了这两大学派在统计推断以及推断逻辑方面的更大分歧。
贝叶斯统计在发展的过程中,由于自身“主观”的导向问题,受到了经典统计的批判,但实践领域的成功应用证明了贝叶斯统计对统计思想的发展做出了很大的贡献。贝叶斯统计的发展扩宽了统计学所研究问题的客体,使得统计学的应用范围扩大到很多不能大量重复实验的领域。同时贝叶斯统计不仅开创了新的统计推断形式,而且解决了经典统计中的“两难推断问题”。
四、小结
在21世纪的今天,统计专家有各个方面的问题亟待解决,面对这些复杂的问题,哪一种统计思想在解决问题中占有支配地位,我们无从得知,但我们知道,统计学一定会在解决问题中更加趋于完善,在解决问题中留下更适合的。(作者单位:天津财经大学统计系)
参考文献:
[1]窦雪霞.统计思想演化的哲学思考[J].商业经济与管理,2011(1)
[2]郭海明.浅谈几种常见的统计思想[J].中国统计,2015(6)
[3]姚波,张凌翔.数学给了统计学什么[J].中国统计,2005(1)
[4]窦雪霞.历史视野下的统计学内涵思想分歧探讨[J].重庆科技学院学报,2010(5)
【提 要】 目的 探讨经典统计学派与贝叶斯学派假设检验思想的异同。方法 总结和概括两种思想,并结合一个实例对两种思想进行比较。结果 两种思想统一于贝叶斯定理,并在特定场合下相互等价;贝叶斯方法在先验信息的利用、风险的回答、损失的考虑以及多重假设问题的处理等方面较经典方法具有明显的优势。结论 贝叶斯学派的理论应用受到重视。
【Abstract】 Objective To discuss differences between classical and Bayesian testing thoughts.Methods First these two thoughts are summarized’and then they are compared through an example.Results It is pointed out that these two thoughts are united on Bayes’s Theorem’that they are equal on given occasions’and that Bayesian testing approaches have more advantages than classical approaches in using prior information’indicating the hazard of testing’considering the loss’and dealing with the problem of multi-hypotheses.Conclusion Great attention should be paid to Bayesian theory.
【Key words】 hypothesis test Classical school Bayesian school
假设检验问题是统计学的传统问题,对于该问题,经典统计学派与贝叶斯学派有不同的处理思想。目前,经典统计方法占据着统计学的主导地位,但是,贝叶斯方法正在国外迅速发展并得到日益广泛的应用,我们有必要给以足够的重视。本文结合一个例子,对两大学派的假设检验思想进行初步比较,以揭示两种思想的区别与联系,并着重探讨贝叶斯方法的优势。
两种假设检验思想
一、经典统计学派的假设检验思想
经典统计学派运用反证的思想进行推断,即:在认定一次实验中小概率事件不会出现的前提下,若观察到的事件是H0为真时不合理的小概率事件,则拒绝H0。
上述思想可以用如下决策函数表示:
其中x代表样本信息。Φ(x)取值为0时即为通常的“拒绝H0”。
二、贝叶斯学派的假设检验思想
贝叶斯学派直接讨论H0和H1的后验概率,依据后验概率的大小进行推断。
其基本的解决方案是:在先验分布π下,有决策函数
Φ(x)取值为0时即“拒绝H0”。很明显,它选择了后验概率较大的假设。
三、两种思想的联系与分歧
在经典统计学中,参数被看作未知常数,不存在参数空间,因而不存在H0和H1的概率,给出的是P(x|H0真),其中x代表样本信息。在贝叶斯方法中,参数被看成随机变量,在参数空间内直接讨论样本x下H0和H1的后验概率,给出的是P(H0真|x)和P(H0不真|x)。
事实上,两个学派的方法在一定程度上统一于贝叶斯公式。
由贝叶斯公式容易得到:
因此,当P(H0)=P(H1),即H0与H1居于平等地位时,经典学派与贝叶斯学派的结果是一致的。
然而,H0与H1地位往往不一致,H0常居于将被否定的位置,因而上述一致性并不总能成立。贝叶斯学派对此进行了深入的探讨,他们的结果很有意义。
对于正态分布前提下的单侧检验:X~N(θ,1),H0:θ≤0 H1:θ>0,经典方法得到的P值与贝叶斯方法在无信息先验分布下的后验概率相等,此结论可以推广到正态分布前提下其他类似的单侧检验。
对于形如H0:θ=0,H1:θ>0,(或H1:θ<0)的单侧检验,情况则不同,与下述的双侧检验有类似结果。
对于形如H0∶θ=0, H1:θ≠0的双侧检验,经典方法得到的P值与贝叶斯方法的后验概率大不相同。在Berger和Sellke 1987年对正态分布前提下二者的比较研究中,当经典方法得到的P在0.01~0.1之间时,贝叶斯方法得到H0为真的后验概率大于P,因而此时拒绝H0所承担的实际风险大于P,而这个区间对于经典方法下结论是非常重要的。Hwang和Pematle 1994年提出,对这类双侧检验,类似结果始终存在,因而P值应该由其他判断标准来替代。但他们还没有找到这种标准。
两种思想的应用
下面我们通过一个例子对两种假设检验思想进行一些比较。
例:以随机变量θ代表某人群中个体的智商真值,θi为第i个个体的智商真值,随机变量Xi代表第i个个体的智商测验得分,若该人群的期望智商为μ,则第i个个体在一次智商测验中的得分可以表示为:xij=θi+eij=μ+ei+eij,其中ei为第i个个体的自然变异,eij为第i个个体第j次测量的测量误差。根据以往积累的资料,已知在某年龄儿童的智商真值θ~N(μ’τ2),其中μ=100’τ=15,个体智商测验得分Xi~N(θi’σ2),其中σ=10。现在一名该年龄儿童智商测验得分为115,问:(1)该儿童智商真值是否高于同龄儿童的平均水平(即θi>100)?(2)若取θi在(a’b)为正常,问该儿童智商是否属于正常? 转贴于
一、用经典统计方法解答
对第一问,设H0:θi≤100 H1:θi>100,按照经典统计学方法,若H0成立,则有:
因此,α水平下的拒绝域为{x:x>100+σ・u1-α}
已知σi=10,若取α=0.05,有u0.95=1.645,100+10×1.645=116.45。
现有x=115,因此,在0.05水平尚不能认为该儿童智商高于平均水平。
对第二问,经典方法需要进行两次分别针对a、b的单侧检验。过程与第一问相似,这里不再叙述。
二、用贝叶斯方法解答
在贝叶斯学派中,当θi未知时,将其看作随机变量,与θ具有相同的分布,这是贝叶斯学派与经典学派的一个重大区别。
根据贝叶斯理论,若X~N(θ,σ2),其中σ2已知,θ未知,但已知θ的先验分布是N(μ,τ2),其中μ和τ2均已知,则给定x后θ的后验分布为N(μ(x)’ρ-1,)其中(证明参见文献[1])。
由此得到,本例中该儿童智商θi的后验分布为N(110.38,69.23)。
对第一问,同样设H0:θi≤100 H1:θi>100,查正态分布表可以得到:
P(H0:θi≤100|x=115)=0.106,
P(H1:θi>100|x=115)=0.894
根据风险最小原则拒绝H0,接受H1。
对第二问,设H0:a<θi<b H1:θi<a或θi>b,查正态分布表可以分别得到P{H0:a<θi<b|x=115}和P{H1:θi<a或θi>b|x=115},类似第一问,依据风险最小原则作出推断。
讨 论
由上述分析和例子,我们可以看出,用贝叶斯方法处理假设检验问题至少在下述几方面具有明显优势。
一、先验信息利用的充分性和风险的直观性
从前述问题的处理,我们清楚地看到,经典方法只使用了Xi的已有信息(贝叶斯学派称之为先验信息),而贝叶斯方法则同时利用了Xi和θ的先验信息。因而在第二问的解决上,贝叶斯方法较经典方法少进行一次假设检验。
在贝叶斯方法中,由于导出了样本x下的后验分布,可以对风险给出正面的回答,因而较经典方法下的间接判断更直观。
二、可以将后续问题纳入考虑范围
如果推断错误在后续问题的解决过程中会造成一定损失,贝叶斯方法在进行推断时可将这一损失考虑在内。如:
在假设H0∶θ∈Θ0,H1∶θ∈Θ1(Θ0、Θ1是参数空间内两个互补子集)下,有:
Φ等于0,1分别代表拒绝、接受H0,a0、a1分别代表了第一、第二类错误造成的损失,这时,贝叶斯方法给出如下决策函数:
由于可以将假设检验结果带来的损失纳入检验考虑的范畴之内,因而对问题的回答更接近实用。
三、多重假设的处理不存在困难
对多重假设,如将前例第二问改为:若θi∈(a’b)为智力正常,θi<a为智力低下,θi≥b为智力超常,问该儿童智力属何种类型?
在现有条件下,经典方法很难处理这一问题。而贝叶斯方法对这一问题的解答并不存在特殊的困难,只需将假设设为:H0∶a≤θi<b H1∶θi<a H2∶θi≥b,多计算一个后验概率便可。
关键词:统计学习 试验 方法
中图分类号:C812文献标识码:A文章编号:1006-5954(2009)07-058-03
一、引言
统计的发展可以通过其所解决的问题展现:解决的问题不断从简单到复杂,从具体到抽象,这就要求其具有更强的计算能力,不断的从狭义到广义演变。传统统计主要来源于具体的实验,依赖于经典的参数估计方法,而现代统计学习理论是研究利用经验数据进行机器学习的一种一般理论,属于计算机科学、模式识别和应用统计学相交叉与结合的范畴。由于较系统地考虑了有限样本的情况,统计学习理论与传统统计学理论相比有更好的实用性。统计学习(Statistics learning)的起源是一系列著名的实验(如Turing Test等),随着信息技术的不断发展与信息量不断增大的进程,统计学习(Statistical Learning)理论也在逐步完善以适应新的需求。
现今的统计学习虽然已经有了重大的发展,但是若想把事情完全交给机器完成却不能得到理想结果,仍需要加入大量的人类智慧,例如:寻找事物特征、参数选取等等。不过类神经网络、SVM等技术的革新帮助解决了很多现实中复杂的问题,可以应用在诸多模式识别和回归估计问题中,并已经在很多实际问题中取得了很好的应用成果。随着统计学习发展,我们对统计有越来越高的期望,期望其可以发挥人类智慧的作用,计算能力再进一步提高,解决更加复杂的现实问题。
二、统计学习的过去和现在
Alan Turing于1950年提出了一个著名的实验――图灵测试(“Turing Test”):将一个具有智慧的机器和一个人类,放在一个布幕里面。人分别与机器和人类交谈,如果分不出哪一个是机器,哪一个是人类的话,那么机器就具有了人工智能。由此揭开了人工智能(Artificial Intellegence)研究的序幕。在研究中,AI被划分成Weak AI和Strong AI。Weak AI并不是功能较弱,而是指某个系统只要能表现出人类的智力就好,不管底层系统是否真的有人类的智力。Strong AI则是希望建构出来的系统即使不是用细胞做的,他的架构也却是和人类相当,真的具有人类智慧。Weak AI可以由机器学习(Machine Learning)来代表。只要给定问题的范围,训练的资料(training data),就可以由数据中选择特征(Feature selection),然后建构数据的模型(Model selection),最后把这个模型当成学习的成果,拿来做预测(Prediction)。
迄今为止,关于机器学习还没有一种被共同接受的理论框架,其实现方法大致可以分为三种 :第一种是经典的(参数)统计估计方法。包括模式识别、神经网络等在内;第二种方法是经验非线性方法,如人工神经网络(Artificial Neural Networks,ANN);第三种方法是统计学习理论( Statistical Learning Theory或 SLT)。
(一)经典的(参数)统计估计方法
经典的(参数)统计估计方法包括模式识别、神经网络等在内,现有机器学习方法共同的重要理论基础之一是统计学。参数方法正是基于传统统计学,在这种方法中,参数的相关形式是已知的,训练样本用来估计参数的值。
但是随着电脑解决问题的广泛应用,研究人员试图研究复杂问题时,发现了参数体系的缺点。
(1)大规模多变量问题导致了“维数灾难”现象的发生。研究人员观察到,增大可考虑因子的数量就需要成指数的增加计算量。因此,在含有几十个甚至是几百个变量的实际多维问题中定义一个相当小的函数集,也是一种不切实际的想法。
(2)透过实际数据分析,实际问题的统计成分并不能仅用经典的统计分布函数来描述。实际分布经常是有差别的,为了建构有效的算法,我们必须考虑这种差别。
(3)即使是最简单的密度估计问题,最大似然方法也不见得是最好的。
总之,这种方法有很大的局限性。首先,它需要已知样本分布形式,这需要花费很大代价,还有,传统统计学研究的是样本数目趋于无穷大时的渐近理论,现有学习方法也多是基于此假设。但在实际问题中,样本数往往是有限的,因此一些理论上很优秀的学习方法实际中表现却可能不尽如人意。
(二)经验非线性方法
经验非线性方法,如人工神经网络(ANN)。这种方法利用已知样本建立非线性模型,克服了传统参数估计方法的困难。但是,这种方法缺乏一种统一的数学理论。
以人工神经网络为例进行简单的介绍。人工神经网络(ANN),一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。人工神经网络具有自学习和自适应的能力,可以通过预先提供的一批相互对应的输入――输出数据,分析掌握两者之间潜在的规律,最终根据这些规律,用新的输入数据来推算输出结果,这种学习分析的过程被称为“训练”。人工神经网络具有非线性、非局限性、非常定性和非凸性的特点,它是并行分布式系统,采用了与传统人工智能和信息处理技术完全不同的机理,克服了传统的基于逻辑符号的人工智能在处理直觉、非结构化信息方面的缺陷,具有自适应、自组织和实时学习的特点。但是,由于在长期发展过程中,由于人工神经网络在理论上缺乏实质性进展,所以新的方法,统计学习理论开始受到越来越广泛的重视。
(三)统计学习理论
统计学习理论( Statistical Learning Theory或 SLT)是一种专门研究小样本情况下机器学习规律的理论,是传统统计学的重要发展和补充,为研究有限样本情况下机器学习的理论和方法提供了理论框架,其核心思想是通过控制学习机器的容量实现对推广能力的控制。该理论针对小样本统计问题建立了一套新的理论体系,在这种体系下的统计推理规则不仅考虑了对渐近性能的要求,而且追求在现有有限信息的条件下得到最优结果。V.Vapnik等人从六、七十年代开始致力于统计学习理论方面的研究,到九十年代中期,随着其理论的不断发展和成熟,其受到了越来越广泛的重视。
在提到统计学习理论时不得不说的一个核心概念是VC维。它是描述函数集或学习机器的复杂性或者说是学习能力(Capacity of the machine)的一个重要指标,在此概念基础上发展出了一系列关于统计学习的一致性(Consistency)、收敛速度、推广性能(Generalization Performance)等的重要结论。
在统计学习理论基础上,一种新的通用学习方法应运而生,支持向量机(Support Vector Machine 或SVM)。支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力(Generalization Ability)。支持向量机方法有以下的几个主要优点有:
(1)它是专门针对有限样本情况的,其目标是得到现有信息下的最优解而不仅仅是样本数趋于无穷大时的最优值。
(2)算法最终将转化成为一个二次型寻优问题,从理论上说,得到的将是全局最优点,解决了在神经网络方法中无法避免的局部极值问题。
(3)算法将实际问题通过非线性变换转换到高维的特征空间(Feature Space),在高维空间中构造线性判别函数来实现原空间中的非线性判别函数,特殊性质能保证机器有较好的推广能力,同时它巧妙地解决了维数问题,其算法复杂度与样本维数无关。
在SVM 方法中,只要定义不同的内积函数,就可以实现多项式逼近、贝叶斯分类器、径向基函数(Radial Basic Function 或RBF)方法、多层感知器网络等许多现有学习算法。目前,SVM算法在模式识别、回归估计、概率密度函数估计等方面都有应用。例如,在模式识别方面,对于手写数字识别、语音识别、人脸图像识别、文章分类等问题,SVM 算法在精度上已经超过传统的学习算法或与之不相上下。
由于 SVM方法较好的理论基础和它在一些领域的应用中表现出来的优秀的推广性能,近年来许多关于 SVM方法的研究,包括算法本身的改进和算法的实际应用,都陆续提出。尽管SVM算法的性能在许多实际问题的应用中得到了验证,但是该算法在计算上存在着一些问题,包括训练算法速度慢、算法复杂而难以实现以及检测阶段运算量大等等。
传统的利用标准二次型优化技术解决对偶问题的方法可能是训练算法慢的主要原因。首先,SVM方法需要计算和存储核函数矩阵,当样本点数目较大时,需要很大的内存,例如,当样本点数目超过 4000时,存储核函数矩阵需要多达128兆内存;其次,SVM在二次型寻优过程中要进行大量的矩阵运算,多数情况下,寻优算法是占用算法时间的主要部分。
SVM方法的训练运算速度是限制它的应用的主要方面,近年来人们针对方法本身的特点提出了许多算法来解决对偶寻优问题。大多数算法的一个共同的思想就是循环反复运算:将原问题分解成为若干子问题,按照某种反复运算策略,通过反复求解子问题,最终使结果收敛到原问题的最优解。根据子问题的划分和反复运算策略的不同,又可以大致分为两类。
第一类是所谓的“块算法”(Chunking algorithm)。“块算法”基于这样一个事实,即去掉 Lagrange乘子等于零的训练样本不会影响原问题的解。对于给定的训练样本集,如果其中的支持向量是已知的,寻优算法就可以排除非支持向量,只需对支持向量计算权值(即 Lagrange乘子)即可。
当支持向量的数目远远小于训练样本数目时,“块算法”显然能够大大提高运算速度。然而,如果支持向量的数目本身就比较多,随着算法反复运算次数的增多,工作样本集也会越来越大,算法依旧会变得十分复杂。因此第二类方法把问题分解成为固定样本数的子问题:工作样本集的大小固定在算法速度可以容忍的限度内,反复运算过程中只是将剩余样本中部分“情况最糟的样本”与工作样本集中的样本进行等量交换,即使支持向量的个数超过工作样本集的大小,也不改变工作样本集的规模,而只对支持向量中的一部分进行优化。
毫无疑问,固定工作样本集的算法解决了占用内存的问题,而且限制了子问题规模的无限增大;但是,从这个意义上来说,固定工作样本集的算法把解标准二次型的寻优问题的时间转嫁到循环反复运算上了,它的反复运算次数一般会比“块算法”多。尤其是 SMO,如果没有一个好的启发式反复运算策略,该算法就是一种盲目爬山法。
基于此,我们提出一种算法思想,希望能够综合两类算法的特点。我们仍旧从最终目标中抽取子问题,借用某种反复运算策略使算法收敛。关键的,我们希望一方面子问题规模不会太小,以免反复运算次数太多,另一方面能借鉴 SMO的思想,利用二次问题的特点,找到子问题的解析解法,或者是近似解,从而不必对每一个子问题都调用寻优算法。
此外,由于 SVM方法的性能与实现的上的巨大差异,我们在求解子问题时不一定要得到精确解(解的精确度可以由反复运算来保证),甚至还可以考虑对最终目标求取近似解。这样,尽管结果的性能会受到影响,但是如果能够大幅度提高运算速度,它仍不失为一种好方法。
三、统计学习的将来
统计学习在现当代社会已经有了飞速发展,但其还不能完全满足人类的需求。在其进一步的发展过程中,仍需要在机器学习问题、语言意识的学习、人机界面等方面进行改进。在完成一项任务时,人类总是希望机器能够自主独立的完成,自己介入的越少越好。这就需要加强机器的文字意识,而不是将所有的信息转化成数字之后机器才能识别。如果人类比较高层次的认知活动,如语言产生意义、寻找类似物品和抽象化的能力,其背后的神经机制若能够被发现,那么我们也可以了解大脑思想的表达方式,人脑和计算机之间可以互相转换数据,这时候人脑的能力和计算机的计算能力,就可以互补,让我们计算帕斯卡尔三角形速度更快而没有负担。计算机也可以运用人类抽象化的能力,更正确地寻找“类似”的东西,并且是以更快的速度达成抽象化才能解决的问题。
四、结语
传统的统计学习为统计学习的发展提供了坚实的理论基础,现代统计理论无论是在假设还是方法上都有了很大的突破和进展。在科学技术飞速发展的今天,统计学习理论广泛吸收和融合相关学科的新理论,不断开发应用新技术和新方法,深化和丰富了统计学传统领域的理论与方法,并拓展了新的领域。相信,统计学习必将会应用于越来越广泛的领域,解决迫在眉睫的问题,提供更大的便利。
■ 名词解释
[1] 人工神经网络
人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型,主要依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。
[2] 支持向量机
支持向量机是数据挖掘中的一个新方法,能非常成功地处理回归问题(时间序列分析)和模式识别(分类问题、判别分析)等诸多问题,并可推广于预测和综合评价等领域。
[3] 特征空间
特征空间是相同特征值的特征向量的集合。
[4] 径向基函数网络
径向基函数网络是一种向前反馈网络,可以处理不规则分布的高维数据。
[5]多层感知器网络
多层感知器网络是具有多个中间层的网络系统。
■ 参考文献
[1] Berry Michael J. A., Linoff Gordon S. “Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management” John Wiley & Sons, Inc., 1997
[2] Guape, F.H.; Owrang, M.M. “Database Mining Discovering New Knowledge and Cooperative Advantage” Information Systems Management, 1995,12, pp.26-31
[3] Usama Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth, “The KDD Process for Extracting Useful Knowledge from Volumes of Data” Communications of the ACM, 1996, Vol 39., No.11, pp.27-34
【关键词】双语教学;统计学专业;专业英语
随着社会、经济和科学技术的发展,统计的范畴已覆盖了社会生活的一切领域,是众多学科不可缺少的实用型课程。而处在社会大环境中的统计专业学生要想获取最新的专业技术信息,必须对专业英语有一定的了解,从而在软件涉及专业知识时能够运用自如,进而成长为学有所长,符合社会需求的高层次复合型、实用型人才。
一、我校统计学专业英语教学面临的问题
为了能够掌握世界先进技术和国外专业发展动向,本科生应该能够熟练阅读专业文献,并在专业领域具有初步的语言交流能力。新形势对统计学专业大学生的要求不仅是能够阅读,也应该能写,能够进行语言交流。但是,通过近几年的专业英语教学实践、教学效果及学生反映等方面收集的信息表明,目前本专业学生的专业英语实际能力与基本教学目标及实际应用仍有一定的差距。问题主要集中在以下几个方面。
1.课程设置的局限性
随着全球经济一体化的日益发展,中国与世界的日益融合,培养视野开阔、专业突出、外语过关的统计学专业人才成为高校教书育人的重要任务,而我校统计学专业只在大三大四本科生中开设四十几个学时的专业英语课程,远远达不到专业培养的目标,为此,应拓宽这种受时间限制的课程设置模式,逐步推广双语教学的专业英语教学模式,将专业英语贯穿于各门专业课程的学习过程中,这样才能让学生时时接受语言的影响,把汉语与英语,把英语与专业知识融为一体。
如果汉语的专业课先行,后学相应的专业英语,学生感觉学之无味。但如果专业英语安排在专业课之前,学生又如听天书,或感觉深度不够。因此,有必要由传统的专业英语课程单独开课改为某些专业课程的双语教学。
2.教材局限性
我校统计学专业是由应用数学学科发展起来的,学生系统学习的专业知识涉及基础数学、经济学以及概率论等多学科,知识覆盖面广,内容非常丰富,因此专业英语课程的教学内容以概率统计为侧重,同时也需要涵盖高等数学、经济学以及社会学等多领域。各个学校专业培养的方向不同,所用教材也有相当的差异。这就需要任课教师自己准备教材。但如果我们采取某些专业基础课程实施双语教学就比这要容易得多。国外许多统计学方面的专家学者原版的英文专业书籍,既有严谨的理论,又有富有时代气息的例子,这些对增加学生学习的趣味性都特别有帮助。
3.师资匮乏
统计学专业课程涉及基础数学、概率论、经济学、金融学、社会学和医学等诸多领域。因此教师如要能胜任专业英语的教学,不仅要求传统意义上的英语好,还要求有开阔的视野,宽广的知识面,这样才能够较好地引领学生顺利地进行专业英语的学习。这就增加了专业英语教学的难度。但是对于一些学校刚刚引进的年轻博士们来说,对于自己专业方向上的英语是非常熟悉的。让他们从事双语教学也不是难事,但如果让他们上好大一统的统计学专业英语课却有相当的难度。
4.学生学习缺乏积极性
学生对专业英语的认识不足,认为是无足轻重并且可以轻松过关的一门课程。学生对于专业英语缺乏了解,认为是英语的后续。而如果把专业英语的教学融入到专业课的双语教学中去,利于转变学生对于这门课程的认识,进而调动大家的学习积极性,从而为更好地学习专业课服务。由于我国传统外语教学中“费时较多,成效较低”等问题始终没有得到很好的解决,进而反映在学生上就是学习效率低、英语应用能力差,这是双语教学中的最大困难。
我校统计学专业英语的教学现状迫切要求我们改革教育模式,提高教学质量,为培养21世纪高素质复合型人才服务。在教学实践过程中,我们从建设师资队伍、调整教学内容、改变教学方式、改善考核方式几方面着手,对统计学双语教学进行初步尝试。
二、统计学专业双语教学的建设
国家教育部已提出加强大学本科教学的12项措施,其中要求各高校在三年内开设5%~10%的双语课程,并引进原版教材和提高师资水平。双语教学是一个需要教师、学生和教学内容(教材)以及教学方法互相配合的复杂过程。想要建设好双语教学,也要从这几个方面入手。
1.内容设计
根据本专业的特点,我们将教学内容划分为基础知识和应用知识两个模块。在基础知识模块中,划分为数学基础知识、经济学基础知识和概率统计基础知识三大板块,在应用知识模块,向学生介绍科技文献的写作规范、英语单词的构词方式以及国际交流的常见用语等,从而培养学生对专业语言的理解能力和实际运用能力。
2.教材的选择
国内编写的统计学专业方面教材系统性强、叙述严谨、知识体系清晰、重视基本概念的介绍和理论知识的推导;而国外的优秀教材则具有许多与时代紧密结合的实例,另外注重最新的科研成果。许多经典的专业课程在国外一些著名教授的主页上都有相关课程的案例分析资料、授课PPT、相关的多媒体资源,链接丰富而且更新速度快。因此,教材以国外专业英文经典论著为基础,结合国内的优秀教材,同时运用查阅网络、资源共享、集中交流等手段选取一些介绍专业前沿领域及发展动态的相关文献,这样使学生在学习基础专业知识的同时又接触到学科前沿。英文经典让学生体会原版的表达方式及相应的语言氛围,相关文献让学生体会到科技文献严谨的写作规范和态度,学生在学习英语的同时,也能逐渐培养起一定的专业素养。贴近实际的案例分析,让学生了解到专业课的实际用途,而不是只感觉到空洞的理论。
关键词:统计学;教育改革;大数据
一、引言
最早提出大数据时代到来的机构是全球知名的麦肯锡咨询公司,该公司在一份研究报告中指出:“数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素,人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来”。
大数据是随着互联网技术的广泛应用带来的数据量和数据类型激增而衍生出来的一种现象,但大数据一词不仅指规模大、种类多的数据集,还包括对这种数据集进行采集、处理与分析以提取有价值信息和直接创造价值的技术构架和技术过程。大数据的第一个特征是数据量巨大。截止到2012年,数据量已经从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)级别。第二个特征是数据类型繁多、异构性突出,包括网络日志、音频、视频、图片、地理位置信息等等。第三个特征是数据价值密度较低,数据中存在大量重复性和无价值性信息或噪声。如何通过强大的计算技术和统计分析等方法迅速完成数据的价值提纯,是大数据时代亟待解决的难题。第四个特征是处理速度快、时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。
目前,不同的学科领域对大数据概念有着不尽相同的解释,但各种解释中大致可以从两个方面去理解。首先,大数据概念体现在数据量的巨大、种类的众多及产生速度的飞快,同时产生的数据集极有可能包含着各种半结构化和非结构化数据;其次,大数据概念还体现在对数据进行处理的手段和流程方面,由于数据量的庞大和类型复杂,利用常规的统计软件已经无法对当今的数据进行及时有效的存储、分析及处理。因此,所谓的大数据并不是单纯指数据流量的巨大,还指其结构的复杂和种类的多样,在数据处理和分析上需要采用高端计算平台或高级统计软件,以及海量数据中存在着可挖掘的潜在的大量价值信息与知识。
近年来,随着高速计算机的应用、信息技术的快速发展,特别是云计算技术的发展,使大数据的存储和分析技术得到迅速发展,目前的核心技术有MapReduce、GFS、BigTable、Hadoop,以及数据可视化等。在数据搜集上,可方便地通过在线互联网数据库获取二手数据或一手实时数据。在数据分析上,传统统计学方法采取的是基于统计模型的样本数据分析,而大数据分析技术则是通过高端计算平台,对大数据中的信息进行挖掘。
统计学作为对数据进行处理和分析的科学,必然受到大数据的影响。在大数据时代,统计学教育必须与时俱进,跟上时展步伐。近年来,有不少文献讨论了大数据环境下我国统计学教育的改革问题(例如[1]-[5]),本文在分析大数据时代特征的前提下,进一步讨论我国统计学教育的现状与挑战、统计学教育改革的内容、方法、借鉴和适应时代要求的变革问题。
二、统计学教育的现状与挑战
2013年,教育部对我国统计学专业设置进行一次新的调整,将原来的既可授予理学学位,也可授予经济学学位的统计学专业划分为统计学、应用统计学和经济统计学三个本科专业[6]。根据教育部高等学校统计类专业教学指导委员会2013年11月公布的数据,当时全国有194所高校开设了统计学专业,156所高校开设了应用统计学专业,164所高校开设了经济统计学专业[6]。目前,全国开设这三个统计学专业的高校个数和在校学生人数与2013年相比都有不少的增加。
面对大数据时代,我们目前的统计学教育无论在培养目标和教学内容上,还是在教育方式和人才培养模式上,都存在着亟待解决的挑战性问题。例如,在专业培养目标和人才培养过程中,我们比较重视课程层面上的评价,比较轻视专业层面上的整体评价,缺乏对学生综合能力的反馈机制。
关于教学内容,目前三个统计学专业在统计理论和应用统计两个方面有不同的侧重。统计理论主要包括:抽样理论、实验设计、估汁理论、假设险验、决策理论、贝叶斯统计、半参数和非参数统计、序贯分析、多元统计分析、时间序列分析、小样本理论和大样本理论等。在数据分析中,现今的统计方法基本以结构化数据为主要处理对象,而对非结构化和半结构化数据的分析和工具涉及较少。因此,现今统计学课程及内容已不能满足从事非结构型和半结构型的大数据研究和商业应用对人才培养的需要,必须进行必要的改革。
对于教育方式,鉴于大数据时代要求,统计分析人员需要具备较高的数学和现代统计学基础,具有较高的软件操作能力,掌握一定的大数据收集、整理、分析、处理和挖掘数据的技能。日本学者城田真琴认为:“数据科学家要有计算机科学专业背景,数学、统计方面的素养和使用数据挖掘软件的技能,善于利用数据可视化的手法展现晦涩难懂的信息,而且具备相应的专业知识、眼界和视野,具有适应社会发展和创造价值的能力”。现今的统计学教育方式还不能很好适应大数据时代数据科学人才培养需要,必须进行必要及时的调整和变革。
对人才培养模式,大数据时代不仅要求培养具有数据处理和分析所需的基本素质与技能,更重视培养从海量数据中发现和挖掘价值信息、把握市场机遇、创造利润的潜在能力。面对大数据时代的诸多挑战,现代统计技术、数据挖掘方法、计算机信息技术、软件工具和理念的日新月异,培养统计人才的教育模式也需要相应变化,统计学教育只有与时俱进,主动做出全面的调整和变革才能适应新时代知识进步和激烈人才市场竞争的需要,积极迎接大数据时代的挑战。
大数据时代对统计学教师有更高的要求,统计学教师需要与时俱进,跟上时代步伐。随着互联网、物联网、云计算等信息技术的发展,对数据的分析和处理的技术也随之要求更高,统计学教师固有的知识体系已不能满足培养现代统计人才的需要,必须进一步深化和更新原有的统计学理论知识,而且还需要学习掌握计算机技术、互联网、数据库和信息科学等有关知识和技术,同时还要熟悉处理非结构型和半结构型数据的知识和技能,以适应现代统计学教育对教师的知识结构和基本素质的要求。
大数据时代对统计专业的学生也提出了更高的要求,他们不仅需要掌握现代统计理论、统计方法和专业统计软件,还要学会如何分析、处理来自互联网或各种实际问题中的海量数据,如何利用统计软件和互联网技术进行数据操作,如何借助软件技术和统计准则判断数据质量,如何进行模型选择和评价模型方法的有效性,如何准确清晰地呈现统计分析结果和结论,等等。
2014年11月,美国统计学会了统计学本科专业指导性教学纲要 [7],该教学纲要对统计学专业提出四个方面的要求:(1)具有扎实的数学和统计学基础、强大的统计计算和编程能力,熟练使用统计软件和数据库;(2)分析来自现实问题的真实数据,真实数据是统计专业教育的重要组成部分;(3)掌握多样化的统计模型方法;(4)具有通过语言、图表和动画等方式解释数据分析结果的能力。美国是统计学教育和人才培养最先进的国家之一,该指导性教学纲要代表着美国统计学专业培养人才的基本要求和发展方向,对我国统计教育的改革具有重要的参考价值。以该指导性教学纲要为参考依据,对照我国目前的统计学本科专业教育,无论是在培养目标和课程设置方面,还是在教学内容和教学方法方面,都存在着亟待解决的挑战性问题。
三、统计学教育的改革
大数据时代的统计学教育不仅是各种统计方法、数据挖掘方法和信息技术手段的延续或发展,更主要的是这些方法的集成应用和在实际数据分析中的真实体验。过去,企业数据库价格昂贵,在统计学教育的教学案例或实验课教学中,很少采用真实和海量的数据库资源,基本都是采用过时或虚拟的数据。今天,像百度大数据引擎这样的数据库的逐步对外开放,将有助于开展“线上大数据统计实验”教学。为了适应大数据时代要求,有必要利用网络资源以及各种数据处理软件,搭建线上大数据分析实验教学平台,全面开展大数据统计实验教学的改革。实际上,借助大数据分析平台,本科阶段的统计学教育就可以融人联机分析和数据的可视化教学。其次,要时刻关注大数据分析理论的进展,及时将新理论新方法融入课堂教学内容。
需要指出的是,在大数据时代,经典统计理论和方法并没有过时,但需要进行改进和进一步发展。这是因为,网上采集的巨型数据集往往存在大量的重复性和无价值数据信息,使得大数据价值密度降低。在对这些数据进行分析处理之前往往需要通过去噪、分层、截断、聚类等方法的预处理,将其变成便于进行分析处理的小数据,继而借助于经典统计方法进行分析和处理。因而在大数据时代仍然需要采用传统统计学的小样本理论和方法。所以,即便是在大数据时代,经典统计方法仍然是进行统计分析的基石,其核心地位不可动摇。所以,在大数据时代仍然要强化统计学的基本理论和方法,尤其是在长期发展和实践应用中经过验证的、成熟有效的经典和现代统计方法,在大数据时代仍然没有过时,但需要结合大数据分析的需要对经典统计方法进行必要的发展和改进。
大数据科学需要统计学与数学、计算机等学科的结合。亚马逊大数据科学家John Rauser 认为:“数据科学家是统计学家和计算机工程师的结合体”。为了满足大数据时代的要求,统计学专业的课程设置需要进行必要的调整。应根据新时代人才培养的要求,增设与大数据前沿领域发展相关的课程,如计算机网络和大数据相关的软件应用,同时要加大实验课和社会实践课的比重,引导学生理解和掌握大数据概念、理论、技术和方法,培养其运用大数据的相关分析工具解决实际问题的能力。对于理论课程,除基本统计理论外,还应开设一些较为现代和深入的课程,如现代贝叶斯方法、神经网络、数据挖掘、应用随机过程论等。另外,还应开设与大数据分析相关的关联规则、决策树、机器学习、支持向量机等课程。
为了培养与时代适应的统计学人才,统计学专业教师应不断更新自身的知识结构和价值观念,改变认识数据、收集数据和分析数据的思维,主动学习和补充互联网、现代数据分析技术、数据库和数据挖掘技术,使自己的知识体系不断更新和提升,跟上时展的步伐。
在大数据时代,要注意培养学生适应社会的能力。统计专业人才培养模式应以提高本专业学生数据分析方面的能力,开阔他们的视野,培养其适应社会的能力。应积极引导学生进入实训场所动手操作和锻炼,尝试以企事业单位的财政、金融、保险、统计、咨询和信息公司等部门为主构建专业性教育实践基地。鼓励学生到大数据相关的机构部门、产业园区和企业中去调查研究和实践。此外,统计专业应积极同其他专业进行合作,联合培养适应新时代要求的数据分析人才。鉴于大数据对数据分析人员在计算机技术、行业认知、业务知识、数据分析工具和方法的要求提高,统计学科应主动与计算机、经济学、管理学等相关学科合作,培养学生的计算机能力、专业素质和业务修养。
“它山之石可以攻玉”,关于统计学专业的课程设置,可以参考和借鉴美国统计学会公布的统计学本科专业指导性教学纲要。根据该教学纲要,统计专业的课程设置应该涵盖五个模块[7]:(1)统计方法与统计理论。建立统计模型并对模型的输出结果进行评价,熟悉统计推断,能够从数据分析中得出恰当的结论。(2)数据操作和统计计算。熟练使用一款专业统计软件进行探索性数据分析,发现和清洗数据中的错误记录,具有编程能力和算法思维,可以进行各种数据操作,还应掌握统计计算技术,能够进行模拟研究。(3)数学基础。熟练掌握微积分、线性代数、矩阵论、概率论和数理统计的基础知识。(4)实践训练和表达能力。具有良好的表达和交流能力,善于通过图示和动画等听众易于理解的方式展示分析结论,并且具有团队合作精神和项目领导能力。(5)特定领域的知识。掌握特定应用领域的知识,并用统计学特有的思维方法来分析和解决特定领域的实际问题。
大数据时代是以数据为中心的时代,统计学专业的教育改革必须适应这个时代的要求。统计数据分析中软件应用能力至关重要。在众多统计软件中推荐使用R和SAS软件,因为R是免费开源软件,其统计建模、统计计算和可视化功能强大,更新迅速,是最新统计方法的主要平台,非常有利于培养学生的编程能力和知识更新能力,而SAS软件被很多公司用于数据管理和数据分析,在实际应用领域具有长期而深远的影响,是数据分析不可或缺的专业统计软件。当然,教学中也可以尝试使用其他专业统计软件,例如经济统计专业学生也可使用SPSS软件,但最好会使用SAS或R软件。在加强软件使用和编程能力的基础上,应加强学生统计计算和统计模拟能力的培养。在大数据时代,强调统计计算的重要性是大势所趋。统计模拟技术是伴随着高速计算机和信息技术的快速发展而广泛应用的现代技术,可用来解决传统学科领域中无法解决的问题。例如,在计算技术飞速发展的今天,贝叶斯统计方法过去曾经面临的计算瓶颈正在逐渐消失,基于马尔科夫链蒙特卡洛(MCMC)技术的统计模拟方法在数据分析中的强大威力正在日益显现[8]。
参考文献:
[1] 刘春杰,大数据时代对当代统计学教育的挑战,统计与决策,2015年,第8期。
[2] 孟生旺,袁卫,大数据时代的统计教育,统计研究,2015年,第32卷4期。
[3] 葛虹,韩伟,大数据时代统计教育变革的SWOT分析与发展策略,统计与决策,2015年,第4期。
[4] 张海波,黄世祥,统计学专业学生大数据分析能力的培养方式选择,统计与决策,2014年,第24期。
[5] 李卫东,大数据对统计学科发展的影响,统计与决策,2014年,第13.期。
[6] 教育部高等学校统计类专业教学指导委员会.统计学专业教学单位.http:///category/信息公开/教学单位,2013-11-15.
(一)以统计分析软件为分析工具
在构建案例库过程中,会面对大量的现实数据,更离不开统计软件的使用。经过长期的统计学教学实践总结,Excel、SPSS、Eviews等统计计量软件普及程度高,简单易学。这些统计软件能进行描述统计分析、方差分析、回归分析、时间序列分析;统计软件协助学生进行数据模拟,展示抽象统计公式。以统计软件作为构建案例库的辅助工具,不仅可以提高对案例数据进行处理和分析的需要,而且统计软件基本具有强大的绘图功能,能使后续案例授课直观明了,从而加深学生对统计理论的运用和认知。
(二)以资源型城市采煤沉陷区为主要调研对象
应用性高等教育人才符合地方区域经济发展要求,服务地方经济。作为应用型本科院校的经管统计类课程更具较强的区域性和应用性,让学生亲身调研搜集数据,利用课堂所学的统计理论应用技巧能让统计学系列课程教学达到最好的效果,也能分析解决区域经济发展中的实际问题。我们基于资源型城市的本科院校,以资源型城市和采煤沉陷区以及中小企业发展为主要调研对象。每年组织正在学习统计类课程的学生进行系统的实地调查(塌陷区农户、农村实地调研、中小企业微观数据调研、消费者行为调研等)。大量开展课外实践活动,学生可以从实践中搜集资料,从数据中学会统计软件,从软件分析结果中提炼调研结果,从调研结果中凝练统计类课程案例,构建应用性高等教育资源型城市统计学系列课程案例库。
二、构建统计类课程案例库的必要性及重要性
笔者通过对国外著名大学(哈佛大学、芝加哥大学、普林斯顿大学、剑桥大学、伦敦经济学院)的官网课程设置说明的查询,新浪、网易、优酷名校名师讲坛视频的学结出当前国外统计学教学,案例教学的凸显特点。传统统计学类课程授课时,教师基本以经济理论、统计理论为主。因此,统计教学具有明显的理论性,但其课程却还兼具强烈的实践性、应用性和特色性。因此,“黑板粉笔”理论教学就不再适应统计学综合特征,构建应用性高等教育统计学类案例库就成为时代的必然。由德国教育家瓦•根舍因和克拉夫基最先倡导的案例教学法,其意义是“运用精选的范例使学生掌握一般的具有普遍意义的知识,形成独立和主动学习的能力”。统计学类课程作为一系列应用性和实践性极强的学科,通过利用理论作为分析现实经济的分析决策工具,其教学目标是培养学生运用数理统计理论分析解决实际问题,而案例教学则是实现该目标最主要和最有效的途径。
三、构建统计学类课程案例库思路
基于地方应用型本科院校办学目标,区域经济发展人才需求任务,应用性高等教育统计学类课程案例库构建要基于以下四个步骤:
(一)综合教学
所谓综合教学就是理论与实验相结合、案例与实践相结合的教学模式。构建案例库的最终目的是服务教学。综合教学方式以多媒体案例进行教学,调动学生学习的积极性和主动性,将案例嵌入统计理论当中,组织学生进行案例讨论,积极开展课外实践调研,积极将理论与实践相结合,提升其分析解决问题的能力。
(二)课外实践调研
积极引导学生亲自参与各类项目及课外调研,基于资源型城市发展特色,采煤沉陷区各种现存的数据,组织授课学生以考核方式组成小组自选课题,设置调查问卷,进行实地调研。以调查的过程及搜集回来的微观数据资料进行编写,集中体现大学生行为、资源型城市采煤沉陷区和中小企业发展及城镇化发展等微观数据。细化而言,大学生消费行为、大学生兼职行为、资源型城市产业发展现状、资源型城市经济发展现状、采煤沉陷区农户生活现状、采煤沉陷区综合治理情况、采煤沉陷区土地流转情况、采煤沉陷区失地农户劳动力转移现状、中小企业发展现状、中小企业融资现状、小微企业经营能力瓶颈等等案例。这些案例大大地丰富了理论教学,并利用学生身边现象,贴近学生生活现实,体现资源型城市发展特色,解决资源型城市采煤沉陷区存在的种种社会及经济问题。
(三)整理实践调查数据、统计软件分析数据和编制案例
为了满足区域经济发展需求和应用性人才需求以及统计学类课程教学要求,我们编制案例时主要从资源型城市统计年鉴及政府公报和以上大量学生实地调研微观数据获取,通过搜集回来的数据,利用各种传统理论课程中相对应的理论与统计软件进行分析,系统编制案例,最终择优收录我们构建的特色案例库。随着每年教学变化及时展,案例库将逐步更新并完善。案例素材的另一渠道是由师生共同查阅国内外著名高校统计学案例库,选取经典案例,编辑经典统计案例。在案例编写的过程中,让学生积极参与,发挥其主动性和创造性,并在案例中附学生的调研前期、中期及后期的经验和心得,从而丰富特色案例库的内容。
(四)建设资源型城市案例库
关键词:卫生统计学 PBL教学模式 教学改革
中图分类号:G623 文献标识码:A 文章编号:1674-098X(2013)04(b)-0158-01
卫生统计学是研究居民健康状况以及卫生服务领域中数据的收集、整理和分析的一门科学,是预防医学本科生必修的一门基础课程,它具有实用性强、应用广等特点。卫生统计学的理论知识体系有别于其他门类的医学课程,因此被很多医学生认为是一门难以学习和掌握的课程。Problem-Based S.Learning,简称PBL,是美国的神经病学教授Ho Barrows于1969年首先创立,认为是一种较好促进学生的评判性思维能力的教学方法[1]。自引入医学教育领域以来,许多研究表明PBL有利于学生提高学习技能和实践能力。我们尝试在卫生统计学教学过程中引入PBL教学模式,调动医学生的学习主动性。
1 PBL教学模式与传统教学模式的区别
传统的教学多采用“灌输”的方式,老师灌得多,导得少;学生学得多,议得少;授课时间多,自学时间少。学生学习缺乏主动性,只能被动接受知识,遇到实际问题时,仍不能确定该选用哪种统计方法。这种模式下学生的学习动力和积极性明显降低,由于长期的死记硬背,学生的分析问题推理能力未能很好锻炼,不能充分合理地运用其学过的知识来解决问题。PBL教学法则是在介绍每章内容前要先提出一个或多个在实际工作中常常遇到的问题,然后再引导学生寻找解决问题的方法,使学生对统计方法的原理尤其是应用有了深刻的认识,在实际工作中就能够正确选择统计方法了。
2 PBL教学模式成功的关键
2.1 教师角色的转变
在PBL教学中,教师的角色要从知识的传授者逐渐转变为学生学习的帮促者,要设计恰当的问题;在课堂交流中营造轻松的课堂气氛,培养学生的问题意识,提高他们的提问能力。
2.2 学生的学习态度
以交互讨论为主要学习方式,调动学生主动学习积极性,密切师生联系和双向交流,采用理论和实践相结合的教学方法,以问题为基础的学习和训练,帮助学生系统掌握统计基本概念与统计方法,提高学生解决实际问题的能力,最大限度地调动他们的能动性,培养学生的创造性思维[2]。
3 PBL教学模式的具体步骤
PBL教学为将来独立解决问题奠定基础,其具体步骤。
(1)理论授课:结合各个章节的内容,采用案例教学,以典型案例引出问题,给出正确处理问题的统计思路与统计分析方法。
(2)确定问题:每次理论授课后,由授课教师根据各章节的内容,结合自身科研工作中所遇到的问题以及文献中出现的统计学问题,进行归纳总结,提出问题,同时明确学生的学习目标与任务。
(3)小组讨论学习:指定学生组成专题学习小组,各小组根据特定问题查阅文献,对文献中研究内容、存在的不足以及如何改进进行课堂讨论分析,并对分析讨论结果已报告形式进行总结。
(4)教师指导:教师对学生在文献资料的检索与学习过程中遇到的问题提出建议和指导,归纳总结各小组讨论报告。
(5)成绩评定:通过小组自评、学生互评、教师评价等形式对专题学习小组和课堂提问的学生进行评定[3]。
4 PBL教学模式的局限性及相应对策
4.1 PBL教学模式的局限性
PBL教学模式实施过程中也存在一些问题,影响PBL教学效果。(1)传统教学法的讲授能给学生一个系统的知识框架,而PBL教学只是针对某个问题进行探讨,影响了教学内容的系统性。(2)学生长期习惯于传统式的灌输式教学,缺乏主动学习的技巧。(3)卫生统计学总课时有限,学生要较好地回答问题,需占用大量的课余时间,加重了学生的学习负担。(4)目前国内医学院校采用的各种版本卫生统计学的教材,编排体系并不适合PBL教学。
4.2 解决对策
针对PBL教学模式出现的问题,可以采取以下策略:(1)PBL教学模式结合传统教学模式――各章节内容学习时,首先采用经典案例授课,用经典案例引出分析问题的统计学思路,给出解决问题的统计学方法,在讲授理论同时培养学生形成统计思维方式。(2)根据专题讨论内容,加强师生互动,培养学生提问的能力,充分调动学生的主观能动性,改变传统教学中学生被动学习的局面。(3)结合授课情况以及学生学习过程中出现的问题,及时给予指导,使学生在较短时间内高效完成学习任务。(4)培养学生分析问题和解决实际问题的能力的关键是看老师的主导作用与传授知识的技能和技巧,这就要求老师不断提高自身业务素质[4]。(5)根据授课内容、设置的问题、讨论主题,探索编制适合PBL教学模式的卫生统计学教材。
通过PBL教学模式改革,使预防医学本科学生逐渐培养起良好的科研思维能力,了解卫生统计学理论知识体系,将实践与理论知识相结合,增强学生解决实际问题的能力,同时提升教师的自身素质,在提高教学质量同时也有助于教师医学科研能力的提升。
参考文献
[1] 孙蓉,王劲松,孙峰.PBL教学模式在医学统计学教学中应用效果评价[J].中国校外教育,2010(1):95.
[2] 彭志行,赵杨,易洪刚,等.PBL教学模式在医学统计学教学中的应用[J].中国高等医学教育,2010(3):79-81.
关键词:计量经济学;“深入浅出”;实验教学
中图分类号:G642.4 文献标志码:A 文章编号:1674-9324(2014)19-0077-02
一、计量经济学背景介绍
1.计量经济学的产生与发展。计量经济学(Econometrics)一词最早由挪威经济学家、第一届诺贝尔经济学奖获得者弗里希(R.Frisch)于1926年在《论纯经济问题》一文中,按照“生物计量学”(Biometrics)一词的结构仿造出来的。计量经济学是经济学的一个分支学科,是以揭示经济活动中客观存在的数量关系为内容的分支学科,是由经济学、统计学和数学三者结合而成的交叉学科。1930年12月弗里希和丁伯根(J.Tinbergen)等经济学家发起在美国克里富兰成立国际计量经济学会,该学会的成立标志着计量经济学作为经济学的一门独立学科被正式确立。美国诺贝尔经济学奖获得者萨谬尔森(P.Samuelson)认为:“第二次世界大战后的经济学是计量经济学的时代。”20世纪70年代以来,随着计算机的广泛应用和非经典计量经济学的理论有了新突破,使得计量经济学的理论和应用又进入一个新的阶段。
2.计量经济学在国内的发展。中国高等学校开设计量经济学课程已有20多年的历史,起初只是在部分学校的少数专业开设,1998年经教育部全国经济学教学指导委员会讨论决定,把计量经济学纳入了高等学校经济学门类各专业8门共同核心课程之一。全国各高校不仅在经济学类各专业已普遍开设了计量经济学,而且一些管理类专业也十分重视这门课程的学习。与此同时,计量经济学的学习不再仅限于理论层面,计量经济分析在经济领域中得到一定运用,仅从经济学类期刊文章看,学者在探索经济问题的过程中,更希望通过对经济问题的定量分析来提升文章实用价值,它也成为文章含金量的一个重要尺标。据统计,在1984―2007年《经济研究》刊物上发表的近3300余篇论文中,以计量模型作为主要分析方法的论文占到了53%[1]。
二、计量经济学的学科特点
从学科综合性看,计量经济学是一门综合性边缘学科。计量经济学的一个显著特点是它自身并没有固定的经济理论,计量经济学中的各种计量方法和技术,大多来自数学和统计学,但建立的计量经济模型需有相关的经济理论作为支撑。因此,在运用计量经济学的过程中,我们需坚持以科学的经济理论为指导,紧密结合经济问题所处的环境,选择适当的计量方法才能使计量研究成果发挥它应有的作用。从方法论角度看,计量经济学是一门工具学科。作为方法论学科,计量经济学信奉“经验主义”,作为经济问题分析的工具,计量经济学需要通过对经济问题的数量关系,并从定量角度分析实际经济问题。因此,计量经济学通过自身的优势,将现实中的经济问题,通过计量经济方法并结合相应软件,将经济问题转化为可度量且具有实际经济意义的分析结果,并为后续政策的制定提供数据支撑。
三、计量经济学在财经院校的发展现状
财经院校在开设课程的过程中,更强调课程的实际应用而不是课程的理论推导,理论推导并不是其教学主要目的。虽然理论推导及证明不是其学生的强项,但学生具有较强的经济学基础。虽然计量经济学作为经济学门类各专业核心课程,且该课程在教学建设中越来越受到重视,但计量经济学在财经院校的课程开设中仍面临着许多挑战。首先,课程具有课时少、内容多、实践性强的特点。目前,财经院校为本科生开设的计量经济学课时较为有限,而计量经济学是由经济学、统计学和数学结合而成的交叉学科,以微积分、线性代数、概率论与数理统计、微观经济学、宏观经济学和经济统计学等为先修课程。因此,计量经济学所涉及的知识内容广泛,内容较多。其次,计量经济学现有教学特点致使学生课程压力进一步加大。计量经济学要求学生在学习计量经济学之前必须具有宏微观经济学、微积分、线性代数、概率论及数理统计等先行课程的良好基础。但对财经院校而言,选修计量经济学课程的本科生其数学基础参差不齐,加之开设的时间正好为学生专业课最多的时间段。另一方面,计量经济学的学习是一个循序渐进的过程,前部分知识掌握的熟悉程度将直接影响后面知识的学习效果。最后,教学方法仍以理论讲授为主,导致教学的“深入深出”。现行的计量经济学教材中充斥着各种数学公式,教师在教学过程中可能过分注重于数学理论推导,而忽视了财经院校学生知识结构背景,在课堂教学过程中缺乏对学生的引导与启发,使得学生对计量经济学的学习兴趣缩减。
四、实现计量经济学本科教学的“深入浅出”途径
如果在计量经济学教学过程中忽视定量分析,经济研究很难深入下去,对经济“政策效应的验证也是一句空话”,但如果不改变理论脱离实践的问题,我们将会看到从公式到公式的数字游戏[2],这将最终形成计量经济学教学的“深入深出”,教学效果难于达到最大化。从财经院校本科教学视角出发,实现计量经济学教学的“深入浅出”教学途径可以从以下几方面进行考虑:
1.选择经典计量经济学部分作为本科教学重点。在本科阶段,计量经济学的教学目标应定位于让学生掌握计量经济学最基本的理论与方法,让学生具有运用计量经济方法分析实际经济问题的初步能力[3]。其中,经典计量经济学应用最为普遍,也是学习更高层次计量经济学课程的重要基础,符合财经院校绝大多数本科教学的实际要求。因此,可以选择经典计量经济学部分作为本科教学重点,更多的非经典计量经济学的内容可以放入更高层次学生的教学或学生根据自己个人兴趣爱好拓展非经典计量经济学知识。
2.减少数学的理论推导,重视其分析思想及实际应用。计量经济学是一门经济学课程,并不是数学课。因此,教学的内容和教学过程不能过于数学化。尽可能地避免不必要的数学推导,使学生了解方法的基本思想即可。以学生扎实的经济知识基础为支撑,加强其计量经济学的实际应用。
3.加强实验教学及启发教学。教师在教学实践中需适当引入案例调动学生的学习兴趣,增加教师与学生之间的互动。根据理论教学的进度合理安排实验教学的时间,通过案例演示及实验操作以提高学生解决实际问题的能力。在案例讲解的过程中,选择经济热点主题,同时案例内容紧扣教学大纲,改变教材中实例一成不变的形象,保持案例的动态更新[4]。计量经济学的实验课程学习可以让学生更为直观掌握计量经济学的运用。在实验课案例讲解的过程中,各个步骤需要结合经济问题及计量经济软件讲解,增加讲解的直观性,培养学生综合运用知识的能力。
4.增加同行间的学术交流,把握学术前沿发展动态。计量经济学是一门交叉性学科,虽然这门学科在中国发展仅20多年,但其运用领域在不断扩大。仅从目前权威的经济学类相关文献统计数据可知,越来越多的文献在分析实际经济问题的过程中涉及计量经济学方法作为辅助。计量经济学在中国的发展仍不成熟,并且其学术前沿问题也在不断更新,仅凭专业教师单一力量还略显单薄,因此,专业教师需增加专业间的学术交流活动,探讨专业领域相关困惑。通过学术交流活动,专业教师可以更为深刻地理解计量经济学相关理论及学术前沿发展动态。教师在教学过程中可适当为学生讲解专业相关的学术前沿发展现状,增强学生自主学习能力。
参考文献:
[1]陈永伟.计量经济学课程教学的创新性探索与思考[J].科教新报(教育科研),2011,(4):12-13.
[2]陈岱孙.陈岱孙文集(下卷)[M].北京:北京大学出版社,1989.
[3]庄.关于《计量经济学》课程本科教学改革的研讨[J].统计与咨询,2010,(06):46-47.
[4]徐盈之.研究型大学高级计量经济学课程教学改革探讨[J].东南大学学报(哲学社会科学版),2009,11(12):228-231.
[5]高铁梅.计量经济学分析方法与建模[M].北京:清华大学出版社,2006.
[6]李子奈.关于计量经济学课程教学内容的创新与思考[J].中国大学教学,2010,(1):18-22.