时间:2023-08-31 16:30:59
引言:易发表网凭借丰富的文秘实践,为您精心挑选了九篇统计学的标准差范例。如需获取更多原创内容,可随时联系我们的客服老师。
【关键词】孕妇;步行;步态;胸部;骨盆;生物力学
ABSTRACT:fortablewalkingvelocity,amplitudesofpelvicandthoracicrotations,andtheircoordinationwerecomparedbetweenthetwogroups.ResultsComfortablewalkingvelocitywassignificantlyreduced.Therotationalamplitudesofpelvisandthoraxweresomewhatreduced,withsignificantlysmallerintraindividualstandarddeviations.AlsopelvisthoraxRelativeFourierPhasewasalittlesmaller;itsintraindividualstandarddeviationwassignificantlyreducedatvelocities≥1.06m/s.ConclusionThegeneralpatternofgaitkinematicsinpregnantwomenisverysimilartothatofnulligravidae.Pregnantwomenexperienceddifficultiesinrealizingtheharderantiphasepelvisthoraxcoordinationthatwasrequiredathigherwalkingvelocities.
KEYWORDS:pregnantwomen;walking;gait;pelvis;thorax;biomechanics
长期以来,人们一直认为妊娠影响孕妇的步态运动。Foti等研究发现,孕妇步行时跖屈的动量减少,髋关节外展的动量及骨盆的倾斜度均增加,骨盆的倾斜度的改变存在较大的个体差异[1]。Nagy等报道孕妇最舒适的步行速度显著性降低,亦存在较大的个体差异[2]。但Foti等认为这种变化并无统计学意义,并发现怀孕对步长或步周期长无显著性影响[1]。上述研究显示,孕妇的步态发生改变,但研究结果并不一致。大约25%患有妊娠相关骨盆痛的孕妇和5%产后患者需要就诊治疗,重症患者常常出现步行障碍[3]。对正常孕妇运动协调的研究可作为今后研究妊娠相关骨盆痛的步态运动的基础。笔者研究怀孕对步行时水平面上骨盆和胸廓运动协调的影响,以期有助于从生物力学的角度进一步了解妊娠相关骨盆痛患者的步态运动。
1对象与方法
1.1对象选取年龄20~45周岁的健康未孕妇女(对照组)和健康孕妇(孕妇组)作为观察对象。对照组13例,年龄中位数27岁(22~36岁),体质量中位数75kg(45~95kg),身高中位数172cm(157~190cm);孕妇组12例,年龄中位数32岁(30~38岁),体质量中位数76.5kg(67.5~89kg),身高中位数172cm(162~180cm)。
1.2方法
1.2.1仪器步行仪(BiostarGiant,荷兰AlmereBiometrico公司);三维运动捕捉系统(Optotrak,加拿大NDI公司)。
1.2.2方法受试者以不同速度在步行仪上行走。骨盆、胸廓和足部的运动由三维运动捕捉系统光学镜头拍摄记录。2组光学镜头位于受试者的身后。在受试者的胸背部第6胸椎棘突的位置和骶骨两髂后上棘之间各有一轻金属架,用尼龙束带将金属架固定其上,金属架上有3个可发红外光装置,构成一个刚体。为了捕获步行时足跟着地和足趾离地时的瞬间,在每侧足跟和第五跖趾关节处各安装一可发出红外线的装置。实验装置见图1[4]。实验开始时先让受试者在步行仪上行走3~5min,接着步行速度从0.17m/s每间隔1~2min增加0.11m/s,至1.72m/s。步行过程中,测试受试者最舒适步行速度和最大步行速度。每个速度下的数据采集共30s,抽样频率为100Hz。
图1测量步行时胸廓和骨盆运动的实验装置(略)
Fig1Experimentalsetupformeasuringthethoracicandpelvicmovementsduringwalking
1.2.3指标胸廓和骨盆的刚体在空间的运动代表各自的三维运动。设定刚体x、y、z轴的正方向为人体解剖位的前、上、左方位。通过计算xy象限上的反正切角度得出骨盆和胸廓在水平面上旋转角度的时序。骨盆和胸廓的旋转运动幅度(rotationalamplitude,RA)是从各自的运动时序上确定每一个步周期内最大与最小的角度差的绝对值。躯干的旋转运动时序是将骨盆运动时序与胸廓的运动时序相减而生成。在每一速度下对骨盆、胸廓和躯干的所有步周期的RA进行计算,取均值,分别确定为骨盆、胸廓和躯干的RA,并计算各自标准差。
应用快速离散傅立叶变换计算公式计算出每个运动时序的连续傅立叶相的时序。骨盆和胸廓的傅立叶相差时序是由胸廓的傅立叶相时序与骨盆的傅立叶相时序相减而产生。运用圆周统计学计算出骨盆和胸廓运动的傅立叶相差(relativefourierphase,RFP)及其个体内标准差。若RFP为0,表示同相协调运动;若RFP为180°,则表示反相协调运动。
1.3统计学处理应用SPSS10.0软件,采用方差检验,P<0.05为差别有统计学意义。
2结果
2.1步行速度正常孕妇的最舒适步行速度中位数1.06m/s(0.72~1.28)m/s,对照组为1.17m/s(0.83~1.50)m/s,2组比较差别有统计学意义(P<0.05)。
2.2骨盆和胸廓RA及其个体内标准差骨盆RA先是随着步行速度的增加(0.94~1.06m/s)而逐渐减小,然后随着步行速度的增加而逐渐增加(图2A)。孕妇组和对照组骨盆RA分别为(9.1±福建医科大学学报2008年5月第42卷第3期吴文华等:正常孕妇步行时骨盆与胸廓水平面的旋转运动3.5)°和(7.7±3.2)°,其速度效应差别有统计学意义(P<0.05)。孕妇骨盆RA的个体内标准差较对照组减少(P<0.05),孕妇组和对照组的值分别为(1.3±0.4)°和(1.6±0.5)°(表1)。
图2对照组和孕妇组在不同步行速度下各部位的旋转运动幅度(略)
Fig2Rotationalamplitudesofthepelvis,thethoraxandthetrunkduringgaitatdifferentwalkingvelocitiesofthecontrolsubjectsandthehealthypregnantwomen
表1各变量的速度效应和组别效应(略)
Tab1Theeffectsofvelocityandgrouponthevariables(repeatedmeasuresANOVAs)
胸廓RA基本维持稳定而变化不大直至步行速度增至0.8m/s时,然后随着步行速度的递增而渐减少(图2B)。经方差检验,速度的效应差别有统计学意义(P<0.05)。孕妇胸廓RA的个体内标准差比对照组减少(P<0.05)。孕妇组和对照组的均值分别为1.2°和1.7°,其速度效应差别有统计学意义(P<0.05)。
躯干RA是随着行步速度的增加而递增的(图2C),孕妇的躯干RA较对照组约小1°,其速度效应有统计学意义(P<0.05),孕妇躯干RA的个体内标准差较对照组小(P<0.05),孕妇组和对照组的值分别为(0.7±0.3)°和(1.0±0.4)°,其速度效应有统计学意义(P<0.05)。在最舒适的步行速度下,孕妇骨盆和躯干RA较对照组小(P<0.05)。
2.3RFP及其个体内标准差
图3对照组和孕妇组在不同步行速度下的傅立叶相差及其个体内的标准差(略)
Fig3Relativefourierphaseanditsintraindividualstandarddeviationbetweentransversepelvicandthoracicrotationsatdifferentwalkingvelocitiesofthecontrolsubjectsandthehealthypregnantwomen
2组RFP均随着速度的增加而增加(图3A),呈一条S形曲线,在速度为0.83,1.17m/s的区域内最为陡峭。孕妇的RFP较对照组小7°。其步行速度效应有统计学的意义(P<0.05)。RFP的个体内的标准差与速度的关系有点不规则(图3B),随着速度的递增而增加,直至速度到达0.94~1.17m/s;接着是一个平台或稍有点下降,在最舒适的步行速度时,达到最高值。孕妇的RFP的个体内标准差较对照组小(P<0.05),其速度效应差别有统计学意义(P<0.05)。
孕妇的孕周数与RFP的个体内标准差相关系数为-0.68,差别有统计学意义(P<0.05)。在最舒适的步行速度下,孕妇的RFP及其个体内标准差均比对照组小(P<0.05)。
3讨论
3.1总体上孕妇的步态运动正常在2组中,速度对RA、骨盆胸廓RFP及其个体内的标准差的影响相似(图2~3),由此得出结论,孕妇的步态运动从总体上讲是正常的。怀孕和行走本身就具有高度的相容性,从进化学的角度而言,这并不难理解[5]。尽管如此,孕妇的最舒适的步行速度明显的下降,RA变小,尤其是在最舒适的速度下骨盆和躯干RA的减少具有显著性差异。他们的个体内标准差减少,具有统计学意义。骨盆和胸廓RFP变小,在最舒适的速度下具有显著性差异,其个体内标准差变小,在快速行走的速度下(≥1.06m/s),这种差别有统计学意义。孕周数与此个体内的标准差呈显著性负相关。孕妇必须适应怀孕的改变,比如体质量的增加。本研究揭示在孕妇身上发生了轻微但是连贯一致的运动学变化,这点与以往文献报道的有所不同[12]。
3.2孕妇骨盆胸廓旋转运动的RFP孕妇选择在低速下步行不能用节约能量的观点来解释,因为当步行速度低于(或高于)最舒适的速度时,须消耗更多的能量[5]。尽管如此,低速行走获得了更多时间来对微扰进行反应[6],这也许是孕妇由于额外的载荷或本体觉受干扰而选择低速行走的原因,目的是为了避免出现快速步行时的运动协调模式。
本研究表明,未怀孕妇女的最舒适步行速度出现在RFP的曲线上的平台起始段,而孕妇最舒适步行速度则是出现在曲线陡坡的半山腰处,此时2组间的RFP的差值为44°。当孕妇快速步行时,RFP值较高,但其变异性很小,这提示了对孕妇而言,完成大的RFP的步态是有困难的,这种现象同样发生在背着负荷的受试者、慢性下腰痛患者、妊娠相关骨盆痛产后的患者[4,78]。出现较小RFP的步态运动可以由许多种不同的限制性因素造成,妊娠便是其中之一。
比较骨盆、胸廓和躯干旋转运动的个体内标准差,他们的平均值分别为1.25°,1.29°和0.66°。如果骨盆和胸廓的旋转运动的控制是相互独立的话;而实际上,它的值小得多。因此,骨盆和胸廓的旋转运动似乎是同时受到控制的,虽然躯干的旋转运动在快速行走的协调方面不是一个“必须的变量”[9],因为躯干的旋转缺乏时间维。显然,RFP是和时间变量有关,它也许是快速步行时的必须变量,以确保快速行走时骨盆的旋转运动必须被胸廓的反向旋转运动所平衡[10]。就孕妇的步态而言,快速行走时骨盆和胸廓的惯性冲量将会增加,这也许是孕妇无法实现大的RFP步态运动的原因。
3.3孕妇步态运动的变异性自从Bernstein引入了“探索变异性”以来,对运动的变异性研究渐渐兴起。运动的变异性常常被认为是具有功能性,才有可能有灵活性、适应性;然而变异性会消耗能量及增加损伤的可能性,因此变异性的功能性必须看是针对何种情形而言[1114]。
一个较为奇怪的现象是骨盆与胸廓间的RFP的个体内的变异的最大值在非常靠近最舒适步行速度的地方出现。Masani等人发现地面作用力的变异在最舒适步行速度时最小[15],也许在最舒适的速度下,身体重心的垂直运动是必须的变量,而在水平面上的骨盆和胸廓间的RFP在快速步行时则变成是必须的变量。撇开RFP的变异性是如何发挥作用的,在怀孕期间,尤其在怀孕晚期,RFP的变异性是如何在最舒适步行速度下增加并且在快速行走时减少有待于进一步研究。
笔者认为,正常孕妇的步态运动学特征与未怀孕的妇女相似。尽管如此,2组间存在着许多细微的差别。孕妇的最舒适步行速度较对照组显著性下降。骨盆、胸廓和躯干的RA较对照组小。他们的个体内的标准差则较对照组低。在最舒适步行速度下,骨盆和躯干的RA较对照组小。孕妇组的RFP较对照组小,在速度≥1.06m/s,个体内的标准差呈显著性减少,尤其是在怀孕晚期表现更为明显。
【参考文献】
[1]FotiT,DavidsJR,BagleyA.Abiomechanicalanalysisofgaitduringpregnancy[J].JBoneJointSurgAm,2000,82(5):625632.
[2]NagyLE,KingJC.Energyexpenditureofpregnantwomenatrestorwalkingselfpaced[J].AmJClinNutr,1983,38(3):369376.
[3]WuWH,MeijerOG,UegakiK,etal.Pregnancyrelatedpelvicgirdlepain(PPP),I:Terminology,clinicalpresentation,andprevalence[J].EurSpineJ,2004,13(7):575589.
[4]WuW,MeijerOG,JuttePC,etal.Gaitinpatientswithpregnancyrelatedpaininthepelvis:Anemphasisonthecoordinationoftransversepelvicandthoracicrotations[J].ClinBiomech,2002,17(910):678686.
[5]McNeillAlexanderR.Energeticsandoptimizationofhumanwalkingandrunning:the2000RaymondPearlmemoriallecture[J].AmJHumanBiol,2002,14(5):641648.
[6]MakiBE,McIlroyWE.Theroleoflimbmovementsinmaintaininguprightstance:the"changeinsupport"strategy[J].PhysTher,1997,77(5):488507.
[7]LaFiandraM,WagenaarRC,HoltKG,etal.Howdoloadcarriageandwalkingspeedinfluencetrunkcoordinationandstrideparameters[J].JBiomech,2003,36(1):8795.
[8]LamothCJ,MeijerOG,WuismanPI,etal.Pelvisthoraxcoordinationinthetransverseplaneduringwalkinginpersonswithnonspecificlowbackpain[J].Spine,2002,27(4):E9299.
[9]Gel''''fandIM,TsetlinML.Theprincipleofnonlocalsearchinautomaticoptimizationsystems[J].SovietPhysicsDoklady,1961,6(3):192194.
[10]LamothCJ,BeekPJ,MeijerOG.Pelvisthoraxcoordinationinthetransverseplaneduringgait[J].GaitPosture,2002,16(2):101114.
[11]BongaardtR,MeijerOG.Bernstein''''stheoryofmovementbehavior:historicaldevelopmentandcontemporaryrelevance[J].JMotBehav,2000,32(1):5771.
[12]HeiderscheitBC.Movementvariabilityasaclinicalmeasureforlocomotion[J].JApplBiomech,2000,16:419427.
[13]VanDienJH,DekkersJJ,GroenV,etal.Withinsubjectvariabilityinlowbackloadinarepetitivelyperformed,mildlyconstrainedliftingtask[J].Spine,2001,26(16):17991804.
关键词:差异指标 差异指标的差异
在统计学及其相关课程中,有关差异指标(也称“差异量数”,下同)的教学要点有二:一是差异指标的意义,二是差异指标的种类。前者的要义可概括为:综合反映总体(或样本)各个单位标志值(或数据)的差异程度(或离中趋势、离散程度等);后者的意思是说:差异指标的种类很多,它们各有自己的计算方法和特点。如果我们把后者的这种不同种类、特点也统称做“差异”的话,那么,我们在统计学有关学科的教学过程中,就应把这两个方面的“差异”向学生交代清楚,使他们对差异指标之“差异”有个客观、全面而准确的理解,从而避免由于理解的片面性得出错误的判断。
一、正确理解不同差异指标之间的“差异”
人教版初中代数第三册教师教学用书第171页有这样一段话:“在表示各数据与其平均数的偏离程度时,……为什么对各数据与其平均数的差不取其绝对值,而要将它们平方,……这主要是因为在很多问题里含有绝对值的式子不便于计算,且在衡量一组数据波动大小的‘功能’上,方差更强些。例如有两组数据:
甲 9 ,1 ,0 ,-1 ,-9;
乙 6 ,4 ,0 ,-4 ,-6。
从直观上看,甲组数据的波动要比乙组数据大些,但它们的平均差都是4,区分不出其波动大小;而甲组数据的方差是32.8,乙组数据的方差是20.8,用方差可将它们的波动大小区别开来。”
其实,上述的一段描述是在告诉读者这样一个命题:在平均差与方差(或标准差)之间,方差(或标准差)表示数据波动大小的“功能”强于平均差。
这个命题是真的么?请看下一个例子:
在一次射击比赛中,甲乙两射手成绩记录如下:
甲 9 ,7 ,9 ,9 ,7 ,7 ,7 ,9;
乙 6 ,8 ,8 ,8 ,10 ,8 ,8 ,8 。
计算他们的平均值、标准差、平均差(如表)。
在这里,两组数据的标准差都是1,区分不出波动的大小,但甲组的平均差为1,乙组的平均差为0.5,我们通过平均差得出结论:甲组成绩的波动性大于乙组的波动性。于是又否定了上述命题,并得到一个于完全相反的命题(叙述从略)。
显然,若综合以上两种(假)命题,取其正确部分的话,那么,正确命题应为:
平均差和标准差(或方差),在所反映的总体(或样本)单位标志值的差异性上具有一致性,但区分这种差异大小的“功能”谁更强些不是绝对的。
那么,为什么人们在学习、应用统计学的多个差异指标时更多关注的是标准差呢?主要有以下理由:(1)反映灵敏,它随任何一个数据的变化而变化;(2)严密确定,一组数据的标准差有确定的值;(3)适合代数运算,可以将几个标准差合成一个总的标准差;(4)可以用样本数据推断总体差异量;(5)在计算其它统计量时,如差异系数、相关系数、标准分数等,都需要标准差。
二、正确理解同一个差异指标值在实际背景中释义的“差异”
某社出版的数学辅导教材有题如下:
甲乙两组学生各有8人,参加某门学科测试成绩如表2(100分制),请比较两组学生的成绩哪组较好一些。
因为 ,甲组成绩的波动比乙组小一些,所以甲组学生的成绩较好一些。
笔者认为:标准答案制订者是建立在“组内学生之间学习差异越小,成绩越好”的教育教学理念下做出这一判断及结论的。要知道,在新课程的教育教学理念下是允许学生与学生之间存在差异的,倡导学生在学习各门课程时敢于“冒尖”、创新,不搞“一刀切”,要让学生在全面发展的基础上培养个人特长。在评价学生时,以多元智能理论为依据,多方法、多手段、多尺度地考查学生的学习效果。基于此,我们又可以认为乙组的成绩好于甲组。甚至,倘若再对照例题中两组学生的其他指标情况,比如优秀率:若规定90分以上为优秀,则两组持平;若规定85分以上为优秀,则甲组为1/8,乙组为1/2,也会得出乙组的成绩好于甲组的结论。
总之,我们在用统计中差异指标的“差异”值解释现实现象并下结论时,不可以将教材中所说的变异指标值愈小,对相应平均指标的代表性愈好、稳定性也好,机械地认为“一切都好”,这是对差异指标本质的误解和歪曲。
[关键词] 应收账款 应收账款周转率 预期值 标准差 变化系数
一、应收账款周转率指标的含义及其计算方法
应收账款是指企业销售产品、商品、提供劳务等原因,应该向购买客户收取的款项和代垫的运杂费,它是企业营运资金的重要组成部分。《企业效绩评价操作细则》规定了企业效绩评价指标由基本指标、修正指标和评议指标三个层次共32项指标构成。应收账款周转率指标是属于修正指标中的第五项指标,该指标反映了一个会计年度内应收账款转换为现金的次数,它说明了应收账款流动的速度,也叫应收账款回收期或平均收现期。计算公式为:
赊销收入净额数据来自于损益表,赊销收入净额=销售收入―现销收入―销售退回、折扣与折让;“平均应收账款余额”数据来自于资产负债表,平均应收账款余额=(“期初应收账款余额 ”+“期末应收账款余额”)/2。
一般说来,企业的该项比率越高,说明企业催收账款的速度越快,坏账损失越少,资产流动性和企业的短期偿债能力也会增强;若企业应收账款周转率过低,则说明企业催收账款的效率太低或信用政策过于宽松,会影响企业资金利用率和资金的正常周转。
二、应收账款周转率指标存在的问题及改进
1.对分子的改进
应收账款周转率反映的是本年度应收账款转为现金的次数,那么上述公式中的分子应该是本年应收账款不断收回现金所形成的周转额,而把主营业务收入净额作为分子有失偏颇。因为主营业务收入净额既包括赊销额也包括现销额,把整个主营业务收入净额(不管是现销、赊销)列为分子就暗含一种前提假设,即本年(本期)的销售,无论哪家企业、无论销售何时发生,本年(本期)都必须全部收回现金,只有这样应收账款周转率才能反映本年度或一定时期应收账款转为现金的次数。但关键是主营业务收入净额(即便全是赊销)也仅仅是一年(一定时期)的经营成果,而一般很难在同一年(同一时期)全部收回现金。这种前提假设与实际不相符,因此,主营业务收入净额绝不是应收账款收回现金的周转额,其不能作为应收账款周转率的分子。
根据应收账款的周转过程,赊销形成应收账款(记“应收账款”科目借方),收回现金形成应收账款周转额又使应收账款减少(记“应收账款”科目贷方),那么应收账款累计贷方发生额可以说是非常准确的应收账款周转额了,所以应收账款周转率的分子应为年度(一定时期)应收账款累计贷方发生额。考虑到取数的方便,可作相应的变通处理。由“期初余额+本期借方发生额-本期贷方发生额=期末余额”等式可推出:应收账款回收额=本期贷方发生额=期初余额+本期借方发生额-期末余额公式(1)。
2.对分母的改进
应收账款周转率指标的分母即应收账款净额来自于资产负债表,是一个静态的时点存量,容易受偶然性、季节性等外部因素和人为的内部因素影响,甚至可能发生巨大的期间波动。因此,使用该指标进行业绩评价时,为了减少这些因素的影响,最好使用多个时点的平均数,而不采用年初和年末的应收账款余额。具体方法如下:
根据统计学原理,按月根据时点数列序时平均数法计算年应收账款年平均余额,以减弱会计报告期异常波动的影响,根据应收账款总账所提供的年初及每月末余额,那么:
加权年平均应收账款余额=(X0+X1+X2....+X11+X12)/12公式(2)。其中X0,X1……X11,X12代表年初和1月……11月、12月的期末余额。
因此,改进后的周转率公式如下:
三、应收账款周转率指标风险比较
计算出应收账款周转率指标后,为了使财务报表的外部使用人可以将计算出的指标与其他类似企业的指标相比较,以此判断该指标的高低并判断本企业的应收账款的周转处于怎样的一个水平和代表怎样的风险。因此,笔者试图以全国医药行业总体和同是医药行业的丰原药业(股票代码:000153)1999年~2006年第一季度的应收账款周转率为例子,使用统计学中的离散程度来分析改进后的应收账款周转率,以此可以对企业应收账款周转率进行比较、判断,达到改进企业的信用政策的目的。
以下是1999年~2006年全国医药行业总体应收账款周转率分布图。
丰原药业(000153)公司各年应收账款周转率
根据统计学中的预期值和样本标准差的公式,其中样本数量均为8个(1999年~2006年1Q)分别求出全国医药行业总体和丰原药业的应收账款周转率的预期值E,标准差σ和变化系数q,以此来对丰原公司的该指标所代表的风险进行研究和判断。
A、B、C公司的标准差与变化系数
1.预期值
2.标准差
3.变化系数
从上可以得出,全国医药行业总体的应收账款周转率为4.1825次,比丰原药业高出1.9572个点, 但同时该指标代表的风险即标准差1.278257,也是较大的,高出丰原药业0.582764个点。 全国医药行业总体是属于“收益大,风险也大”的,对于报表使用者来说,应该怎样解读这个指标呢?为了解决这个问题,引入了变化系数的概念,它是从相对角度观察的差异和离散程度,在比较相关事物的差异程度时较之直接比较标准差要好些。该指标是个正指标,指标越小,在其他条件相同的情况下,是可以代表该指标的相对风险较小,如上例中的全国医药行业总体的绝对风险比较丰原药业大(标准差大了0.582764),但相对风险却较小(变化系数小了0.69%)。这样的比较,不管是对全国医药行业总体,还是丰原药业来说,对于应收账款这个指标,都可以做到心中有数,达到管理的要求。
四、结论和展望
众所周知,应收账款是营运资金的重要组成部分,它的大小直接影响企业资金的周转。改进后的应收账款周转率指标能够更好地反映企业从取得应收账款权利,到转化为现金所需要的时间,提高了应收账款指标的可信度。尤其是利用统计学的样本标准差和标准差系数,排除了绝对额因素影响,使得该指标不但可以较准确地反映应收账款的周转情况,还可以在一定范围进行定量比较,使得企业能够找出差距,改进管理,提高企业的资金周转水平。
参考文献:
[1]黄慧馨徐惠玲:《对“应收账款周转率”指标的分析及相关政策建议》,《财会通讯》[J].2004(1)
[2]荆波:《小议应收账款周转率》,《工业会计》,2003(3)
[3]《财务成本管理》,2007年度注册会计师全国统一考试辅导教材,经济科学出版社
[4]林媛:《浅析应收账款周转率的现实运用》,《金融会计》,J,2005(10)
[关键词]总体标准差;参数估计;无偏估计;系统误差;随机误差;综合误差;测量不确定度;自由度;标准差系数
[中图分类号]O 212 [文献标识码]A [文章编号]1005-6432(2013)10-0023-011
1 引 言
在科学实验中,测量可分为常量测量和变量测量两大类。物理量的变化量远小于测量仪器误差范围的测量称为常量测量(又称经典测量、基础测量),其核心理论是误差理论[1-3],误差理论的基本单元是误差元(测量值减真值)。测量仪器误差范围远小于物理量的变化量的测量称为变量测量(又称统计测量),其核心理论是数理统计理论(概率论是其理论基础),数理统计理论的基本单元是偏差元(又称离差元,测量值减数学期望)。标准差(standard deviation,又称标准偏差、均方差,其英文缩写词为SD,此术语1893年由卡尔·皮尔逊首创)是用来衡量一组测量数据的离散程度的统计量,它反映了随机变量的取值与其数学期望的偏离程度。经典测量学只能处理常量测量问题,而当今频域界的频率稳定度测量(常用阿伦方差表示)则属于变量测量。
等精度测量(equally accurate measurement)是指在测量条件(包括测量仪器的准确度、观测者的技术水平、环境条件影响及测量方法等)不变的情况下,对某一被测物理量所进行多次测量的一种方法。在实际测量工作中,由相同设备、相同人员、相同环境和相同方法所获得的各测量值可视为是等精度测量值。文献[4]介绍了流量计量中的计量学基本原则——等精度传递理论。
在测量实践中,有时为了获得准确度更高的测量结果,往往要求在不同的测量环境条件下,使用不同的测量仪器,选用不同的测量者和不同的测量次数,采用不同的测量方法进行对比测量,这种测量方法称为不等精度测量(unequally accurate measurement)。不等精度测量的不确定度应采用加权方式计算[5-6]。
若无特别说明,本文中所涉及的测量均指等精度测量。
2 误差的种类和应用
误差公理认为误差自始至终存在于一切科学实验和测量之中,是不可避免的,即误差无处不在,真值是不可知的。在实际应用工作中,可用约定真值或相对真值来代替理论概念中的理想真值。约定真值一般包括约定值、指定值和最佳估计值三种类型。
测量误差最基本的表示方法有如下三种:①绝对误差=测量值-真值,绝对误差通常简称为误差(即真误差);②相对误差=绝对误差/真值≈绝对误差/测量值;③引用误差=示值误差/测量范围上限(或全量程)。残差(又称剩余误差)=测量值-估计值,残差可认为是真误差的估计值。绝对误差和相对误差通常用于单值点测量误差的表示,而对于具有连续刻度和多档量程的测量仪器的误差则通常采用引用误差来表示。
按误差的特点和性质可将其分为粗大误差(parasitic error)、系统误差(systematic error)和随机误差(random error)三大类。可消除的粗大误差(又称过失误差,没有规律可循)应予全部剔除,系统误差(又称规律误差、理论误差或方法误差,一个定值或服从函数规律)反映测量的正确度(correctness),随机误差(旧称偶然误差、不定误差,服从统计规律,大多数服从正态分布规律)反映测量的精密度(precision),测量的准确度(accuracy,又译为精确度)则是用综合误差(即测量不确定度)来衡量的,有时也用极限误差来衡量测量的准确度。逐项获得测量的系统误差和随机误差,采用误差合成的方法(各系统误差绝对值相加得系统误差范围,各随机误差均方根合成则得随机误差范围。系统误差范围加随机误差范围可得综合误差范围)合成综合误差,它表征了测量结果与真值的不一致程度。
泛指性的“精度”一词常被用作“精确度(即准确度)”或“精密度”的替代词,因其并无明确和严格的科学定义,故在学术论文中应慎用或弃用。
下面简要介绍一下随机误差所遵循的一些基本统计规律,首先需要介绍中心极限定理:
当测量次数n无限增大时,在真误差序列中,若比某真误差绝对值大的误差和比其绝对值小的误差出现的概率相等,则称该真误差为或然误差(probable error,又称概率误差,它在衡量射击精密度时尤其显得重要),记作ρ。
作为精密度的评定指标,中误差最为常用,因为它反映了真误差分布的离散程度。
通常以2倍或3倍的中误差作为随机误差的极限误差(limit error),其置信概率分别是9544%(2σ准则)和9973%(3σ准则)。如果某个误差超过了极限误差,就可以认为它是粗大误差而被剔除,其相应的测量值应舍弃不用。
对于某个测量值,通常采用相对中误差(即中误差和测量值之比,又称相对标准差)配合中误差来衡量,它能更全面地表达测量值的好坏。
英国物理学家、化学家和数学家瑞利勋爵(Lord Rayleigh,1842—1919)以严谨、广博和精深而著称,他善于利用简单的设备做实验而能获得十分精确的数据。他因对气体密度的精确研究并因此参与发现稀有气体(旧称惰性气体)氩而荣获1904年诺贝尔物理学奖。1892年瑞利在研究氮气时发现[7]:从液态空气中分馏出来的氮,其密度为12572 kg/m3,而用化学方法直接从亚硝酸铵中得到的氮,其密度则为12508 kg/m3(现在的最权威数据125046 kg/m3是基于0 ℃和01 MPa时),前者比后者大05117%,因实验中已排除了粗大误差的可能,这一差异已远远超出随机误差的正常范围(现在通过t检验准则可以判定当时瑞利测得的空气中氮的密度数据是存在系统误差的)。英国物理化学家和放射化学家拉姆赛(Sir William Ramsay,1852—1916,1904年诺贝尔化学奖获得者)注意到这个问题并要求与瑞利合作对此问题展开共同研究,最终他们利用光谱分析法于1894年8月13日发现了第一种稀有气体─氩(Ar)。氩元素的发现是科学家们注意测量结果中的微小误差(实际上是系统误差)而取得重大科学发现的经典范例,是名副其实的“第三位小数”的胜利[8]。随后,其他稀有气体氦(He,1895年3月)、氪(Kr,1898年5月)、氖(Ne,1898年6月)、氙(Xe,1898年7月)、氡(Rn,1899年,继钋Po、镭Ra和锕Ac之后第4个被发现的天然放射性元素)陆续被拉姆赛等人所发现,稀有气体的发现完善和发展了俄国化学家门捷列夫(1834—1907)的元素周期表(1869年)。
3 统计量的概率分布类型
离散型统计量服从的概率分布类型主要有:①退化分布(又称单点分布);②伯努利(瑞士数学家,Jocob Bernoulli,1654—1705)分布(又称两点分布);③二项分布:包括超几何分布(又衍生出负超几何分布)、β-二项分布和离散均匀分布;④泊松分布:包括帕斯卡(法国数学家和物理学家,Blaise Pascal,1623—1662)分布(又称负二项分布)和几何分布;⑤对数分布等。
随机误差大多服从正态分布或标准正态分布,服从正态分布的随机误差具有单峰性、对称性、有界性和抵偿性。正态分布是随机误差遵循的最普遍的一种分布规律,但不是唯一的分布规律。随机误差服从的常见非正态分布(又称偏态分布)主要有:①均匀分布(又称矩形分布、等概率分布);②伽马分布(Γ-分布):包括指数分布(两个相互独立且都服从指数分布的随机变量之和服从广义指数分布)、厄兰(丹麦数学家和统计学家,Agner Krarup Erlang,1878—1929)分布和τ-分布(χ2-分布是其特例)等特例;③χ-分布:包括反射正态分布、瑞利分布和麦克斯韦(英国物理学家和数学家,James Clerk Maxwell,1831—1879)分布等特例,广义瑞利分布又称莱斯(美国通信理论专家,Stephen " Steve" Oswald Rice,1907—1986)分布(Rice distribution or Rician distribution),当v=0时莱斯分布退化为瑞利分布;④贝塔分布(B-分布);⑤F-分布:1934年美国数学家和统计学家斯内德克(George Waddel Snedecor,1881—1974)首创,为彰显英国统计学家和遗传学家费歇尔(Sir Ronald Aylmer Fisher,1890—1962,方差分析的发明者)的贡献,后来以其名字命名;⑥t-分布(又称学生氏分布):1908年由英格兰统计学家戈塞特(William Sealy Gosset,1876—1937)首创,因他以Student为笔名而得名;⑦对数正态分布;⑧极值分布:包括重指数分布和威布尔(瑞典数学家,Ernst Hjalmar Waloddi Weibull,1887—1979)─格涅坚科分布(参见本文第73节“极差法”)等;⑨柯西(法国数学家,Augustin Louis Cauchy,1789—1857)分布;⑩辛普森(英国数学家,Tomas Simpson,1710—1761)分布(又称三角形分布)等。此外还有反正弦分布、截尾正态分布、双峰正态分布、梯形分布、直角分布、椭圆分布和双三角分布等。多维概率分布则主要有:①多项分布;②均匀分布;③n(n≥2)维正态分布等。
因彼得斯公式法、极差法、最大误差法、最大残差法和最大方差法均只给出了正态分布下的标准差估计的系数因子,故它们一般不适用于非正态分布时的情形。
4 统计推断
统计推断是指根据随机性的观测数据(样本)以及问题的条件和假设(模型),对未知事物作出的、以概率形式表述的推断。统计推断是由样本的信息来推测总体(又称母体)性能的一种方法,它是数理统计学的主要任务,其理论和方法构成数理统计学的主要内容。统计推断分为参数估计和假设检验两大类问题。参数估计是假设检验的前提,没有参数估计,也就无法完成假设检验。
41 参数估计
运用从总体独立抽取的随机样本对总体分布中的未知参数做出估计,称为数理统计学上的参数估计,它是统计推断的一种基本方法。参数估计方法主要分为点估计法(根据样本构造一个统计量,用以对总体参数进行估计)和区间估计法(又称范围估计法,主要是根据置信度求置信区间)两大类。点估计构造统计量(估计量)的常用方法有:①顺序统计量法(又称次序统计量法):主要包括最大顺序统计量法和最小顺序统计量法两种。②贝叶斯法(又称贝叶斯公式、逆概率公式、事后概率公式或原因概率公式):1763年英国统计学家贝叶斯(Thomas Bayes,1702—1761)在其遗作《论有关机遇问题的求解》一文中首先提出。③最小二乘估计法(又称最小平方估计法):它可使残差的平方和为最小,1795年德国数学家、天文学家和物理学家高斯(Johann Carl Friedrich Gauss,1777—1855)首先提出其方法,1806年法国数学家勒让德(Adrien-Marie Legendre,1752—1833)首先用公式表示出最小二乘原理,1900年由俄国数学家马尔科夫(Andrey Andreyevich Markov,1856—1922)加以发展。④矩估计法(又称矩法估计、数字特征法):以样本矩的某一函数代替总体矩的同一函数来构造估计量的方法称为矩估计法,1894年英国数学家和统计学家卡尔·皮尔逊(Karl Pearson,1857—1936,被誉为“现代统计学之父”)首先提出。一个样本可确定一个经验分布函数,由这个经验分布函数可确定样本的各阶矩。称统计量S=1nni=1Xi为子样一阶原点矩(简称一阶矩,即子样均值);称统计量Sk=1nni=1Xki为子样k阶矩;称统计量S=1nni=1(Xi-)2为子样二阶中心矩(即子样方差);称统计量Sk=1nni=1(Xi-)k为子样k阶中心矩。⑤最小χ2法:χ2检验由卡尔·皮尔逊于1900年首先提出,故χ2统计量又称皮尔逊公式。⑥最大似然估计法(maximum likelihood estimation method,又称极大似然估计法):一种重要而普遍的统计量估计方法,其基本思想始于1821年高斯提出的误差理论,1912—1922年英国统计学家和遗传学家费歇尔首先将其应用于参数估计并证明了它的一些性质[9-10],其后他在工作中加以发展并使其臻于完善[11]。该估计方法在统计推断中无须有关事前概率的信息,克服了贝叶斯法(Bayes estimation method)的致命弱点,是统计学史上的一大突破。标准差σ的最大似然估计值是=1nni=1(xi-)2=1nni=1v2i, 其中=1nni=1xi。与最大似然估计法相类似的统计估计方法还有极小极大后验估计法、最小风险法和极小化极大熵法等。
常用于衡量点估计法是否优良的五大准则是:无偏性[12]、有效性、一致性(又称相合性)[13]、渐近性和充分性。无偏估计和一致估计(又称相合估计、相容估计)都属于优良点估计法。衡量区间估计法的优良准则有一致最精确准则、一致最精确无偏性准则和平均长度最短准则等。如果把参数估计用于统计决策,还可采用统计决策理论中的优良准则(如容许性准则、最小化最大准则、贝叶斯准则和最优同变性准则等)。
标准差的现代统计估计方法通常可将其归纳为一般估计方法和稳健估计(robust estimation,又称抗差估计)方法两大类[14]。一般估计方法(均属标准不确定度分量的A类评定方法)主要包括贝塞尔公式法、彼得斯公式法、极差法、最大误差法、最大残差法、较差法和最大方差法等,其中贝塞尔公式法最为常用,极差法、彼得斯公式法和最大残差法次之,最大误差法特别适用于比较特殊的场合(如一次性破坏实验等),较差法和最大方差法的应用场合则相对较少。稳健估计方法基本上可分为三类:M估计(经典最大似然估计法的推广,称为广义最大似然估计法)、L估计(即顺序统计量线性组合估计)和R估计(即秩估计,来源于秩统计检验)。
估计量的数学期望等于被估计参数,则称其为无偏估计,否则就是有偏估计。无偏估计的系统误差为零,其误差用随机误差来衡量;有偏估计的误差则用系统误差和随机误差的合成(即综合误差)来衡量。如今,随着计算机的日益普及和各类数学统计软件(包括专用数学统计软件,如SPSS、SAS和BMDP等)的广泛应用,数据计算繁琐一些已无技术障碍可言。实验测量数据的获得都要付出一定的人力、物力和财力,追求其准确可靠才是其最高目标,因此有偏估计的系统误差应尽可能地予以剔除。对于无偏估计来说,其统计量的方差越小则越好(表示其精密度和有效性越高)。
42 假设检验
假设检验(又称显著性经验、统计检验)一般分为参数检验(适用于总体分布形式已知的情形)和总体分布类型检验(又称分布拟合检验)两大类。参数检验方法主要有u检验法(又称z检验法,即正态分布检验法)、t检验法、χ2检验法(又称皮尔逊检验法)和F检验法(又称费歇尔检验法)等;总体分布类型检验方法主要有概率纸法(包括正态概率纸、对数正态概率纸、威布尔概率纸和二项概率纸等)和χ2检验法(适用于任意分布)等。在正态性检验法中,以夏皮罗(美国统计学家,Samuel Sanford Shapiro,1930—)─威尔克(加拿大统计学家,Martin Bradbury Wilk,19221218—)检验法(1965年,又称W检验,适用于样本数n≤50时的情形)[15]、达戈斯提诺(美国生物统计学家,Ralph BDAgostino, Jr,19290331—20010818)检验法(1971年,又称D检验,一种比较精确的正态检验法)[16]和夏皮罗─弗朗西亚(Shapiro-Francia)检验法(1972年,又称W′检验,适用于样本数50 两个样本是否来自于同分布总体的假设检验方法主要有符号检验法和秩和检验法等。
当未知总体标准差σ时,判别粗大误差的准则(即异常数据取舍的检验方法)主要有:①格拉布斯准则:1950年由美国统计学家格拉布斯(Frank Ephraim Grubbs,1913—2000)首创[18],并于1969年加以发展[19];②狄克逊准则(又称Q检验准则):1950年由美国统计学家狄克逊(Wilfred Joseph Dixon,1915—2008)首创[20],并于1951年和1953年加以改进[21-23];③偏度─峰度检验准则:偏度检验法适用于单侧情形,峰度检验法则适用于双侧情形[24];④罗曼诺夫斯基准则(又称t检验准则、3S检验准则):前苏联数理统计学家、塔什干数学学派创始人罗曼诺夫斯基(Vsevelod Ivanovich Romanovsky,1879—1954)首创,其检验效果最好[25];⑤3σ准则:仅早期采用,只适用于大样本数时的情形,因其理论上欠严谨且样本数n
估计标准差s=1n-2ni=1(y-)2主要应用于回归分析和假设检验中[34]。
5 测量不确定度
测量不确定度(measurement uncertainty,简称不确定度)是测量结果带有的一个非负参数,用以表征合理地赋予被测量值的分散性。它是说明测量水平的主要指标,是表示测量质量的重要依据。不确定度越小,测量结果的质量就越高,使用价值就越大。“不确定度”一词起源于1927年德国理论物理学家和哲学家海森堡(Werner Karl Heisenberg,1901—1976,1932年度诺贝尔物理学奖获得者)在量子力学中提出的不确定度关系,即著名的测不准原理(uncertainty principle)。自国际计量委员会CIPM(法文Comité International des Poids et Mesures)授权国际计量局BIPM(法文Bureau International des Poids et Mesures)于1980年10月提出《实验不确定度表示建议书INC-1》(1992年被纳入国际标准ISO 10012,1997年和2003年分别予以修订,中国国家标准GB/T 19022—2003等同采用ISO 10012 ∶ 2003[35])以后,经过30多年的研究和发展,现代不确定度理论现已形成较为完整的理论体系。
根据2008年版《测量不确定度表示指南》(GUM=Guide to the Expression of Uncertainty in Measurement)中的规定:不确定度可以用测量结果的标准差(即标准不确定度,它具有可传播性。当一个测量结果用于下一个测量时,其不确定度可作为下一个测量结果不确定度的分量,这就是不确定度的可传播性)表示,也可以用标准差的倍数或说明其置信水平区间的半宽度(即扩展不确定度expanded uncertainty,曾译为延伸不确定度、伸展不确定度)表示。无论采用哪种方法,都需要获得标准差的数值。
不确定度一般由若干分量组成,其中一些分量可根据一系列测量值的统计分布,按不确定度的A类评定方法进行评定(标准不确定度基于统计方法所进行的评定称为A类评定,又称统计不确定度),并用实验标准差(即有限次测量时总体标准差的估计值,又称样本标准差、子样标准差,主要应用于抽样推断和假设检验中)和自由度表征(必要时应给出其协方差)。而另一些分量则可根据经验或其他信息假设的概率分布,按不确定度的B类评定方法进行评定[标准不确定度基于非统计方法(技术规范、实践经验和科学知识等)所进行的评定称为B类评定,又称非统计不确定度],也用实验标准差表征(必要时应给出其协方差),一般情况下可以不给出其自由度。
贝塞尔公式法和极差法是两种主要的标准不确定度分量的A类评定方法[36-43],其中文献[39]给出的结论是:①当A类评定不确定度分量不是合成标准不确定度中唯一占优势的分量时,则无论测量次数多少(笔者注:因合成时采用方差相加的方法),(修正前)贝塞尔公式法优于极差法。②当A类评定不确定度分量是合成标准不确定度中唯一占优势的分量时,则两种方法的优劣与测量次数有关:当测量次数n10”则更为准确),(修正前)贝塞尔公式法优于极差法。
标准不确定度分量的B类评定方法主要有倍数法、正态分布法、均匀分布法(修约误差、修约前的被修约值、数字仪表的量化误差等均服从此类分布)、反正弦分布法、二点分布法、梯形分布法、三角分布法和投影分布法等[44-46],它更多的是依赖于经验的积累和判断。B类评定方法常应用于计量基准标准、仪器研制和在无法对比测量的情况下。
不确定度报告应该包括测量模型、估计值、测量模型中与各个量相关联的测量不确定度、协方差、所用的概率密度函数的类型、自由度、测量不确定度的评定类型和包含因子等。
在实际应用工作中,有效数字的正确取位十分重要,但这个问题却往往被忽视。测量结果总是以数字形式出现的,而能准确反映测量结果的是其有效数字。有效数字的末位数总是由下一位数进位或舍去而得来的,这就是数字修约。有效数字的定义是:一个数的修约误差不大于其末位数的半个单位,则该数的左边第一个非零数字起至右边最末一位数字都是其有效数字。不确定度的有效数字只能取1位或2位[47-49]。
6 自由度
自由度(degrees of freedom)的定义是:在方差的计算中,和的项数减去对和的限制数[36,50]。自由度反映了实验标准差的可信赖程度,自由度越大,实验标准差的可信赖程度就越高。由于不确定度是用标准差来表征的,故自由度可用于衡量不确定度评定的质量,它也是计算扩展不确定度的依据。当对标准差σ取A类评定的标准不确定度s的值时,不确定度的自由度计算公式为[46]:
式(6-1)是自由度估计值的计算公式(此估计值与理论值相比偏小,随着样本数n的增大,其估计值越来越接近于理论实际值),其中D(X)/E(X)为统计量X的相对标准差,u(x)为被测量x的标准不确定度,u[u(x)]为标准不确定度u(x)的标准不确定度。显然,自由度与标准不确定度的相对标准不确定度有关,即自由度与不确定度的不确定度有关,或者说自由度是一种二阶不确定度。
不确定度是测量结果的一个参数,而自由度则是不确定度的一个参数,它表征了所给不确定度的可信赖程度。算术平均值标准差的自由度和单次测量标准差的自由度是相同的。
自由度具有尺度变换下的不变性(即随机变量乘以非零常数,其自由度不变)。对于合并样本标准差,其自由度为各组自由度之和,即v=m(n-1)。当用测量所得的n组数据按最小二乘法拟合的校准曲线确定t个被测量值时,其自由度v=n-t;若t个被测量值之间另有r个约束条件,则其自由度v=n-t-r。
各种估计总体标准差方法的自由度如下表所示。
每个不确定度都对应着一个自由度,按A类评定的标准不确定度分量的自由度就是实验标准差的自由度。合成标准不确定度uc(y)的自由度称为有效自由度veff,它说明了评定uc(y)的可信赖程度,veff越大,表示评定的uc(y)越可信赖。一般情况下,按B类评定的标准不确定度分量可以不给出其自由度。但在以下情况时需要计算有效自由度veff:①当需要评定扩展不确定度Up为求得包含因子kp时;②当用户为了解所评定的不确定度的可信赖程度而提出此要求时。
7 标准不确定度的A类评定方法
标准差是评定测量结果精密度的一个极其重要的参数,关于各种估计总体标准差统计方法的精密度分析,前人已多有研究[52-56],但都缺乏深度和广度,其系统性和准确性也不够(有时甚至出现一些差错和遗漏,详见下文中的相关描述)。下面笔者将详细阐述各种估计总体标准差统计方法的由来和原理,严谨推导出其标准差系数的计算公式,力图以科学、严谨和求实的态度,分别对其系统地做出全面而准确的评介、对比和分析。
71 贝塞尔公式法
贝塞尔公式法(Bessel formula method)[57-63]是一种最为常见的估计总体标准差的统计方法。根据nj, k=1j≠kδjδk=0来推导贝塞尔公式长期以来被一些学者所认同,现已证明其为伪证[64-65]。笔者现根据误差理论、概率论和数理统计学中的基础知识,从误差和标准差的本质和作用入手,利用数学期望和方差公式,采用算术平均值的标准差来推导出贝塞尔公式。
n次测量值的算术平均值为:=1nni=1xi
算术平均值是μ的一致最小方差无偏估计,且不存在比它一致性更好的其他估计量。
德国天文学家和数学家贝塞尔(Friedrich Wilhelm Bessel,17840722—18460317)是天体测量学的奠基人之一,以其专著《天文学基础》(1818年)为标志发展了实验天文学,他重新订正布拉德雷(英国天文学家,James Bradley,1693—1762)星表并编制基本星表(后人加以扩充后成为《波恩巡天星表》),测定恒星视差(1838年)并预言暗伴星的存在,导出修正子午环安装误差的贝塞尔公式[即式(71-4)],导出用于天文计算的内插法贝塞尔公式(此式中的系数被称为贝塞尔系数),编制大气折射表并导出大气折射公式。首创贝塞尔岁首(又称贝塞尔年首)、贝塞尔假年(又称贝塞尔年)、贝塞尔日数(又称贝塞尔星数)和贝塞尔要素等概念,沿用至今。其研究成果还有贝塞尔方程(1817—1824,一类二阶常微分方程)、贝塞尔不等式(1828年)和贝塞尔地球椭球体(1841年)等。1938年2月24日发现的国际编号为1552(1938DE)号的小行星后被命名为“贝塞尔星(Bessel)”,这是对他最好的纪念和褒奖。
贝塞尔方程两个独立的解分别称为第一类贝塞尔函数Jn(x)和第二类贝塞尔函数Yn(x),Hn(x)=Jn(x)±iYn(x)则称为第三类贝塞尔函数,其中第二类贝塞尔函数又称为诺伊曼(Carl Gottfried Neumann,1832—1925)函数或韦伯(Heinrich Martin Weber,1842—1913)函数,第三类贝塞尔函数又称为汉克尔(Hermann Hankel,1839—1873)函数。诺伊曼、韦伯和汉克尔均为德国数学家。
在规范化的常规测量中,若在重复性条件下对被测量X作n次测量,并且有m组这样的测量结果,由于各组之间的测量条件可能会稍有不同,因此不能直接用贝塞尔公式对总共m×n个测量值计算其实验标准差,而必须计算其合并样本标准差(又称组合实验标准差)[77],即:
上式中,xjk是第j组第k次测量值,j是第j组n个测量值的算术平均值。
当各组所包含的测量次数不完全相同时,则应采用方差的加权平均值,权重(即自由度)为(nj-1),此时的合并样本标准差为:
上式中,nj是第j组的测量次数,s2j是第j组nj个测量值的样本方差。
在一些常规的日常校准或检定工作中,采用合并样本标准差往往会取得良好的效果[79-81]。
以下选用最为常用的修正前后贝塞尔公式法作为其他各种估计总体标准差统计方法的比较基准。
参考文献:
[1]费业泰误差理论与数据处理[M].北京:机械工业出版社, 2000(第4版).
[2]冯师颜误差理论与实验数据处理[M].北京:科学出版社, 1964
[3]周秀银误差理论与实验数据处理[M].北京:北京航空学院出版社, 1986
[4]贾克军,石军广,贾文轩,等等精度传递理论在流量计量中的应用[J].工业计量, 2012,22(4):9-11
[5]魏诺,史彭,张伯乾,等非等精度测量不确定度表示两种方法的比较[J].高校实验室工作研究, 1999(2):35-36
[6]彭靖不等精度直接测量不确定度的评定[J].中国计量, 2003,8(3):58-59
[7]郭奕玲,沈慧君诺贝尔物理学奖(1901—2010)[M].北京:清华大学出版社, 2012
[8]杨正一氩元素发现的启迪[J].西安石油学院学报, 1989,4(4):89-93
[9]RAFisherOn an absolute criterion for fitting frequency curves[J].Messenger of Mathematics, 1912,41∶155-160
[10]RAFisherOn the mathematical foundations of theoretical statistics[J].Philosophical Transactions of the Royal Society of London, Series A, 1922,222∶309-368
[11]RAFisherTheory of statistical estimation[J].Mathematical Proceedings of the Cambridge Philosophical Society, 1925,22(5):700-725
[12]孙翠先,步金芳正态总体方差和标准差的无偏估计[J].唐山学院学报, 2012,25(3):5-6,9
[13]盛骤,谢式千,潘承毅概率论与数理统计[M].北京:高等教育出版社, 2001(第3版).
[14]林洪桦测量误差与不确定度评估[M].北京:机械工业出版社, 2010
[15]SSShapiro, MBWilkAn analysis of variance test for normality(complete samples)[J].Biometrika, 1965,52(3/4):591-611
[16]RBDAgostinoAn omnibus test of normality for moderate and large size samples[J].Biometrika, 1971,58(2):341-348
[17]SSShapiro, RSFranciaAn approximate analysis of variance test for normality[J].Journal of American Statistical Association, 1972,67(337):215-216
[18]Frank EGrubbsSample criteria for testing outlying observations[J].Annals of Mathematical Statistics, 1950,21(1):27-58
[19]Frank EGrubbsProcedures for detecting outlying observations in samples[J].Technometrics, 1969,11(1):1-21
[20]WJDixonAnalysis of extreme values[J].The Annals of Mathematical Statistics, 1950,21(4):488-506
[21]WJDixonRatios involving extreme values[J].The Annals of Mathematical Statistics, 1951,22(1):68-78
[22]Robert BDean, WJDixonSimplified statistics for small numbers of observations[J].Analytical Chemistry, 1951,23(4):636-638
[23]WJDixonProcessing data for outliers[J].Biometrics, 1953,9(1):74-89
[24]田禹基于偏度和峰度的正态性检验[D].上海:上海交通大学硕士学位论文, 2012
[25]王文周未知σ,t检验法剔除异常值最好[J].四川工业学院学报, 2000,19(3):84-86
[26]张敏,袁辉拉依达(РайTа)准则与异常值剔除[J].郑州工业大学学报, 1997,18(1):84-88
[27]王承双3σ准则与测量次数n的关系[J].长沙电力学院学报(自然科学版), 1996,11(1):73-74
[28]William ChauvenetA manual of spherical and practical astronomy VolII(Theory and use of astronomical instruments)[M].Philadelphia:JBLippincott & Co, London:Trübner & Co, 1863
[29]王玺,罗旭微机在化学分析逸出值检验中的应用[J].沈阳药学院学报, 1991,8(1):52-57
[30]吴拥政重标极差法及其应用[J].统计与决策, 2004(8):23-24
[31]KRNairThe distribution of the extreme deviate from the sample mean and its studentized form[J].Biometrika, 1948,35(1/2):118-144
[32]吕恕正态样本异常Nair检验统计量的近似分布[J].东北师大学报(自然科学版), 1990,22(3):41-45
[33]GB/T 4883—2008, 数据的统计处理和解释——正态样本离群值的判断和处理[S].
[34]邹传忠关于标准差三种表现形式的应用[J].江西煤炭科技, 2004(2):66
[35]GB/T 19022—2003, 测量管理体系——测量过程和测量设备的要求[S].
[36]全国法制计量管理计量技术委员会JJF105911—2011,测量不确定度评定与表示[S].
[37]柳历波测量不确定度的A类评定的几个问题[J].上海计量测试, 2009,36(4):27-28
[38]林洪桦测量不确定度评定应基于误差理论[J].自动化与信息工程, 2011,33(4):1-4,12
[39]倪育才测量不确定度理解与应用(二):极差法和贝塞尔法之间的比较[J].中国计量, 2004,9(8):78-79
[40]巫业山测量不确定度A类评定的两种方法:贝塞尔法和极差法[J].衡器, 2011,40(4):23-24
[41]李慎安测量不确定度表达百问[M].北京:中国计量出版社, 2001
[42]耿维明测量误差与不确定度评定[M].北京:中国质检出版社, 2011
[43]罗刚不确定度A类评定及不确定度B类评定的探讨[J].计量与测试技术, 2007,34(12):42-43
[44]刘智敏,刘风不确定度的B类评定方法[J].中国计量学院学报, 1995,6(2):51-57
[45]刘智敏不确定度原理[M].北京:中国计量出版社, 1993
[46]王中宇,刘智敏,夏新涛,等测量误差与不确定度评定[M].北京:科学出版社, 2008
[47]张少伟有效数字的正确取位[J].电力标准化与计量, 1997(3):38,45
[48]李谦关于测量不确定度的有效位数和修约间隔[J].电力标准化与计量, 1998(1):4,19
[49]李谦数字修约间隔和修约规则[J].电力标准化与计量, 1998(2):5-7
[50]李维明测量不确定度自由度的评定方法及一般取值范围的探讨[J].工业计量, 2007,17(5):52-53
[51]山内二郎統計数値表(Statistical Tables and Formulas with Computer Applications, JSA-1972)[M].東京:日本規格協会JSA(Japanese Standards Association), 1972
[52]王正向标准偏差估值之极限分布及其应用[J].数学的实践与认识, 1983,13(1):20-33
[53]徐扬光关于总体标准偏差σ的估计精度分析[J].中国质量管理, 1983(2):19-21,31,18
[54]黄景祥几种标准差估计方法的精密度比较和评价[J].中国计量学院学报, 1995,6(S1):93-97
[55]周富臣,孙玉莲总体标准差σ的五种估计及估计精密度[J].计量技术, 2006(12):60-64
[56]周富臣标准偏差的六种估计及其精密度[J].上海计量测试, 2007,34(1):10-13
[57]陈树祥,朱洪海,杭雪珍正确认识贝塞尔公式[J].计量与测试技术, 2003,30(1)32,37
[58]庄正辉,吴先球,陈浩贝塞尔公式的推导及其物理意义探讨[J].大学物理实验, 2010,23(4):80-82
[59]林景星贝塞尔公式计算实验标准差的探讨[J].上海计量测试, 2011,38(2):44-45
[60]朱洪海关于随机误差标准差的几点思考[J].盐城工学院学报, 2001,14(4):20-21,28
[61]谷秀娥关于标准误差和标准偏差的讨论[J].大学物理实验, 2006,19(3):66-67,101
[62]邓永和中误差贝塞尔公式的推导[J].大地测量与地球动力学, 2009,29(3):128-130
[63]邓永和中误差贝塞尔公式推导的进一步研究[J].铁道勘察, 2009(5):8-9
[64]朱洪海对贝塞尔公式证法的探讨[J].计量与测试技术, 2001,28(6):8-9
[65]马美娟贝塞尔公式推导的再研究[J].佳木斯大学学报(自然科学版), 2011,29(2):290-291,295
[66]张本良贝塞尔公式用于估算函数误差的论证及其使用范围[J].武汉工学院学报, 1992,14(4):56-61
[67]朱安远用彼得斯公式估计总体标准差的误差分析[J].中国市场(物流版), 2012,19(19):28-31
[68][波兰]M费史概率论及数理统计[M].王福保,译.上海:上海科学技术出版社,1962
[69]周概容概率论与数理统计[M].北京:高等教育出版社, 1984
[70]张世英,刘智敏测量实践的数据处理[M].北京:科学出版社, 1977
[71]何永政质量检验不确定度与应用数理统计[M].北京:中国计量出版社, 2009
[72]樊顺厚正态分布的子样标准差过低估计了总体标准差[J].纺织基础科学学报, 1994,7(3):242-244
[73]樊顺厚,刘树琪子样标准差过低估计总体标准差[J].纺织高校基础科学学报, 1996,9(1):27-42
[74]黄景祥标准偏差的无偏估计及贝塞尔公式修正系数的简便计算[J].计量技术, 1990(6):36-38
[75]何克明贝塞尔公式修正系数的准确简便计算[J].计量技术, 2000(12):49
[76]王文周标准偏差的标准偏差有多大相对误差[J].四川工业学院学报, 2002,21(1):86-88
[77]倪育才实用测量不确定度评定[M].北京:中国计量出版社, 2009(第3版).
[78]陈成仁,刘智敏,王永泉实验标准(偏)差和平均值实验标准(偏)差意义解析[J].中国计量, 2010,15(1):96-98
[79]朱安远线性传感器静态性能指标的计算[J].冶金计量, 1990(4):32-35
[80]朱安远线性传感器的静态校准及其基本性能指标的计算[A].钢铁工业自动化——应用电子技术改造钢铁工业学术会议论文集[C].北京:冶金工业出版社, 1993:821-830
1考试成绩的分布形态(规律)
保证考试质量是数学活动中不容忽视的重要组成部分。如何提高考试质量,不仅应在试前对试卷质量进行预测分析,更应结合试后考试成绩分析作出最终评价。用学生的考试成绩可以定量对命题质量进行评价与分析。观察统计学生考试成绩的直方图,其分布大致可分为5种情形:(1)单峰且对称、单峰大体对称;(2)单峰但峰值向左移;(3)单峰但峰值向右移;(4)双峰或多峰;(5)大体上可以一个平台型为代表等等。如果把这5种情形的直方图外廓线描出,则大致为如图所示几种情形的曲线。
2学生成绩正态分布曲线分析
根据教育学与统计学的理论,一次难度适中信度可靠的考试,学生的成绩应接近正态分布。也就是说,当学生的成绩接近于正态分布时,则说明此次考试基本达到了教学要求。判断成绩是否接近正态分布,最直观,最有效的方法是将成绩分布曲线与均值和方差相同的正态分布曲线加以比较。当然,学生成绩呈现正态分布是理想化状态。考试成绩完全呈正态分布有一定的困难,也不现实。但我们要以正态分布为标准模式,加以对比,找出不足。
利用教育统计学研究发现,对于难度适中、客观有效的考试成绩一般都符合正态分布,且平均分在75分左右,标准差在9 ― 5之间。因此,我们有理由使用各种高级统计方法处理考试分数,以挖掘更多的教育信息。考试成绩是考生水平的反映,同时考试成绩分布是否正态分布反映了命题质量。根据正态分布曲线呈现的形态,可以进行考题相对难度分析。
平均成绩的差异引起曲线的水平位置变化,平均成绩偏低,如低于65分说明试卷难度较大;而偏高在90分以上说明试卷难度太小。若学生成绩分布属附图(1)所示的形态,这表明试卷命题的质量是比较好的.这里又有两种情形:在标准差不变的情况下随着平均分数的增加曲线向右移说明考生答题逐渐轻松;相反,随着平均分数的减小说明考题逐渐变难,学生成绩逐渐降低。在学生和教师工作正常情况下,题目越容易曲线越向右移。在平均分不变的情况下,标准差较小如低于6,成绩分布较集中,正态分布曲线呈陡峭型状态说明试卷区分度太小,表示中等难度试题所占比重太大;标准差较大如大于9,成绩分布较平坦,试卷区分度太大,则表示中等难度试题偏少。
若学生成绩分布属附图(2)所示形态, 即负偏态分布说明难度较大的试题比例偏高,表明试卷题目偏难;若学生成绩分布属附图(3)所示的形态, 即正偏态分布说明难度较小的试题比例偏重,则表明试卷题目偏易。若学生成绩分布属附图(4)或附图(5)等所示的形态,则表明试卷的命题质量不好,随意性较强,这样的试卷成绩不能很好地测量出学生对所学知识掌握情况。
3正态分布应用的结论
考题相对难度是指考题从整体上讲相对考生其难易程度的合理性,用学生成绩的平均分数衡量考题相对难度应是合理、可行的。对于高校结业类型的考试,经统计平均分数在77分附近时,考题相对难度是适中的。通过确定恰当的偏离度等级标准,对试卷做出试题难度相对学生①考题合理、②考题稍偏易或稍偏难、③考题较易或较难、④考题过易或过难、⑤考题难度不合理的5个等级判断。
综上所述,考试成绩符合正态分布是说明考题命题合理的条件,也是衡量考试质量的一个客观标准。考试的重要功能之一是信息反馈, 考试分数的分布形态里蕴含着丰富的教学信息。对考试分数的统计处理可以得出大量有价值的教学信息,据以评价教学、改进教学和进行教学研究。进一步分析发现,正态性较弱的课程有这样一些特点:考试分数出现了“极值”(特小值),或者是中间分数段分数的频数太小,或者是尾端频数略高。所以根据正态分布曲线呈现的状态,可以评价试卷的难易程度,为评价试卷命题质量提供数据资料。进而调整教学进度,改进教学方法。
T检验,主要用于样本含量较小,总体标准差未知的正态分布。
t检验分为单总体检验和双总体检验。
单总体 检验是检验一个样本平均数与一已知的总体平均数的差异是否显著。
双总体 检验是检验两个样本平均数与其各自所代表的总体的差异是否显著。
适用条件:
1、已知一个总体均数。
2、可得到一个样本均数及该样本标准差。
社会学、社会工作等专业本科生毕业后进入企事业单位,并不要求他们具有很强的数理分析能力,而更需要他们利用统计学知识解决实际问题。高校扩招使学生的就业压力空前的大,要求学校的办学方向和重点以培养学生的动手实践能力为主。随着大数据时代到来和社会调查的日趋成熟,很多用人单位也非常看重应聘者对统计分析和统计软件的掌握程度。
笔者长期担任《社会统计学》教学,发现大部分学生为文科生,数学基础差,课程负担重,如何增强学生利用所学统计学知识,解决实际生活尤其是走出校园参加工作后学以致用是当前课程教学改革的重点和难点。
一、当前社会统计学教学存在的问题
(一)教学内容的针对性不强
一本高质量的《社会统计学》教材,既需要像数理统计一样,讲清讲透基础统计学原理和知识,又要明晰研究内容和研究对象,阐释清楚与其他应用统计学的区别。而当前的《社会统计学》主流教材,都存在侧重于其中一方,能够做到两方面兼顾得很好的教材几乎没有。如目前高校使用量较大的教材有卢淑华的《社会统计学》,偏重于数理统计的理论推导,蒋萍的《社会统计学》尽管对研究对象有清晰的定位,但是需要学生具有一定的数理基础。目前的统计学教学中一般采用理论讲解为主的教学模式,教师主要依托教材,对与统计学相关理论和方法逐一进行介绍,对涉及到的公式和定理进行推导。因此,当前社会统计学最需要解决的问题就是尽快编撰一本如何将统计学知识运用到具体的社会问题研究或者实践中去的优秀教材。
(二)教师的水平参差不齐
目前不少院校的社会统计学教师队伍主要来源于两块,一是外聘数理统计学的教师教授《社会统计学》课程,这些老师上课更多的偏重理论讲解和推导,让学生掌握比较扎实的基础统计学知识。由于他们对社会学、社会工作等文科专业不熟悉,课堂讲解中不能结合专业领域内的社会调查和案例来分析讲解。导致学生学习起来压力大,觉得枯燥无味,在面对社会现象时不知道怎么利用所学统计学知识分析和阐释社会现象。二是社会学专业背景老师讲授《社会统计学》,这些老师由于没有系统接受过数理统计学的训练,对于统计学的数理部分往往一知半解或者干脆略过,教学中更多的偏重例题分析和软件的使用。
(三)学生的学习态度不端正
学习社会统计学的学生多为文科生,在进入大学前,就是因为对数学等学科的害怕才选择报考文科专业。而统计学需要一定的概率论和微积分等数学基础,所以学生一看到社会统计学中涉及的数学知识就头疼,认为自己很难学好,产生先入为主的畏难心理,对自身的学习能力信心不足,缺乏动力,提不起兴趣,部分学生甚至在遇到困难时主动放弃统计学的学习。学生认识不到社会统计学与其它应用统计学相比,有其自身特点:研究对象为人类行为、政治文化等社会现象;所需具备的数理知识要求相对较低,更侧重于对统计结果的理解和解释;社会统计中收集到的资料,往往很多是低层次的变量,如定类、定序变量。因此,定类、定序变量统计分析在社会统计学中占有很大的比重,讨论变量之间的关系,如列联表、列联强度,相关关系的测量是学习的重点。
二、以就业为导向的《社会统计学》教学改进措施
(一)统计思维改进法
1、统计无用论向统计实用论的转变
社会统计学作为一门定量分析工具,是社会科学科学性的实现工具,尤其是随着中外学术交流的加强和规范化,近些年高级统计学的发展,统计学在社会科学的发展中扮演着越来越重要的角色。学好统计学对于本科生考研或者将来从事学术研究,都是必不可少的知识,尤其是社会学、社会工作、公共管理等专业的考研,社会统计学是必考科目,也是导师特别看重的学生必备能力之一。二是社会统计学作为一门实用性很强的工具,现在很多企业、调查公司等在招聘的时候非常看重应聘者统计学的知识和能力,熟练掌握和应用EXCEL、SPSS、STATA、SAS等统计分析软件,可以极大增加就业机会和就业筹码。
2、教学过程中的定量思维与定性思维的结合
社会统计学作为定量分析工具,需要学生具有较强的数学分析思维和逻辑思维,所以统计学中有大量的公式和推导过程。作为教师,在教授过程中在讲清楚原理和推导过程的同时,需要根据文科学生的特点,用定性的话语和思维解释清楚来龙去脉。
例如对于标准分的理解,卢淑华是这样解释的:“标准分Z的意义在于它是以均值为基点,以标准差σ为量度单位,计算x取值距离标准差的距离,以便进行不同的μ和σ之间进行比较。”不同的变量一般有不同的均值和标准差,统计上,不同的均值和标准差是不能互相比较的。例如甲乙两名学生在两个不同的班级考了同一门《社会统计学》课程,他们的成绩如下:甲同学考了80分,乙同学考了90分。已知甲班《社会统计学》的平均成绩是70分,标准差是10分;乙班《社会统计学》的平均成绩是70分,标准差是20分。请问甲乙同学在本班中谁的成绩更好?通过标准分计算,两者的标准分都是1,说明两名同学在班级的成绩排名是一样的。经过定性的案例分析讲解,学生就能明白为什么曾经一度在高考中引入标准分的原因了,以使不同考区的学生以相对公平的分数被录取。
3、数理思维向理解思维的转变
实质上,学习统计学的过程,就是学习统计思维的过程,而不只是公式的简单套用和通常的数字计算。统计学有严格的前提假设和适用变量层次,是一门量化分析工具,我们在实际运用中,不能为了分析或者所谓的科学性而滥用统计方法,用统计数字代替科学推理,犯了社会学家邓肯(Duncan)所说的统计至上主义(statisticism)。统计数字会撒谎,正如桑普拉斯所说:“统计未必能够揭示真实,有时候还可能成为假象的帮凶。”因此对于统计学的学习,除了养成良好的统计思维外,还需要我们具有扎实的理论基础,规范的社会调查研究方法和对统计方法的甄别使用和统计结果的合理解释。社会统计学课程的学习更看重的是学以致用,用所学知识科学的分析和解释社会中的现象。正如我们学会游泳前不一定要了解动力学的知识,会使用计算机不一定要先懂得编程一样,理解计算机的输入和输出结果比知道计算机如何计算重要得多。
例如学生对于假设检验的原理很难理解,我们可以通过举例让学生理解假设检验的思路。在航天火箭发射前,没有任何人能够事先证明火箭发射是安全的,人们最多只能说,用现有手段没有发现问题。但是,只要发现一个影响安全发射的问题,那就不能发射。这说明,企图肯定什么事情很难,而否定却要相对容易得多。物理学以及其他科学都是在否定中发展的,这也是假设检验背后的哲学。假定原假设火箭发射是安全的,即使通过研究假设也无法否定原假设,也不能说明原假设是正确的,就像用一两个仪器没有发现火箭有问题还远不能证明火箭是安全的,但是只要在原假设成立的前提下,出现了小概率事件,我们就认为原假设不成立,那么航天火箭就不能发射。
(二)统计应用推动法
1、开展课外调查活动
引入以“提出问题―分析问题―提出假设―验证假设”为流程的基于问题的学习方法(Problem Based Learning,PBL)来开展课外调研活动。组织学生以小组为单位,选择和确定实践课题,成立以6―7人为一组的若干个项目小组,并选出各组组长。当然,研究课题可以是学生日常生活中所关心的问题,如大学生校园恋爱观的调查、大学生消费行为调查、学习时间调查、学习成绩调查、课余活动、生活习惯、自媒体使用情况调查;也可以是社会生活中的热门现象,如独生子女价值观、二孩生育行为、观念,贫困人口认定与帮扶等调查。让学生通过利用所学的社会调查研究方法,科学选题、做好研究设计、设计问卷、选择合适的抽样调查方法、收集资料、利用统计软件分析数据,撰写调查报告来学习和使用统计学知识分析和解释社会现象。这样不仅可以有效解决由于实训基地、实习经费的限制所带来的不便,而且这种调查贴近学生生活,容易入手,易于激发其兴趣,并且有助于加深对统计学原理的理解,明白统计学就在身边,与我们的生活息息相关。
2、使用统计软件法
有针对性的将Excel、SPSS、STATA,SAS等统计应用软件作为社会统计学课程的实训内容。在课堂讲授时,可以教会学生使用Excel函数、Excel图表与图形以及Excel数据透视表来处理常用的统计数据。有条件的话可以安排在计算机房上课或者安排一定量的学时让学生在计算机房上机操作SPSS等软件,培养学生运用统计软件搜集、整理、分析统计数据的能力。
3、加强社会统计学的实习实践
与当地的政府部门、市场调研公司、市场咨询公司、专业的调查机构、相关企业建立协作和参与机制。让学生学会如何开展调查、如何获取资料、如果统计分析资料,所获取的统计分析数据是如何指导工厂、企业等单位的生产运作的。例如:学生通过参与公司的市场调查,了解公司的产品是如何定位顾客、细分市场的;参观地方政府统计部门的日常统计和上报统计报表,了解政府统计是如何进行的;学生参与各社区或者街道的贫困人口统计、人口普查等调查。
(三)统计课程革新法
1、建立完善的社会研究课程体系
社会研究课程体系是指教授学生如何在理论的指导下通过各种科学的方法进行调查与创新性研究的一系列课程。主要包括“社会调查研究方法”、“社会统计学”、“SPSS统计软件应用”等课程。尽管目前各高校都开设了这几门课程,但在实际教学过程中,一般都是分学期开设,由不同的老师授课,导致有些内容重复,例如抽样调查,在“社会调查研究方法”、“社会统计学”中都会涉及,理论学习和实践脱节,例如“社会统计学”、“SPSS统计软件应用”分别在不同学期开设。建议高校开设课程进行改革,由固定的老师来讲授社会统计研究课程体系,将“社会统计学”、“SPSS统计软件应用”整合为一门课程,并合理设置理论学习和实践教学的课时。
2、建立社会统计学案例库,试题库
可以从各类教材和国外统计学中收集案例和试题,建立案例库和试题库,国外的教材在深入浅出的讲解统计学知识上做得很好,例如布莱洛克的《社会统计学》,萨尔金德的《爱上统计学》。在教学过程中增加案例教学,可以更好的使学生理解统计学的基础知识和原理,了解统计学在现实生活中的应用,提高教学的成效,增强学生的统计运用能力。
关键词: 原始分 标准分 意义 作用 考试成绩评价
一、引言
考试是学校教育的一个极为重要的组成部分,是检查教学质量、评价教师教学水平、检验学生知识掌握及能力结构的主要环节。过去评价学生成绩时,常常使用原始分数,如认为语文得90分的学生语文学得好,而外语得70分的学生则外语能力较低;再有,同一名学生期末数学得80分,语文得65分,于是认为该生是学理科的材料,文科不好。这些认识是不够科学的,因为试题的难易程度是决定学生分数的主要因素,题目难,原始分数就偏低;题目容易,原始分数就偏高,从而导致了原始分数之间的不可比性。试题还受区分度大小的影响,因而造成考试的内容不同质、不等效、不可加。由于考试分数或原始分数没有绝对的零点,也没有统一的单位,因而不能将一个学生前后多次考试的成绩进行比较,不能对不同科目的成绩进行比较,难以判断学生成绩的变化趋势。因此,原始分数得到的信息不够准确,不科学,用原始分来评价学生的成绩缺失公正性和合理性。采用标准分数对考试成绩进行分析,就可以克服以上缺点,因此,用标准分比用原始分数评价学生成绩更科学、更合理和公正。
二、标准分的定义及计算方法
标准分是由均数和标准差规定的相对地位量。它是统计学中最重要、用途最广的统计量,标准分的定义为:以标准差为单位标定某一分数离开团体均数的距离。公式为:
z==
式中X为某一原始分数,为N个原始分数的平均数,x-是离均差,即某一分数离开均数的差数,S为标准差,Z即为标准分数,因此标准分数常称为Z分数。Z分数有正值和负值。当Z为正数时,则X>;当Z为负数时,则X<;当Z=0时,则X=。Z分数的绝对值|Z|,表示某分数与在此分布上的平均数的距离,|Z|越大,表示某分数离开均数的位置越远。计算机(利用Excel表)可以方便地将原始分转换成标准分。
三、标准分的意义
标准分是一种具有相等单位的量数。它是将原始分数与团体的平均数之差除以标准差所得的商数,是以标准差为单位度量原始分数离开其平均数的分数之上多少个标准差,或是在平均数之下多少个标准差。它是一个抽象值,不受原始测量单位的影响,并可接受进一步的统计处理。其意义在于:
1.标准分的分布与原始数据的分布相同。
2.各科标准分的单位是绝对等价的。无论各科的平均分、标准差怎样不同,一经转换成标准分,就形成以平均数为0、标准差为1的统一的、固定不变的标准形式。
3.标准分数值的大小、正负,反映某一考分在全体中所处的位置,它是相对分数。
4.当总体均服从同一分布时,总体的标准分之间具有可比性。
5.用标准分表示的样本间可以进行算术运算。
因此,标准分在考试成绩评价中具有重要作用。
四、标准分的作用
标准分在考试成绩评估中的用途很多,一是能够明确各个分数在总体中的位置;二是能客观地比较不同学生不同学科的总成绩及其优劣;三是可以比较某学生不同学科、与阶段的考试成绩,正确评价其学习的发展。
(一)能明确各个分数在总体中的位置。
标准分是按正态分布原理而建立的分数制度,其主要特点是:分数不但可以反映考生的水平高低,而且可以直接反映出该分数在全体考生中的位置。
依据Z标准分数的意义,Z分数为0的原始成绩是全班的平均分。Z分数大于0的原始成绩高于全班的平均分;Z分数小于0的原始成绩则低于全班的平均分。也就是说,标准分数值的大小、正负,反映某一考分在全体中所处的位置。以表1为例。
表1是某高校10级商英2班第一学期外语三科期末考试的成绩统计。表1中学生01的泛读得分为34,其泛读标准分为-1.690,这表明学生01所得的泛读分数低于全体考生平均数1.690个标准差,在总体的位置靠后;学生02的泛读得分为65,泛读标准分为0.158,这表明学生02的泛读分数高于全体考生平均数0.158个标准差,在总体的位置则靠前。
再如,学生32的精读和泛读的原始分数都是73分,这个分数是高还是低?该学生在全体考生中的位置靠前还是靠后?单从原始分数看不出来,因为没有一个稳定的参照点。若把原始分数转换成标准分后,该学生在全体考生中的位置则一目了然:该生精读原始分数为73分,标准分为1.211,高于全体考生平均数,原始分数73分应算较高的成绩了;而泛读的标准分为0.635,接近全体考生平均数,原始分数73分则只算中等成绩,由此可见,原始分数很难准确说明分数所反映的考生实际水平,也不能确定分数在群体中的位置。而标准分则可以直接反映出该分数在全体考生中的位置。|Z|越大,表示某分数离开均数的位置越远。
(二)能客观地比较不同学生不同学科的总成绩及其优劣。
从表1可以看到,若按原始分累计总分,学生09、学生10和学生22的总分都是140,三者学习成绩处于并列的位置,没有优劣或高低之分;但将原始分数转换成标准分数后,以Z值的总和相比较,学生09的Z总为-1.013,学生10的为-1.189,学生22的为-0.777,则可以看出学生22的成绩要比学生09的高,而学生09的成绩又比学生10的要高。从“Z总”这一栏,我们可以明确地看到学生22、学生09和学生10在班级成绩中的排名分别为第26、第29和第31。三者原始总分相等,没法比较,但按标准分来分析,他们这几科的总成绩却有高低之分。
从表1还可以看到,学生07的总分为189,学生28的总分为195,以三科的总分来判定成绩的优劣,学生28排第8名,学生07则排第12名。表面上学生28的成绩似乎要比学生07的成绩好。但是,按原始总分计算只考虑了分值,并没有考虑各分值在各自总体(即各自科目的分数总体)中的价值,这种考虑是欠妥的。分数的价值应用最佳地位量标准分数来表示。那么将学生07和学生28的三科考分都换成Z值(见表1),以Z值的总和相比较,Z为1.748,而Z为1.433,则可看出学生07的分数价值要比学生28的高。学生07的成绩优于学生28,两者的排名恰与原始分数的排名截然相反。若要推荐优秀生,推荐学生07更为合理。其道理从学生08的泛读为84分,其Z值为1.291,与学生30的听力为84分,其Z值为1.775的比较分析可以显示出来。从原始分数看,同是84分,但由于分别位于不同科目的不同分布中,其价值是不同的。受试题难度和区分度大小的影响,导致了泛读的“1分”与听力的“1分”不等值,便造成了这样的现象:同样是84分的两科成绩却反映出两种高低不同的水平。
上述例子表明,使用原始分数难以对学生的水平进行科学的比较。将原始分数相加得到总分的方法,就好比将100元人民币加上100元港币再加上100元美元得到300元一样,是不能反映三种货币在总额中的真实价值的。由此可见,原始分数不具有简单的可加性,几门原始成绩的总分并不能说明个体在团体中的实际排名,不能确切评价学生成绩的优劣,甚至会产生与学生实际水平截然不同的结果。而标准分是以群体的平均分为参照、以标准差为度量单位的一种分数,是在消除考试难度、考生不确定因素产生的抽样误差影响,将考试成绩(分数制)通过某种变换而得到的具有明确区分、比较特性的考试成绩。所以标准分能够直接比较不同学生不同学科的总成绩,能够客观、公正地反映各个学生的成绩在群体成绩中的实际地位或实际排名。
本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文
(三)可比较某学生不同学科与阶段的成绩,正确评价其学习的发展。
我以某高校某学生第一学年(两个学期)大学语文与大学英语成绩为例来说明这个问题,见表2。
按表2中的原始分数评价,有人认为该生的语文成绩有进步,而英语学习有退步。而若将该生的成绩标准化后,不难发现,该生的语文成绩在班上的相对位置没有变化,而英语成绩第二学期虽比第一学期低7分,但标准分数提高了,说明该生在班上的相对成绩有所提高。同样,若仅看该生的第二学期成绩:语文86分,英语80分,不少人会认为该生的语文比英语学得好。但我们从表2中可知,该生的语文成绩高于平均成绩0.96个标准差,英语成绩高出平均成绩1.16个标准差,英语成绩比语文成绩在班上的相对位置高,因而相对来说该生的英语学得较好。所以只凭借原始分数盲目评价学生是不恰当的。如果教师采用标准分数,就可以掌握每个学生学习某科成绩发展趋势,了解学生知识的掌握程度。
五、结语
无论用原始分数比较单科成绩还是比较总成绩都是不科学的,因为各原始分数分别位于不同科目的不同分布中,价值不同,没有同一的测量尺度,因而不可加与不可比。标准分是采取统计学的计算方法计算出的一种数据,利用这种计算方法可以避免多次考试因试题量不同及试题难度不同而造成的前面提到的对学生的学习情况评价不确切的情况发生,使课程之间、学生之间、班级之间、年级之间和学校之间具有可比性,可对同一考试各科进行横向比较,也可对同一学科不同时期的考试纵向比较,找到个体在总体内的位置,从而对全校教学情况一目了然,教学管理也可以做到心中有数。
当前,仍有相当一部分教师用原始分数作为考试成绩评价的依据,尚未认识到原始分数的局限性。因而,我认为对标准分数的认同需要宣传,让教师更了解标准分的意义和作用,尽快地接受标准分,并运用标准分更好、更科学和更合理地评价学生的考试成绩,客观地了解学生的学习动态,做到有的放矢、因材施教。
参考文献:
[1]罗玉莲等.标准分及其应用[J].吉安师专学报,1998,VOL19,(5).
[2]刘晓莉.标准分与考试成绩评估[J].佛山科学技术学院学报(自然科学版),1999,VOL17,(4).
[3]廖平胜等.考试学[M].武汉:华中师范大学出版社,1988.
[4]张玉田等.学校教育评价[M].北京:中央民族大学出版社,1998.
[5]将庆伟等.教育科研中的量化方法[M].北京:中国科学技术出版社,1997.
[6]唐小杰等.课堂教学与学习成绩评价[M].南宁:广西教育出版社,2000.
一、统计资料的来源
东南大学02级、03级、04级、05级、06级男生各4个自然班(平均每班30人),在一年级时立定跳远的成绩,据此计算出各年级平均成绩及其标准差。见表1
表1男生立定跳远平均成绩及标准差
二、选择统计资料的方法
1.项目选择。本文所选项目是经过与其它身体素质资料对照比较而选择的,它具有一定的代表性和典型性。
2.资料选择。本文在收集资料时,最大程度地剔除了原始资料不可靠部分,保留了可信度较高的部分。
三、制定预测评分表
1.求2007年全校男生立定跳远平均数和标准差的预测值
第一,求2007年全校男生立定跳远平均数的预测值。本文采用K元线性回归方程计算预测值。为计算方便,把02年、03年、04年、05年、06年简写为1、2、3、4、5。设“Xi”为年份,成绩为“Yi”,首先列出Xi和Yi的回归计算表(见表2)。
表2Xi和Yi的回归计算表
2007年全校男生立定跳远平均数预测值的具体计算略,其结果为2.28米。
第二,求2007年全校男生立定跳远标准差的预测值。数据见表1,2007年全校男生立定跳远标准差预测值计算的方法和步骤同2007年全校男生立定跳远平均数的预测值计算,具体计算略。其结果为:S=0.1362
2.求2007年全校男生立定跳远60~90分的预测区间
假设低于60分和高于90分的学生各占总数的5%,显然60~90分之间的人数占90%。查表可知置信概率0.90的预测区间为
若求这个预测区间,可用2007年预测标准差代替剩余标准差。
在回归方程:的上下两侧分别作一条与回归直线平行,并符合上述条件的直线,则为取整计算方便,2.053932取2.06,对应60分,2.50对应90分。
3.根据预测采用累进评分法制定2007年全校男生立定跳远评分表
第一,求累进评分数学模型的抛物线方程
累进评分法的优点在于使分数的累进与成绩提高的难度相适应,并能对成绩作出较为客观的评价。其数学模型为
Y=KD2-Z
其中Y为累进分数,K为系数,D为某成绩在正态曲线图横轴上的位置,Z为基分点以左的分数。把X-1S的位置定为60分,X+3S的位置定为90分,查D值表知,-1S位置的D=4,3S位置的D=8,代入公式得:
90=K.82-ZK=0.625
60=K.42-ZZ=50
代入数学模型得抛物线方程:Y=0.625D2+50
第二,求2007年全校男生立定跳远成绩所对应的D值
把60~90分之间2007年全校男生立定跳远距离按递增0.02米进行排列:2.06、2.08、2.10、......2.50,其间隔为22个。
与之对应的D值间隔为:8-4/22=0.1818。见表3
表3立定跳运成绩对应D值表
第三,将表4数值代入抛物线方程:
Y=0.625D2+50
Y2.06=0.625×42+50=60
Y2.08=0.625×(4+0.1818)2+50≈60.93
Y2.10=0.625×(4+2×0.1818)2+50≈61.90
Y2.12=0.625×(4+3×0.1818)2+50≈62.91
中间数值计算省略
Y2.50=0.625×82+50=90
Y2.52=0.625×(4+23×0.1818)2+50≈91.83
Y2.54=0.625×(4+24×0.1818)2+50≈93.71
Y2.56=0.625×(4+25×0.1818)2+50≈95.64
Y2.58=0.625×(4+26×0.1818)2+50≈97.60
Y2.60=0.625×(4+27×0.1818)2+50≈99.60
注:小于2.06的得分略
第四,把上述数据列表,并按四舍五入进行修正。见表4
表4立定跳远得分表
四、结论与建议
1.本文采用统计学方法,以作者多年积累的学生身体素质资料为根据,以东南大学男生立定跳远成绩为素材,详细叙述了该项目评分表的制定过程。
2.这种评分表与传统的评分表相比,更适合学生的实际情况。它为教师提供了把握学生及格率以及平均成绩的方法,具有一定的现实意义。
3.本研究采用的累进计分的方法,使学生的最后得分与成绩提高的难度相适应,方法更科学,结果更合理。
4.用这种方法,同样可以再造出其它身体素质评分表,特别对于成绩越好,提高难度越大的径赛项目,具有极高的实用价值。