欢迎来到易发表网!

关于我们 期刊咨询 科普杂志

统计学决策规则优选九篇

时间:2023-09-13 17:06:21

引言:易发表网凭借丰富的文秘实践,为您精心挑选了九篇统计学决策规则范例。如需获取更多原创内容,可随时联系我们的客服老师。

统计学决策规则

第1篇

[关键词] 科学决策 市场调查 假设检验

假设检验是一类重要的统计推断方法,它是利用样本统计量并按一种决策规则对零假设H0作出拒绝或接受的推断,决策规则运用了“小概率”原理。

一、理论基础

设每次试验可能出现的结果为,相应的概率分别为,且;进行了次独立试验,记出现的次数为。显然,在次试验中,事件出现的频数与期望数有差异,卡尔・皮尔逊提出了这种差异程度的统计量

并证明了如下的定理。

定理当为总体的真实概率时,由上式定义的统计量的渐近分布是自由度为的-分布,即其密度函数为

在上面的定理中,我们假定是已知的,但是在实际问题中,通常依赖于个未知参数,而这个参数需要用样本估计,这时皮尔逊定理不再成立。不过,1929年费歇证明了在一定条件下,可以先用极大似然估计方法估计这个参数,然后再算出,这时统计量

当时还是渐近服从-分布,不过自由度为。

二、应用实例

石市万方商城准备在东开发区几个大中专学校内建连锁店,商城文化用品专柜销售经理安娣要为本专柜在各连锁店内的投资规模提供资料,供决策层参考。于是,对准备建连锁店的几个学校的学生进行了抽样调查,其中某大专学校每月生均消费(本文中专指学生用于购买文化用品的支出)的资料如下:

解:(1)统计假设:

(2)对水平,查自由度为的-分布得临界值,故拒绝域为[)

(3)计算统计量的观测值

(4)作判断:由于,故接受零假设,即此大专学校学生的每月人均消费(本文中专指学生用于购买文化用品的支出)X服从正态分布。据此推断结论,再综合其他因素,销售部经理、商场决策层等最后商讨在此校开连锁店事宜。

参考文献:

[1]魏宗舒等:概率论与数理统计教程[M].北京:高等教育出版社,2003年6月

[2]吴远芬:浅析抽样调查在应用中的局限性[J].商场现代化,2006年8月总第475期

第2篇

目前,中国除了上海之外,其它城市还没有专营消费信贷调查业务的报告机构。1999年下半年,建设银行济南分行出台的《个人信用等级评定办法》在信用评估方面进行了尝试。该办法对不同的指标赋予不同的分值,对借款申请人的还款能力、信用状况等做出综合评价以决定贷款决策。随着信贷业务的需要,国内越来越多金融机构以业务对象的个人信用记录直接作决策参考,或附以一些评分方法,但毕竟以主观经验为主。而国外在信用评估方面已经有人做了大量的工作,提出了有FICO评分模型、神经网络模型、贝叶斯分析模型等等各种评估模型,并采用了各种数学的、统计学的、信息学的方法,取得了一定的效果,特别是FICO评分模型,更是成为西方发达国家信用评分事实上的标准。

二、常用评估方法

1.标准数理统计模型

基于标准数理统计理论的信用评分模型是对大量的个人消费贷款的历史信用数据进行科学的归纳、总结、计算而得到的量化分析公式。在美国,不同的行业有不同的信用评分模型来帮助专业人士进行信用风险管理,如表1所示:

表1美国不同行业常用信用评分模型表

从概念上讲,信用评分就是利用消费者过去的信用表现来预测其未来的信用行为,如图1所示。

信用评分模型的关键是科学合理地选出信用变量,并产生一个公式。信用评分模型的统计方法有线性概率模型、logit模型、probit模型以及线性判别(Discriminant)分析方法。

(1)线性概率模型

线性概率模型假设违约概率Y与信用变量X之间的关系是线性的,用于解释过去信用行为(违约或不违约)的信用变量及其重要性(系数)被用来预测未来的信用行为。线性概率模型数学表达如下:

根据历史样本数据进行优化计算,得出系数βj的估算值。

(2)Logit信用评分模型

Logit信用评分模型是采用数理统计的logit回归方法建模分析。logit信用评分模型的分析方法如下:

这里,Y∈{0,1}是二元响应变量,表示信贷状况;为logit概率累积分布函数。当Xj属于度量变量时,Xj表示为第j个可度量变量;当Xj属于范畴变量时,Xj表示为哑元变量向量。

(3)Probit信用评分模型

Probit模型同样能够把违约概率的预测值限制在0和1之间。它与logit模型的不同在于probit模型假设违约概率服从累积正态分布(cumulativenormaldistribution),即

(4)线性判别模型

判别模型根据过去观察到的借贷者的信用特征,把他们划分成高违约风险和低违约风险类别。线性判别模型(LinearDiscriminantModel)假定信用变量对这种划分的影响是线性的。

2.数据挖掘技术

数据挖掘从大量数据中提取或“挖掘”知识,其任务可以分为描述和预测两类,用于信用评估,可对客户进行分类、聚类、关联规则发现、预测、偏差检测等。其中多数用分类、关联规则发现和预测方法进行个人信用评估。

(1)分类

按分析对象的属性、特征建立不同的组类描述事物。它基于对类标记已知的数据对象的分析,导出描述并区分数据类或概念的模型(或函数),用以预测类标记未知的对象类。导出模式可以用分类规则、判定树、数学公式或神经网络等形式表示。

(2)关联规则发现

某种事物发生时其他事物会发生的一种联系,这些规则展示属性-值频繁地在给定数据集中一起出现的条件,关联规则形式:X=>Y,即“A1∧...∧Am=>B1∧...∧Bm”。

(3)预测

把握分析对象发展的规律,对未来的趋势作出预见,其表示形式与分类同。

三、一种基于历史记录规则相似性的综合评估方法

由于国内银行业现有客户记录多数是不完整的,所以使用单一的方法进行评估未必能体现客户真实的信用历史状况。为了将数据挖掘技术和数理统计完全基于记录本身特征并与能够体现专家判断的评分很好地结合起来,本文提出一种基于关联规则的相似推荐方法,实现如下:

1.应用粗糙集理论对历史数据记录进行属性约简及规则提取

粗糙集理论是数据表简化和生成最小决策算法的有效方法,可以实现知识约简,发现属性表中的属性依赖,从而在信息不完全环境下进行知识发现,其定义如下:

S=<U,A,F,V>

其中,S:信息系统(决策表)

U:论域

A:属性集合

F:UXAV的映射

V:属性值域集合

采用决策偏好信息的挖掘方法(参见文献[3]),对S进行属性约简并提取规则,形成不同支持度S和信任度C决策规则集合DN{фΨ}(其中N代表提取的规则数量,可根据实际情况确定),且D是S不重复的子集,ф是条件属性,Ψ是决策属性,ф、Ψ∈A。

2.对测试记录与步骤1提取的规则进行相似性计算

相似性是某种关系强度的度量,可以通过数值比较来衡量(参见文献[4])。因为决策规则集合D不能完全覆盖所有测试记录属性值组合,而且决策表对象结构相同。测试集合SD中的任一组合(规则)Dd对照D中Dn进行相似性计算,得出SIM1、SIM2...SIMn

其中,B:归一化因子

(B=1/∑Wi)

Wi:属性i贡献因子

(体现数据特性或专家经验,也可通过多种赋权综合评价求得)

SD(Dd,Dn):已知Dd发生,Dn也在同一组发生的概率

3.多赋权综合评价

对上述步骤求得参照各个规则的支持度S、信任度C及相似性SIM组成一个N个对象、3个指标的矩阵XN×3。

(1)运用变异系数法对X进行客观赋权

此时,第j个指标的权重就是这种加权方法是为了突出各指标的相对变化幅度,即变异程度。

(2)对X使用线性插值法进行规范化处理,得到规范化矩形ZN×3,对其使用互补判断矩阵排序法求属性权重:

I=1运用综合赋权法将(1)、(2)两个权向量进行有机集成,得到综合权向量W=(W1,W2,......,WN)。传统的综合赋权有乘法合成归一化、线性加权组合法、基于spearman等级相关系数综合赋权法等,也可采用基于灰色关联度的客观权重综合集成法。

最终求出测试记录对各个规则的评价值fi=∑wj×zij,(i=1,2,......,N),其中MAX(fi)就是与测试记录最相似的规则,可将其决策偏好作为测试记录的预期偏好。

第3篇

[关键词] 支持向量机投资决策统计学习理论

企业进行项目投资可选用内部收益率来作决策,决策规则:设置基准贴现率Ic,当内部收益率IRR>=Ic时则方案可行,否则不行。用这种方法来进行决策比较合理,但计算过程很复杂一般需要一次或多次测算。

支持向量机是Vapnik等人根据统计学习理论提出的一种机器学习方法.由于支持向量机(SVM)出色的学习性能,已成为国际上机器学习领域的研究热点.目前在手写体数字识别、文本分类、人脸检测等模式识别问题以及函数逼近、信息融合等领域中获得了应用.但目前在经济领域的应用还只是尝试,本了基于支持向量机的银行客户信用评估系统研究,可见SVM在经济上的应用还是很有前途的。我们知道,应用SVM作入侵检测最好的效果是检测正确率达到88%左右,但是如果在投资经济领域的能大到这样的效果就非常好了,因为这本身就是一个不可确定的结果,即便是经验丰富的人做出的决策结果也存在不确定性,能有88%的正确率,说明可能性已经很大了。因此用SVM做投资决策时是具有经济意义的。

一、支持向量机

1.广义最优分类面假设有一线性可分的样本集(xi,yi),i=1,…,n,x∈Rd,y∈{+1,-1},为了将yi=1和yi=-1两类点尽可能正确地区分开,可构造分离超平面x・w+b=0,使得

归一化得yi[(w・xi+b)]-1≥0,i=1,…,n (1c)

{(xi,yi)}到分类超平面的距离可定义为1/w,若样本集到该超平面的最小距离最大,则为最优分类面。所以要使x・w+b=0为最优,当且仅当(w,b)是下面优化问题的解:

这个二次规划问题有惟一的极小点,可以用Lagrang乘子法把(2)化成其对偶形式:

i=1可以证明解中只有小部分ai不为0,称对应的xi为支持向量。于是最优超平面方程为: (4a)

最优判别函数为: (4b)

对于线性不可分的情况,可以在条件(式2b)中增加一个松弛项ξi≥0,成为:yi[ω・xi+b]-1+ξ≥0,i=1,…,n 5)

目标函数改为求:

最小,其中C>0是个预先给定的常数,它控制对错分样本惩罚的程度。最优分类面的对偶问题与线性可分情况下几乎完全相同,只是条件(式3c)改为0≤ai≤C,i=1,…,n。

2.支持向量机。对于非线性问题,作非线性映射Φ(x):RdF, F是高维内积空间称为特征空间,Φ(x)称为特征映射;然后在F中构造(广义)最优超平面。实际上不用知道Φ(x)的K(xi,xj)满足Mercer条件,它就对应某一变换空间的内积。因此,采用适当的核函数K(xi,xj)就可以实现某一非线性变换后的线性分类,此时最优分类面中目标函数就变为确切表达式,只需在高维空间进行内积计算。根据泛函的有关理论,只要一种核函数:

相应的判别函数也变为:

这就是支持向量机。

简单地说,支持向量机就是首先通过内积核函数将输入空间变换到一个高维空间,然后在这个空间求广义最优分类面。

SVM中不同的内积核函数形成不同的算法,常用的核函数有:

多项式核函数K(xi・xj)=[(xi・xj)+1]q,q是自然数径向基核函数(RBF):

两层神经网络核函数K(xi・xj)=S(a(xi・xj)+t)其中S是sigmoid函数,a,t为常数。

二、SVM在投资决策中的应用

1.可行性分析。对于独立的方案的决策,常用的评价指标是净现值和内部报酬率。一个独立方案的净现值如为正值,说明该方案可实现的报酬率大于所用的贴现率,经济上可行;如净现值为负值,说明该方案可实现的投资报酬率小于要求达到的最底报酬率,经济上不可行。内部报酬率是指用它来对投资方案的现金流入量进行贴现,使所得的总现值恰好与现金流出量的总现值相等,从而使净现值等与零的利率。也就是投资项目本身可以达到的的报酬率。该指标比较合理,但计算很复杂,有时要经过多次的测算。

SVM理论是在统计学习理论的基础上发展起来的。由于统计学习理论和SVM方法对有限样本情况下模式识别中的一些根本性的问题进行了系统的理论研究,很大程度上解决了以往的机器学习中模型的选择与过学习问题、非线性和维数灾难问题、局部极小点问题等,所以它们在20世纪90年代以来受到了很大的重视。

2.支持向量机的构造。根据常用的评价指标选取以下特征向量作为SVM输入向量:输入向量x的属性及含义;对应的输出y为两类:可行与不可行,用1代表可行,-1代表不可行。

输入数据根据用内部收益率指标已经算的结果来给定。例如:原始投资为5500元,净现金量为11000元,残值为500元,折现年数为10年,通过用测算内部投资收益率为0.157,那么所有基准收益率大于0.157方案为不可行,小于等于0.157的方案为可行。这样可以得到许多组输入向量。根据以上方法我用30个数据做实验,用13个做测试。

3.核函数的选取。支持向量机在实际应用中关于参数选择的问题还没有很好的解决,比如多项式学习机器的阶数问题,径向基学习机器中的函数宽度问题,以及Sigmoid机器中函数的宽度和偏移问题等,统计学理论目前对这些问题只是给出了一些建议和解释。笔者采用径向基核函数做试验。

三、训练和测试

根据数据按内部收益率指标的计算,笔者可以的到一组数据。这样笔者采用了30个数据来作为训练数据。部分数据如下图:

经过训练后,用13个数据做测试,得到测试结果(部分数据)如下:

根据试验结果发现用SVM作投资决策,13个测试数据中有11个判断正确,其正确率达84.6%。

四、结论

1.支持向量机是在统计学理论的基础上发展起来的一种新的学习算法,解决了实际问题中样本有限的问题。

2.本文研究了SVM在投资决策的应用,结果表明用支持向量机作投资决策的应用取得了较好的结果。

3.本文的研究的数据虽然具有一定的典型性,但对支持向量机应用于经济领域的研究提供了依据,有很重要的实际意义。

本文存在的不足之处是试验数据具有典型性,因为笔者在编程试验时很难找到真实的数据,只能根据其特征来组合,所以试验结果还不能完全说明SVM会在所有的投资决策应用中显示出明显的效果。但是,此次试验证明了SVM在经济领域里有着广泛的应用前途。

参考文献:

[1]李丽娜侯朝桢:基于支持向量机(SVM)的工业过程辨识.北京理工大学学报,2003年10月

[2]王小平沈玉娣:支持向量机在轴承故障诊断中的应用.机床与液压,2003.No.4

[3]姚奕叶中行:基于支持向量机的银行客户信用评估系统研究,系统仿真学报,2004年4月

[4]姬水旺姬旺田:支持向量机训练算法综述.微机发展,2004年1月

第4篇

【关键词】粗糙集方法;医学影像学;诊断准确性

粗糙集理论是一个交叉融合多种学科形成的新学科,已被广泛用于各个行业包括:市场营销、卫生、电信、金融、农副产品、互联网语言的识别以及知识管理系统等等。粗糙集理论在很多的领域已取得令人骄傲的应用效果。在医学影像学领域中,随着影像学数据信息不断的增长,在医学影像学诊断中运用粗糙集方法,能客观地展现出海量数据信息以及高维资料的背后的真实情况,更好的帮助医生做出客观、准确的判断,有利于临床诊断正确性的提高。

1 简要论述粗糙集方法

1982年波兰数学家首次提出粗糙集概念,这是以等价关系为基础的,用于分类问题的研究,用上集合与下集合生成一个相逼近的新集合,新结合的边界线被定义为上下近似集的差集。是继概率论、证据论之后有一个不确定性问题的处理工具,是一种新型的软计算方式。

这种建立在分类机制前提下的粗糙及理论,可以把分类解释成为一定区域中的等价关系,这个区域正是由等价关系进行划分的。将知识归纳为数据的划分,被划分后的集合定义为概念。充分利用已知的信息库,对不确定或不精确的知识通过已知的信息库进行近似刻画。无须提出数据集合以外的一切知识,因此,对于问题的描述比较客观、比较具体,再加上粗糙集理论不包含不确定或不精确原始数据机制,与证据理论、概率论等有较强的互补性。

粗糙集合理方法适用于研究不定型问题的工具,作为集合理论的扩展,粗糙集理论主要用来研究不完整的信息数据挖掘技术。它可以在缺乏数据的先验知识前提下,用考察数据分类的能力解决模糊不定的数据并加以分析处理,与此同时粗糙集算法简单且容易操作,现在以它为基础的数据挖掘工具也非常多,粗糙集理论其出发点是假设所有研究对象都涉及一些的信息。随着粗糙集理论的广泛应用,其有效性被越来越多的证实,成为了现阶段人工智能研究的重点。

2 医学影像学诊断中粗糙集方法的应用实例分析

收集了2011年1月-2012年1月来我院进行胶质瘤诊断治疗的50例患者的临床资料进行详细研究,其中,29例男,21例女,患者年龄在23岁-77岁之间,平均年龄为58.7岁。其中,11例WHO I级,25例WHO II级,9例WHO III级,5例WHO IV级。对上述患者进行MRI检查,平扫TIW1横断面与矢状面得出影像学资料。由放射科专业医生对上述患者的MRI影像学资料进行分析研究,包括病灶位置、形状、囊变、TIW1、T2W1、水肿、钙化、出血、性变等等,按照影像学特征对不同指标进行分类。并通过粗糙集方法、Logistic二元回归方法与分类回归树方法对影像学资料进行研究。具体粗糙集方法:将决策表导入专门的Rosetta软件,通过软件对病例进行规则约简与属性约简。在条件属性核产生的基础上,得到决策规则库,通过规则库过滤,达到知识的精简。通过10折交叉验证方式测试胶质瘤数据,通过测试结果的诊断灵敏性、覆盖率、阳性预测值、特异度、阴性预测值等提取诊断性能,绘制ROC曲线。结果显示,粗糙集方法的诊断准确性为85.2%,特异度为92.7%;决策树方法诊断准确性为83.0%,特异度为91.3%;Logistic二元回归方法诊断准确性为83.2%,特异度为85.6%。充分证实了,在临床影像学诊断中,粗糙集方法能够得到更多的确定性规则,进一步提高临床诊断准确率。

3 医学影像学诊断中粗糙集方法的应用的优点分析

3.1 粗糙集方法应用便捷、结果准确性高

粗糙集方法不需要预先设计概率、不需要建立相应的因变量函数关系,直接运算集合中的对象,直接获得不可分辨的矩阵,直接得出结论。通过粗糙集法分析,其结论呈现的方式是以IF….Then…的形式出现,呈现结果不仅具有非常高的价值,而且呈现形式非常明确。

3.2 粗糙集方法能客观地展现出海量数据信息以及高维资料的背后的真实情

这种基于数据集合的挖掘方法,在临床影像学诊断中,粗糙集方法能够发现隐藏在现象背后的知识。例如,在在对胶质瘤影像学资料进行规则提取以及属性约简时,整个过程都是客观的,不受外界因素、人为因素的干扰,获得的胶质瘤级别诊断比较容易理解、诊断规则比较清晰。Logistic二元回归方法与分类回归树方法,是通过训练集方式生成一个新的测试函数,通过函数分析方法,计算不同对象的可能发生概率,进而预测对象的分类。Logistic二元回归方法是基于数理统计基础上的,通过笔数比筛选具有价值、有统计学意义的不同变量,将这些变量通过模型方程形式进行计算,比较计算前后实际结果与预测结果两者的差异性,从而进一步确定自变量的入选,同时,还可以计算出自变量的重要价值。决策树方式是通过地规模与分层模式进行的,也就是根据不同的对象建立不同的树分支。在不同分支的子集中建立重复的分值和下层节点,从而生成了决策树。再对决策树剪枝,再对决策树进行规则处理。但是,这种基于概率的分类结果,是根据概率进行判定的,对于高级别胶质瘤的诊断率比较低,这种决策树分析方法很容易受到人为因素的影响,比如说决策树的修建、决策树的增长、选择父节点数以及子节点数等等,都会影响到分析结果的准确性。

4 结语

粗糙集方法是将观测到的庞大数据集加以分析研究,其目的是找的未知的关系及数据拥有者能够理解且有价值的新方法来总结数据,经粗糙集方法推导出的准确率较高,在临床医学影像诊断中应用价值较高。

【参考文献】

[1]马常杰,陈守余.数据库中模糊关联规则挖掘研究进展[J].计算机工程与应用,2010,12(11):752-753.

[2]田军章.基于PACS的结构化报告(SR)模块的设计与实现研究[D].第一军医大学,2011,4(09):141-142.

[3]王小凤,周明全,耿国华.一种基于模糊粗糙集理论的算法及其在医学影像中的应用[J].计算机应用研究,2012,11(5):369-371.

[4]王国胤.Rough集理论在不完备信息系统中的扩充[J].计算机研究与发展,2012,5(17):13-15.

第5篇

关键词:生物统计学;实验教学;改革探索;实践

中图分类号 G642.0 文献标识码 A 文章编号 1007-7731(2013)15-148-02

生物统计学是数理统计原理和方法在生物学中的应用,不仅在生命科学领域、而且也在其他学科领域中得到广泛应用,是一门工具学科[1]。生物统计学的理论性和实践性均较强,涉及的基本原理、公式和概念较多,需有一定的数学基础和逻辑推理能力才能学好,相对于其他专业课程,师生普遍反映难教、难学、难记[2]。《生物统计学》不容易理解和掌握,导致学生缺乏学习兴趣和动力,考试前通过死记硬背接受理论知识,形成短暂记忆,随着时间的延长,所学内容逐渐忘记。这门课程讲授完之后,学生不会灵活运用其中的方法,也不会设计一个简单的试验,更不会将生物统计学的基本理论、技术和常用统计方法应用到本科毕业论文设计中,导致理论教学与实践应用脱节,显然未达到教学目的。以往《生物统计学》教学以单纯理论教学为主,不设或很少开设实验课。因此,笔者结合《生物统计学》的基本原理,利用计算机和统计软件,开设了《生物统计学》实验课,并尝试对该课程的实验教学方法进行改革探索。

实践教学环节非常有利于提高大学生的培养质量,而《生物统计学》课程教学的实践环节亟待加强。在《生物统计学》实验教学过程中,我们利用计算机辅助实验教学,开设以下实验课:(1)《生物统计学》某章节理论知识讲授完之后,利用计算机和相关统计软件,开设相应的实验课。在实验课上,教师通过统计软件演示例题的计算和分析过程,并讲授统计软件的使用方法,学生根据所学理论知识,结合实例在计算机上借助统计软件进行操作,这样使学生获得知识更加直接与快速。(2)学生参与试验设计和科学试验。学生要在生产实践或实验室中设计试验,亲自参与试验数据的采集,并对试验数据进行统计和分析,这样有利于加深学生对所学内容的理解。《生物统计学》教学开设了如下实验:

1 利用Excel绘制常用统计图

Excel绘制图形功能强大,各种版本的Excel软件均提供了14种标准图表类型,每种图表类型中又含有2~7种子图表类型;还有20种自定义图表类型可以套用。讲授完试验资料的搜集和整理后,开设利用Excel绘制常用统计图的实验课。学生在实验课上利用Excel绘图时,可以对图表区、绘图区、数据系列、坐标轴、图例、图表标题的格式,例如文字的颜色、字体、大小,背景图案、颜色等进行修改和调整,使修饰后的图形更加美观好看,爽心悦目。当图和数据放在一张工作表上、学生改变绘制图形的数据时,其图形将发生相应变化;将鼠标放在图中某数据点上,在鼠标下方将弹出一个文本框给出数据点的具体数值;用鼠标单击绘图区中的“数据系列”标志,其图所属数据单元格将被彩色框线围住,便于用户查看图形的数据引用位置。在“数据系列”点击右键可以向散点图、线图、条形图等添加趋势线,并可给出趋势线的方程与决定系数。

2 利用Excel进行数据描述统计分析

讲授完试验资料特征数的计算后,开设利用Excel进行数据描述统计分析的实验课。首先选用与生活联系紧密的数据资料,让学生利用Excel计算这些数据的平均数、中位数和众数,测定和分析这些数据的集中趋势,然后利用Excel测定样本标准差、总体标准差和四分位数,让学生分析这些数据的离散趋势。另外,让学生利用Excel分析总体次数的分布形态,计算总体平均值的置信区间,有助于识别总体的数量特征。总体的分布形态可以从两个角度考虑,一是分布的对称程度,另一个是分布的高低。前者的测定参数称为偏度或偏斜度,后者的测定参数称为峰度。

3 利用Excel进行统计假设检验

讲授完统计推断之后,利用Excel进行统计假设检验的实验课。统计假设检验是根据随机样本中的数据信息来判断其与总体分布是否具有指定的特征[1]。我们选择实际案例,让学生提出假设,利用Excel中适当的统计方法计算检验的统计量及其分布,确定显著性水平和决策规则,最后推断是否接受假设,得出科学合理的结论,这个过程就称为假设检验或统计假设检验。统计假设检验的方法多样,通过比较就会发现它们的基本方法和步骤大同小异,例如t检验、u 检验、x2检验等,可以详细讲述其中1~3种假设检验方法,其它假设检验方法可以采用启迪和推导方式让学生利用统计软件自行轻松地学习和操作。

4 利用Excel和SAS软件进行方差分析

讲授完方差分析之后,开设利用Excel和SAS软件进行方差分析的实验课。利用Excel只能进行单因素或双因素(包括可重复双因素和无重复双因素)方差分析,而涉及双因素随机区组试验、三因素试验和裂区试验等试验数据的方差分析,即让学生利用SAS软件进行多重方差分析。另外,Excel中的单因素或双因素方差分析只能给出方差分析表,不能进行平均数的多重比较,也无法用不同字母标记法表示差异显著性的结果,这些也都需要利用SAS软件。

5 利用多种统计软件进行回归分析

由一个或一组非随机变量来估计或预测某一个随机变量的观测值时,所建立的数学模型及所进行的统计分析,称为回归分析[1]。按变量个数的多少,回归分析有一元回归分析与多元回归分析之分,多元回归分析的原理与一元回归分析的原理基本相似。按变量之间的关系,回归分析可以分为线性回归分析和非线性回归分析。利用统计软件进行回归分析时,首先让学生如何确定因变量与自变量之间的回归模型;如何根据样本观测数据,估计并检验回归模型及未知参数;在众多的自变量中,让学生判断哪些变量对因变量的影响是显著的,哪些变量的影响是不显著的。在方差分析实验课上,先让学生利用Excel进行简单的线性回归分析,然后利用SPSS软件进行相关与回归分析,最后利用SAS软件进行多元线性回归分析和逐步回归分析,使学生了解不同统计软件的特点、功能和作用。

6 利用基本原理设计试验

试验的精确度高低取决于试验设计的各个方面,只有通过有效地控制试验误差才能提高试验精确度。因此,教师有必要正确引导大学生在试验过程中要做到操作仔细,这样有利于提高学生的科研素质。在试验工作中,从试验资料中发现潜在的规律性是极其重要的,这需要科学合理地运用统计学的基本原理和方法。讲授完试验设计之后,要求学生根据试验设计的基本原理,在生产实践或实验室内提出试验设计的基本思路,制定试验方案。然后,学生分组讨论试验设计的可行性,并进行纠正和修改。在试验前期,学生应进行试验前期准备工作。在试验过程中,学生要考虑试验条件的差异对试验数据的影响,可根据试验设计的原理和技巧分析试验出现的问题,使学生获得的理论知识与实际联系起来,从而加深对理论知识的理解。试验结束后,获得大量的试验数据,需要选择正确的统计方法分析试验资料,得出科学合理的结论,以达到研究目的。最后,教师根据学生设计的试验思路、方案、步骤及作出的试验报告给予评价。通过开设试验设计实践课,可以使学生明确试验的目的、试验设计方法、试验因素及水平等内容,有利于提高学生设计试验方案的能力。

实践证明,开设《生物统计学》实验教学后,学生能够在计算机上借助相关统计软件亲自统计试验数据,利用所学的统计学方法分析和检验试验结果,最后得出可靠的结论。最后毕业时,学生能根据试验设计的基本原理,可独立完成毕业论文试验设计,实施设计的试验方案,获得试验数据资料。由于试验数据统计分析耗时,而且繁琐,因而过去毕业生害怕对试验数据进行统计分析。自从我们结合《生物统计学》的基本原理,利用计算机和计软件开设了该课程的实验教学后,学生轻松地掌握了该课程的基本原理和统计分析方法,统计和分析数据的速度、精确度均大幅度提高。现在部分学生还能帮助教师进行科研课题的数据处理和分析,毕业论文水平也大大提高。

《生物统计学》教学实验课的开设,使学生从被动学习转变为积极主动地学习,培养了学生进行科学试验设计的能力,初步掌握开展科学试验设计的方法;培养学生掌握正确收集、整理试验资料的方法,能利用生物统计方法对试验资料进行正确的统计分析;培养学生掌握常见统计软件的使用方法和统计方法。《生物统计学》实验课深受学生的欢迎,这也是对该课程实验教学的尝试和改革探索的肯定。在该课程实验教学过程中,笔者深刻体会到要提高《生物统计学》课程的实验教学效果和质量,教师需要投入时间与精力,钻研实验教学内容,提高教学水平,转变实验教学理念,不断探索和优化多元化的实验教学方法。

参考文献

[1]李春喜,邵云,姜丽娜.生物统计学[M].4版.北京:科学出版社,2008:1-3.

第6篇

利用计算机软件进行仿真模拟教学的目的是通过软件技术,将企业的经营活动进行高度的提炼,通过模拟经营环境,使学生在接近真实的情境下,体验如何在竞争的环境下进行企业各项决策,学生可以在亲自动手的实践中巩固已学知识、探索如何解决管理上的难题与困境、锻炼综合运用知识的能力、提高自身的综合素质。在竞争模拟中,学生们将组建不同的管理团队进行公司运营,在激烈的市场竞争中尽可能实现公司价值最大化。而团队成员将分别担任CEO,COO,总经理、营销经理、研发经理、生产经理,财务经理、人力资源管理经理等不同的角色,做出相应的战略决策,尽量使公司在变幻莫测和竞争激烈的市场中得以生存和发展。管理团队必须结合不断变化的宏观经济环境、各公司的竞争地位以及本企业的各部门之间的协同作用,辅以各种数据模型,制定出自己公司的竞争战略并按规定的时间提交决策单。通过软件对各企业的决策数据进行汇总,依据模拟的市场环境和需求决定各企业的主要经营指标,并且按照加权平均计算出各企业的模拟结果。然后,各企业再根据当下的状况,做出下一轮次的决策,直到整个模拟的周期结束。一般做一期演练需要一个小时,而一般地一个较为完整的模拟过程则需要9期。教师与学生在仿真模拟教学中,角色发生转换,一改以往传统授课方式中学生被动充当“听众”,把教学活动从关注“教”转向关注“学”;老师则在模拟实验中充当“导演”的角色,只起组织、指导的作用,强调学习的主体是学生,学生要成为“roleplayers”,自主地在模拟竞争情景下进行各项活动,要让学生在实践中学习知识,应用知识,并提升能力。

二、计算机仿真模拟教学的教学策略

与任何教学一样,计算机仿真模拟教学也必须在一定的指导原则下充分准备、精心设计、灵活开展;并且相对传统教学而言,由于计算机仿真模拟教学的活动更丰富、学习主体之个体差异性表现更为明显,因此,在进行模拟实验时,教师还应当注意设计与传统教学相区别的教学策略。

(一)以亲历体验为手段,着重让学生掌握工商管理中的“意会性知识”

工商管理本科生在其四年的学习过程中,应当建立起由传统教学方法和现代教学方法等多种方式组合而成的学习立方体。其中传统教学方法,即由课堂讲授、课外作业、考试三者构成,这是一种“式”学习方法,适合于“言传性知识”的传授。现代教学方法主要包括案例教学、毕业设计、经营模拟等“亲验式”学习方法,适合于“意会性知识”的掌握。计算机仿真模拟教学是相关专业教学的手段之一,虽有它的实际意义,但并不能完全代替基本理论的学习。如果参加模拟仿真竞争的学生缺乏最基本的知识,不懂得如何计算成本、利润、纳税等,所做的决策只是空凭感觉,随意性太强,这样势必难以实现教学之目的。因此,模拟仿真应当也建议在基本的课程(如生产运作管理、市场营销、财务管理、人力资源管理等)的学习结束后进行,既可以在比较综合的课上使用,也可以单独设置实训课程。众所周知,管理决策既是一门科学也是一种艺术,管理的层次越高,决策中的艺术性就越高;决策层次越低,决策的科学性就越强。通过仿真模拟教学加深对各学科基础知识的理解,教师在重视决策科学性训练的同时,也应培养学生们纵观全局和高瞻远瞩的能力。选择的模拟决策层面通常包括各个专业主要课程相关内容,如生产运作管理、市场营销、财务管理、人力资源管理、战略管理、目标管理、沟通管理、运筹学、统计学、博弈论等。而与现代教学方式中广泛运用的案例教学比较起来,计算机仿真模拟教学的对抗性更强,参与者的积极性更高,所设计的知识更全面,是以动态方式进行的案例分析。让学生站在企业最高决策的位置上来分析、处理所要面对的各项问题,亲身体验企业决策中的“甜酸苦辣”等滋味,使学生深刻领悟作为管理者所应掌握的硬功夫和软功夫。通过对一系列动态实际情境连续不断的分析与决策来获得知识,并且取得及时的反馈,这正是模拟实验相对于其他教学手段所独有的特点。

(二)以学生为主体,设计符合学生认知规律的教学方案

实践性的学习不再是以教师为中心,而是由学生发挥主观能动性,自由地选择团队成员、自主地确定模拟仿真内容、自发地学习相关知识以解决所遇上的难题。在设计教学环节时,要循序渐进,首先让学生掌握基本的操作规律和决策规则;在之后的实践过程中要穿针引线,深入讲解,启发学生动手动脑,在仿真模拟教学中运用基本知识和分析方法。模拟实验结束后要求学生进行总结,口头发表演讲并提交书面报告。在运用软件进行教学时,教师可以根据课时安排数轮比赛。在介绍了软件的基本操作和一般规则之后,可以开展热身赛,学生需要提交前期决策,旨在让学生尽可能快速熟悉竞争规则,掌握各项职能之间的分工与配合。热身赛结束后,教师要带领学生总结并进一步使学生深入掌握各项规则背后所隐含的管理学原理和知识。在此基础上,学生们进行9期的正式竞赛,以比赛的方法考察学生综合运用知识的能力和战略决策水平。各轮比赛之间,教师应该注意穿插讲解,点评反馈,要适时启发学生带着问题主动学习,在模拟仿真中不断通过想办法解决问题的方法加深自己对相关知识的理解。当模拟进行到一定阶段,就可以适当引入统计方法,利用Excel、SPSS……等计算机统计软件进行预测。除了此项模型,还可以对生产排班、财务控制等问题建模以辅助决策。当学生们掌握了这些技术并用于改进之前的决策时,他们将更能体会到所学知识的实际用途,“做中学”的方式会将容易遗忘的书本知识转化为难以磨灭的技能。

(三)以提高学生各项管理技能为目标,采用多元化的方式进行考核

利用计算机模拟企业经营管理的教学目的是多层次的,包括上述对管理学科理论知识的实际运用之外,还将提高学生的团队协作能力和领导能力。因此,设计课程考核方式时,应当综合课程自身的特征与大纲要求,建立以基础概念、基本理论、基本技能为根本,以复合运用能力为重点,以竞争成果为参照的综合考察体系,注重考评方式的多样化和考评指标的规范化,以保持对学生学习成绩和教师教学效果检验的客观性和公正性。企业竞争模拟软件可以作为管理学、企业战略管理等课程的实践环节展开,也可以针对高职大专高年级学生、本科生,甚至是硕士生和企业员工独立设课。作为一门单独的课程,学生最终的成绩评定可以由以下三部分构成:1.企业竞争模拟竞赛成绩,占本课程总成绩的20%。2.企业竞争模拟总结演讲,占本课程总成绩的40%;要求学生以小组为单位发表不超过10分钟的演讲,并回答其他学员和老师的提问。老师将根据小组演讲的内容、回答提问以及现场演讲的表现对学生进行综合评价。3.企业竞争模拟书面报告,占本课程总成绩的40%;要求学生以小组为单位提交不少于3000字的报告,内容应当包括本企业在模拟中的总体战略思路、各职能部门制定决策的情况、模拟过程中遇到的问题和解决方案、学习心得体会、团队合作中的经验以及对软件和教学的意见与建议等等方面。

三、小结

第7篇

关键词: 农业生产;数据挖掘;数据仓库;决策支持系统

0 引言

我国作为农业大国,三农问题一直是国民经济和社会发展各项工作中的重中之重,随着科技的进步以及计算机技术在农业生产中的广泛应用,农业科技人员在研究过程中积累了大量有价值的农业数据资源,其中包括各种作物的苗情、土情、肥情、病虫害、气象、灾害和市场行情等诸多方面。但是由于农业生产的复杂性,使得这些农业数据资源具有大量、多维、动态、不完整、不确定等特性,使得从这些海量的数据中抽取模式、找出数据变化的规律和数据之间的相互关系、建立农业决策支持系统等工作变得越来越困难,这产生了所谓的“数据丰富而知识贫乏”的现象。[1]在农业生产决策支持系统中引进数据挖掘技术,从这些海量的农业数据资源中挖掘出一些随诸因素动态变化而产生的新的指导农业生产的规律,农业科技人员可以根据这些规律确定正确的农业生产策略,从而推动农业生产,产生更大的经济效益。

1 数据挖掘技术概述

数据挖掘(Data Mining,DM)[2],就是从大量的、不完全的、有噪声、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道、但又是潜在有用的信息和知识的过程。数据挖掘是一个融合了数据库技术、人工智能、机器学习、统计学、知识工程、面向对象方法等新技术的多学科交叉的研究领域。从商业应用的角度看,数据挖掘是一种崭新的商业信息处理技术。目前,国内外在农业领域数据挖掘的研究涉及面不广,研究还不够深入。对于将数据挖掘技术应用到农业生产决策支持系统的中的研究,关注度较小,有些研究还处于探索阶段,并且对挖掘算法的研究还是不系统、不全面,分析原因,主要是与农业信息化建设的滞后,有着一定的联系。

2 数据挖掘技术在农业生产决策支持系统中的应用

决策支持系统(Decision Support System,DSS)是基于计算机的信息系统,其主要目的是为知识工作者提供奠定明智决策的基础的信息。[3]农业生产决策支持系统主要是指以一个区域的农业经济为研究对象,以农业可持续发展为决策目标,综合运用计算机数据挖掘技术、管理科学、农学、农业系统工程以及运筹学等多种科学知识,针对农业生产中的非结构化或半结构化决策问题,通过对以往农业技术人员积累的大量的数据资源进行模型计算、列举可能方案等方式,为农业生产的管理者做出正确决策提供帮助的计算机管理系统。[4]

2.1 农业生产决策支持系统的总体设计

针对农业数据资源的特点,在农业生产决策支持系统中引入数据仓库技术,从而建立基于数据仓库的农业生产决策支持系统,决策支持系统的基本结构如图1所示。用户可以通过客户端子系统登录系统,提出一些农业生产方面的决策问题,通过人机交互形式输入到计算机中,由决策支持系统产生决策规则。农业生产决策支持系统的内部结构主要是:由以往农业生产数据库积累的各种数据资源,经过对数据进行的抽取、清理、转换、载入等操作建立面向农业生产为主题的数据仓库,根据决策的需要,确定挖掘的任务和目的,并应用各种数据挖掘算法对数据仓库中的相关数据进行精简、提取和预处理,最终挖掘出新的、有效的信息、知识或规则加入到知识库中,以便决策者进行查询请求,最后形成决策结果到交互系统中。

2.2 农业生产决策支持系统数据仓库模型

数据仓库的逻辑数据模型是多维数据模型,这也正好适合农业生产数据信息的多维性的特性,常见的由星型模型、雪花模型、多主表结构等,操作人员可以根据数据的具体情况选择适合的数据模型。根据对农作物数据库的分析,确定数据仓库的基本主题有:作物生长时间、室外气候、作物生长状态、病虫草害以及田间管理。根据农作物生长的多维数据特点,本文选取星型模型,这种模型建模方便,并且支持用户从多个维度对数据进行查询分析。作物生长时间、室外气候、作物生长状态、病虫草害以及田间管理这些关于农作物的数据信息就构成了星型模型中的事实表,维表则是围绕农作物数据信息的扩展。数据仓库模型见图2。

2.3 建立农业生产决策支持系统

首先对于联机分析处理(OLAP)模块的建立,本文利用Microsoft OLAP Analysis Services服务端组件,根据星型数据仓库中的事实表和维表,对数据仓库中的数据进行切片、切块、钻取和旋转等操作,从而完成对气候维、生长时间维、生长状态维、病虫草害维、田间管理维的建立和处理。OLAP模块对数据仓库中的多维数据进行数据分析,并能以图形、报表等形式展现分析结果。

数据挖掘系统能够挖掘多种类型的模型,以适应农业生产中农作物星型数据仓库的需求和应用。使用SQL Server 2005 Analysis Services(SSAS)创建关于农业生产方面的复杂的数据挖掘解决方案。本系统根据农作物的数据仓库模型的应用需要,对模型进行了决策树分类分析、关联分析、聚类分析等类型的挖掘。

2.3.1 决策树分类分析。决策树(decision tree)是一个类似流程图的树型结构,树中包含三种节点类型:根节点、内部节点以及叶节点。其中树中的每个内部节点都代表着对一个属性的测试,用以区分具有不同特性的记录。叶节点则代表某个类或者是类的分布,最上面的节点就是根节点。决策树构造的输入是一组带有类别标记的数据,往往构造的结果是一棵二叉树或多叉树。在农作物发生病虫草等方面的分析,可以通过决策树分类分析对农作物灾害数据资料中大量的历史数据处理、挖掘出蕴含其中的对防治病虫草害有价值的信息,从而为诊断和防治提供更准确的决策服务。

2.3.2 关联分析。若两个或多个数据项的取值之间重复出现且概率很高时,它就存在某种关联,可以建立起这些数据项的关联规则。在大型数据库中,这种关联规则是很多的,需要进行筛选,一般用“支持度”和“可信度”两个阈值来淘汰那些无用的关联规则。在农作物信息数据仓库中,SSAS提供了关联算法,可以根据农作物以往发生病虫草害的疾病和特征分析,挖掘出在一段时间内,气候环境与特定农作物发病之间的关联规则。

2.3.3 聚类分析。聚类就是把一组对象按照属性值划分成一系列有意义的子集的过程。它所采用的划分原则是保持最大的组内相似性和最小的组间相似性,即不同的聚类中的数据尽可能地不同,同一聚类中的数据尽可能相似。所以,聚类有助于建立集合的细分。SSAS提供聚类的分段算法,先对农作物数据仓库模型中的关系进行标识,并根据这些发生病虫草害的病例数据分组为包含类似特征的分类组。

3 结论

本文对数据挖掘技术在农业生产决策支持系统中的应用进行了研究,构建了基于数据仓库和数据挖掘的农业生产决策支持系统模型,并对该模型进行了介绍。该系统具有一定的辅助决策功能,用户可以通过联机分析处理模块和数据挖掘模块从多角度、多侧面地分析数据库中的数据,通过该系统可以挖掘和发现隐含的信息,对信息作出决策树分类分析、聚类分析以及关联分析等一系列数据挖掘操作,从而获得对农业生产有决策作用的信息,指导人们进行农业生产实践。

参考文献:

[1]李增祥,数据挖掘技术在农业生产中的应用[J].微计算机信息,2010,6-3:150-151.

[2]Jiawei Han and Micheline Kamber.数据挖掘概念与技术[M].北京:机械工业出版社,2001:23-34.

第8篇

1 数据挖掘的概念、步骤及常用方法

1.1 数据挖掘概念、步骤 数据挖掘(Data mining,DM)即数据库中的知识发现,是从大型数据库的海量数据中提取人们感兴趣的知识,这些知识是隐藏的、事先未知的、潜在有用的信息,挖掘的知识表现为概念、规则、规律、模式等形式[1]。数据挖掘的目的在于使用所发现的模式帮助解释当前的行为或预测未来的结果[2]。挖掘步骤大致有:问题定义、数据提取、数据预处理、数据挖掘、知识评估、结果应用这六步。

1.2 数据挖掘常用方法

1.2.1 描述统计 数据总结的目的是对数据进行从低层次抽象、浓缩到高层次,得出它的紧凑描述。最简单的数据总结方法是描述统计,它包括平均数、中位数、分位数等,它常和统计图配合应用。

1.2.2 关联规则 关联规则从本质上讲是条件概率,即当A发生时、B同时出现的概率有多大?只要B离50%较远就有意义。数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联包括简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时我们并不知道数据库中数据的关联函数,即使知道也不确定。因此关联分析生成的规则带有可信度。

1.2.3 分类和聚类 这是最常用的技术。分类方法主要有:回归、决策树、神经网络。分类分析在数据挖掘中是一项重要任务。分类器的构造方法有统计方法、机器学习方法、神经网络方法等。聚类是根据事物本身潜在的特性研究对象分类的方法。通过聚类把一个数据集合中的个体按照相似性归成若干类别,使其“物以类聚”,将数据库中的记录划分为一系列有意义的子集。聚类要解决的就是实现满足这种要求的类的聚合。在进行聚类前,这些类别是潜在的,可分割的类的个数(聚类数)也是未知的。聚类大致分为统计方法、机器学习方法、神经网络方法和面向数据库的方法等。

1.2.4 偏差检测 数据库中的数据可能有一些异常记录,检测这些偏差很有意义。偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。

2 中医病历中医学数据挖掘的特点

目前中医病历中采集的中医学信息具有如下特点。

2.1 症状的模糊性 中医学对疾病的诊断是通过望、闻、问、切的四诊合参,获取有用信息,再结合医生的经验,对疾病做出诊断。症状的模糊性不仅表现在获得信息的形式多样,而且因中医症状存在着一症多名,或多症一名的现象,因此不同医生即使对同样的症状,可能会用不同的文字加以描述,比如对“患者不欲进食”的记录,可能会有纳差、食欲不振、纳呆等的不同。这种模糊性模式加大了中医学数据挖掘的难度。

2.2 症状的不完整性 病例和病案的有限性使医学数据库不可能对任何一种疾病信息都能全面地反映出来,表现为医学信息的不完全性。同时,许多医学信息的表达、记录本身就具有不确定和模糊性的特点[3],这方面在中医症状未做出标准量化方法并推行应用之前,尤为突出。疾病信息体现的客观不完整和描述疾病的主观不确切,形成了中医病历中医学信息的不完整性。

2.3 证候的复杂性 著名的王永炎院士指出了证候具有动态时空、内实外虚、多维界面的特点,简明扼要的描述了证候的复杂性。中医证候的复杂性给数据挖掘增加了难度,但这也恰好是数据挖掘发挥效力的用武之地。

2.4 治疗信息的个体化特性 中医治病之本是辨证论治,体现在“三因治宜”、“同病异治、异病同治”等方面。即使针对同一疾病相同的证,医生的处方用药也可能会有差异。这种个体化的治疗,充分体现了中医治病的精髓,而其中所蕴涵的深奥哲理和规律,用一般的研究方法难以全面发掘。数据挖掘在这方面很可能会有很高的应用价值。

2.5 挖掘过程的复杂性 中医药领域中的数据属性有离散型的,也有连续型和混合型的,对这些数据的噪声处理等预处理相当复杂,挖掘过程还需要人机交互、多次反复,其中任何一个环节都不能缺少专业人员。只有靠中医药专家的引导,针对具体问题,选择合理的挖掘方法,才能挖掘出真正有价值的知识。

在中医学数据挖掘中,应针对上述数据特点和挖掘目标,结合运用不同的挖掘方法,对非线性、不完全的信息进行智能处理,发挥各自的技术及其整合优势。

3 数据挖掘在中医药研究中的应用

近年来,数据挖掘技术在中医药研究中已得到应用。有学者认为中医药数据挖掘是中医药现代化研究的重要组成部分[4]。

3.1 中医药信息化研究 姚氏等[5]综合文献指出对中医药理论和实践进行信息化、数字化、知识化,能够克服中医名词术语过于繁杂造成的中医发展障碍,对于中医药信息进行文本数据挖掘是促进中医药信息结构化的途径之一,该问题的解决,能极大促进中医药现代化发展的进程。

3.2 中药研究 陈凯先等[6]认为对大量中药化学成分进行药效基团的建模研究,并对中药化学成分数据库进行柔性搜索,能够为更充分利用中药化学成分所含的化学信息提供技术支持。冯雪松等[7]对中药指纹图谱的特点及数据挖掘技术在其中的应用做了综述,指出中药指纹图谱由于反映了药用植物的“共有特征”,又由于地域、生长环境、采收等多种因素影响,具有统计数学中多元随机分布的“模糊性”,利用模糊数学、统计学、计算机技术等建立一种同时反应这两种特征数据库,存储中药指纹图谱信息,应用数据挖掘技术发现和解析其中潜在的信息,以评价和控制中药质量及研究中药定量组效关系。

3.3 方剂研究 乔延江等[4]综述了KDD在中药研究开发中的意义。乔氏等认为中药(复方)的KDD研究是在中医理论指导下,以数据挖掘技术作为知识发现的主要环节,对中药研发、设计、中医组方理论及规律、中药作用机制、构效关系、中药药效集团群的确认、化学成分及药理指标的预测等进行多方位、多学科、系统的现代化研究,是一个高度复杂的系统。其目的是建立传统中医理论同现代中药的科学化、系统化、可描述化的关系,是中医药现代化的重要组成部分。杨林等[8]阐述了数据库技术与Web结合实现网上中医方剂的信息挖掘。将方剂文献资料进行全方位解析,设计内容详细的数据库与Web技术结合,通过Internet开发了网上中医方剂信息分析处理系统,选择支持Web-DB的ORACLE数据库管理系统作为系统开发和运行平台。经过数据预处理、选择和筛选数据、确定分析目标、信息挖掘结果显示等阶段,完成对一批方剂数据的信息挖掘。姚美村等[9]应用数据挖掘技术对治疗消渴病的中药复方配伍的内涵进行探索性研究。以文献收录的106个治疗消渴病的中药复方为对象,经解析后建立复方特征数据库;以数据挖掘系统Enterprise Miner为平台,在单味药层次上进行消渴病复方组成药味之间的关联规则分析研究,结果显示单味药、两味药组合、三味药组合的应用规律与历代中医在消渴病治疗用药方面的论述一致。挖掘结果的可信度可达到或接近中医专家的分析能力。秦首科等[10]在构建方剂、中药和病症数据仓库的基础上,通过对数据仓库内部各种关联和映射关系的定义,利用中药和病症数据仓库的联机分析功能,探讨了方剂和其针对症状之间的联系。蒋永光等[11]对从《中医大辞典·方剂分册》中筛选出1355首脾胃方中的414种药物,经用聚类分析、对应分析和频繁集方法,从功效、归经、药性和药味等方面进行了分类特征分析,并就脾胃方的核心药物、方剂结构、“药对药”组和“方药证”的对应关联方面形成了有关技术规则和处理程序。

3.4 中医证候研究 张世筠等[12]应用流行病学和变量聚类分析的数理统计方法,对2442例中医肝证患者进行了初步研究。由调查组采集核对中医四诊资料,按肝证辨证记分标准记分,分为11个证型。经过聚类分为实证、风证、虚证3类,解决了中医各肝证的归属问题,本研究还定量地阐明肝的实证、虚证、风证的相互关系。白云静等[13]在充分阐释证候系统的非线性、复杂性特征的基础上,探析了人工神经网络方法用于证候研究的可行性,并介绍了基于人工神经网络的证候研究方法。徐蕾等[14]采用boot strap方法对406例样本进行扩增以满足数据挖掘对样本量的要求,采用基于信息熵的决策树C4.5算法建立中医辨证模型。通过决策树C4.5算法筛选出对辨证分型有意义的26个因素,按其重要程度排序;产生出清楚易懂可用于分类的决策规则,建立辨证模型,模型分类符合率为:训练集83.6%,验证集80.67%,测试集81.25%;模型区分各类证型的灵敏度和特异度也较高。认为决策树C4.5算法建立的模型效果较好,可用于慢性胃炎中医证型的鉴别诊断。吴斌[15]等探讨了肾阳虚证的辨证因子分布规律。以肾阳虚证量表为基础,从定性、定量角度收集资料。以定性评分计算各辨证因子的出现频率,用定量评分进行分层聚类分析。发现:畏寒、肢冷、夜尿、腰背发冷等辨证因子出现频率高,聚类分析提示肾阳虚主证、舌象、脉象分布较有规律。认为根据数理统计结果对肾阳虚证的辨证因子进行初筛,为肾阳虚证的量化研究奠定了基础。

4 小结与展望

利用数据挖掘技术探求中医药诊治疾病的规律,形成用数字描述和表达的中医药内容,能有力推动中医药研究的规范化进程。但由于中医药信息的复杂性和特殊性,中医药数据挖掘在挖掘对象的广泛性、挖掘算法的高效性和鲁棒性、提供知识或决策的准确性方面有更高的要求。目前中医药数据库资源已较丰富。数据挖掘技术将成为中医药现代化的重要组成部分。但从目前应用数据挖掘技术进行的中医药研究来看,中医数据挖掘尚处于起步阶段,多数是对古文献数据的整理挖掘,缺乏用于探求中医诊治疾病规律和复方用药规律的研究。这可能与中医数据的复杂性所致的数据预处理繁琐有关;如能通过建立结构化数据库,采用结构化的临床信息采集系统收集数据,将能提高中医学数据挖掘的效率及可信度。有助于发现中医的诊治规律,并创新诊治模式,提高诊疗与科研教学水平。

1 Srikanth R''Agrawal R.Mining Sequential Patterns:Generalizationsand Performance Improvement.In 5th Int’ Extending Database Technology.Avignon France''1996''121-130.

2 翁敬农(译).数据挖掘教程.北京:清华大学出版社''2003''11.

3 Qu JH''Liao QM''Xu WZ''et al.The construction of medical database and datamining.Journal of the Fourth Military Medical University''2001''22(1):88.

4 乔延江''李澎涛''苏钢强''等.中药(复方)KDD研究开发的意义.北京中医药大学学报''1998''21(3):15-17.

5 姚美村''袁月梅''艾路,等.数据挖掘及其在中医药现代化研究中的应用.北京中医药大学学报''2002''25(3):20-23.

6 陈凯先''蒋华良''嵇汝运.计算机辅助药物设计—原理、方法及应用.上海:上海科技出版社''2001''1.

7 冯雪松''董鸿晔.中药指纹图谱的数据挖掘技术.药学进展''2002''26(4):198-201.

8 杨林''徐慧''任廷革,等.数据库技术与Web结合实现网上中医方剂的信息挖掘.中国中医药信息杂志''1999''6(9):71-72.

9 姚美村''艾路''袁月梅''等.消渴病复方配伍规律的关联规则分析.北京中医药大学学报''2002''25(6):48-50.

10 秦首科''牛孺子.利用数据仓库分析处理中医方剂评析.中医药学刊''2002''20(3):341-342.

11 蒋永光''李力''李认书''等.中医脾胃方剂配伍规律数据挖掘试验.世界科学技术—中医药现代化''2003''5(3):33-37.

12 张世筠''沈明秀''王先春''等.中医肝证的变量聚类分析.中国中西医结合杂志''2004''24 (1):35.

13 白云静''申洪波''孟庆刚''等.中医证候研究的人工神经网络方法探析.中医药学刊''2004''22(12):2221-2223.

14 徐蕾''贺佳''孟虹''等.基于信息熵的决策树在慢性胃炎中医辨证中的应用.第二军医大学学报''2004''25(9):1101-1103.

第9篇

文献标识码:A

文章编号:16723198(2015)17005503

0引言

连锁零售企业的需求预测是指对消费者所需购买的商品数目进行预测。当实际上需要的商品数目和预测数目有较大差异时,连锁零售企业供应链会受到极大扰动,并且会提高成本,竞争力会降低。如果产品受季节、广告和特卖活动等其他因素影响较大时,精确快速的物资需求可以高效提示企业产品需求量的变化,这能够显著减少零售企业的库存量,使成本更低,企业在市场中的竞争力有效提高。所以当发生了突发事件时,如何能够快速精确预测连锁零售企业应急物资需求量对于企业供应链的稳定和优化具有重大意义。

现在国内外对物资需求预测的方法主要包括回归分析法和时间序列法,对它们的研究已经比较成熟,由于能够快速得到结果,所以很多研究员都喜欢这种方法,可是由于它们的模型一般不够复杂,且假定实验条件相对理想,仅考虑了小部分影响因素,因此预测出来的结果精度不高,效果不够理想。除此以外,还有部分研究员利用人工神经网络、专家系统模型等其他方法进行预测,其中通过人工神经网络建立模型来进行预测,最后的结果更加精确,所以越来越多的学者开始利用人工神经网络来对物资需求进行预测。但是由概率统计学可得,神经网络学习算法仅仅是根据经验风险最小化原理(empirical riskminimization)来进行学习,但没有有效降低期望风险;除此以外,由于没有准确的理论知识来对神经网络结构进行确定,它只能通过多次试验得出的经验来确定。

最近贝尔实验室的Vapnik等提出了支持向量机(support vector machine,SVM),它是一种新的机器学习算法。SVM不仅能将结构风险减至最小,而且还最大化地缩小了VC维和经验风险之间的界限,与神经网络学习方法相比较,它的预测效果更好,能更好的代替神经网络方法,应用前景更加优越。当要处理大规模数据时,由于存在过多的冗余信息,这会极大降低支持向量机算法的运算速度,导致训练消耗更多的时间。为了将SVM算法应用于对实时性要求较高的连锁零售企业应急需求预测这个课题上,由于粗糙集算法具有属性约简的特点,本文引入粗糙集算法用于对与连锁超市应急物资需求量相关的各种历史数据进行约简,把和决策信息关系不大的属性消除,极大地减少了SVM的输入变量,因此使得SVM算法速度更快,预测结果更准确。

1基于粗糙集与支持向量机的预测模型

1.1粗糙集属性约简

由粗糙集理论可得,把客观世界简化成一个信息系统,用A=〈W,Q,V,f〉来表示它,其中:W=x1,x2,…,xn是论域;Q=S∪D是属性有限集,上式中S=s1,s2,…,sm是条件属性集;V=v1,v2,…,vm是属性的值域集,上式中vi是属性ci的值域:f:W×SV为信息函数,由上式可得出论域W与条件属性集S到值域集V的映射。一个决策属性的决策表的一般表达形式如表1所示,下表中f(xi,sj)=uj,i,fxi,d=vi,并且uj,i的值和对象xi和条件属性si相对应,vi的值和对象xi与决策属性d相对应。

表1决策表的一般表达形式

假定B是Q的随便一个属性子集,可得下式的等价关系I(B)={(x,y)∈W×W:f(x,a)=f(y,a),a∈B}。假定(x,y)∈I(B),那么x,y相对于B是不可分辨的;假定R为等价关系族,如果I(R)=I(R-{r}),那么在R中r能够被消除;如果P=R-{r}相互独立,那么P是R中的一个约简。对于R中无法消除的关系,我们把它称为核,核所组成的集合称为R的核集。

由上可得,粗糙集属性约简过程如下所示:

(1)通过论域中的决策属性和条件属性建立决策表。

(2)找出决策表中的条件属性和决策属性,然后根据粗糙集算法离散化这些变量。

(3)求出新决策表,然后对它属性简约,最终得到约简的决策规则。

1.2支持向量机的基本原理

支持向量机(Support Vector Machines,简称SVM)是一种新的机器学习算法,由Vapnik等人提出,在时间序列预测和优化控制等领域得到广泛的应用。SVM先分解非线性函数样本集,然后把它们转化成向量形式,与高维空间相映射,经过线性回归后再映射回原空间。由上可得,它就是一个对非线性数据进行线性回归变换,最开始一般用来解决寻优分类问题。

通过下图1详细说明了SVM的计算原理,假设有实心点和空心点这两类样本,H是最优分类线,它两边的H1、H2分别代表2类中离分类线H最近且平行于分类线的直线,H1与H的距离和H2与H的距离都被称作分类间隔,用margin表示。假定分类线H不但可以准确分开2类样本,还要使margin最大,那么距离最优分类线H最近的样本向量就称为支持向量。此外如果要使H能保证经验风险最小,要求margin最大也就是要保证推广性的界中的置信区间最小,这样也就能够最小化真实风险。

图1支持向量机原理图

1.3支持向量机的基本算法

SVM的原理就是找到一个非线性映射j,它能将数据x映射到高维特征空间并进行线性回归。现在给定训练数据xi,yi,i=1,2,…,l,其中xi∈Rn是第i个样本点的n维输入值,yi∈R为对应的目标值,l为训练样本输目。SVM算法的目标就是求出函数fx,它可以尽量逼近全部样本点。由上可得,支持向量机的估计函数即:

fx=+b

(1)

式中:fx是目标函数;w,b是目标函数的法向量及偏移量;jx是特征映射函数。

那么标准支持向量回归算法就能描述成下面的问题,即

式中:b是通过支持向量计算求出;核函数Kxi,x是满足Mercer条件的任何对称的核函数对应于特征空间的点积。一般支持向量机使用的核函数包括多项式核函数,线性核函数和径向基核函数(RBF)等,本文采用径向基核函数。

2基于粗糙集和SVM的短期应急需求预测

首先找出历史数据,然后构建属性值决策表A=〈W,Q,V,f〉,其中Q=S∪D。条件属性S指历史负荷和影响因素信息,决策集D指预测日的应急需求值。因为粗糙集算法是对离散数据进行分析,所以首先要离散化原有数据,构造一个新的信息决策表,然后再采用增量约简算法进行属性约简,最后可求出推理规则集。

由于支持向量机算采用了RBF核函数,它的参数c值可以极大影响SVM计算结果,所以c值通常大于10小于100,如果c值超过100时,就会产生欠学习现象,所以本文假定c=95。

图2是基于RS预处理的SVM预测系统。

图2基于RS预处理的SVM预测系统

3应急物资需求量预测的仿真实验

在进行连锁零售企业应急物资需求预测的分析中,主要利用北京城区应急物资需求的数据进行预测。

3.1模型参数选择

粗糙集理论是一种刻画不完备、不确定信息的数学工具,在保留关键信息的前提下,对数据进行化简,使其属性达到最小约简,求得知识的最小表达。

影响应急物资需求的因素有很多,所以首先要采用粗糙集属性约简法约减这些影响因素。首先将原始数据制成决策表,然后离散化样本数据,同时不降低数据的原始分类能力。本文采用等频率离散化方法,首先把连续属性值分成k个区间内数值相等的离散区间。现在假定有l个数值,可以求出每个区间有l/k个数值,本文中k=3。在保证决策表决策属性和条件属性间不变化依赖关系前提下,消除多余的条件属性,约减后求出的核属性为x1,x2,x3,x4,x5,x6,此时约减后求出的指标就是支持向量机模型的输入数据。

本文将数据进行粗糙集算法属性约简后,得到最优属性集,如表2所示。

表2应急物资需求量与影响因素数据统计

其中①为受灾程度,②为受灾时间,③为零售企业门店位置,④为商品消耗周期,⑤为门店商品库存,⑥为应急物资需求量。将表2中1~13组样本作为训练样本,14~18组样本作为检验样本。

3.2应急物资需求预测

要建立应急物资需求预测模型,必须求出适当的核函数基宽γ和惩罚参数C等,这样可以有效提高模型预测精确度,使模型更有效。本文采用交叉验证网格搜索方法来确定优化参数。首先把训练样本集随机分成K个集合,然后训练它里面的K-1个集合,求出一个决策函数,再利用决策函数测试余下的那个集合,循环测试K次后,当预测完全部子集后把测试错误的平均值定位推广误差,这样就能避免人为选取C和γ所产生的主观误差。

对参数优化后再根据已定的输入和输出参数构建建模数据Xi,Yii=1,2,…,K,求出输入参数X和输出参数Y之间的非线性映射关系:Yi=fXif:RnR。根据支持向量机预测理论通过求解一个二次规划问题即可求出αi、α*i和b,即可求出所需要的预测模型。最后把检验样本代入进行预测,其结果见表3所示。

表3预测结果

基于粗糙集-支持向量机的应急物资需求预测结果如图3所示。由表3和图3可见,采用基于粗糙集与支持向量机的预测模型对连锁零售企业应急物资需求进行预测,达到了很高的预测精度,其最大误差为5.71%,最小误差为0.60%,平均误差分别为2.84%。

图3基于粗糙集-支持向量机的应急物资需求预测结果

相关文章
相关期刊