时间:2022-04-17 04:04:38
引言:易发表网凭借丰富的文秘实践,为您精心挑选了九篇数据挖掘技术探讨论文范例。如需获取更多原创内容,可随时联系我们的客服老师。
统计学论文2000字(一):影响民族院校统计学专业回归分析成绩因素的研究论文
摘要:学习成绩是评价学生素质的重要方面,也是教师检验教学能力、反思教学成果的重要标准。利用大连民族大学统计学专业本科生有关数据(专业基础课成绩、平时成绩和回归分析期末成绩),建立多元線性回归模型,对影响回归分析期末成绩的因素进行深入研究,其结果对今后的教学方法改进和教学质量提高具有十分重要的指导意义。
关键词:多元线性回归;专业基础课成绩;平时成绩;期末成绩
为了实现教学目标,提高教学质量,有效提高学生学习成绩是很有必要的。我们知道专业基础课成绩必定影响专业课成绩,而且平时成绩也会影响专业课成绩,这两类成绩与专业课成绩基本上是呈正相关的,但它们之间的关系密切程度有多大?它们之间又存在怎样的内在联系呢?就这些问题,本文主要选取了2016级统计专业50名学生的四门专业基础课成绩以及回归分析的平时成绩和期末成绩,运用SPSS统计软件进行分析研究,寻求回归分析期末成绩影响因素的变化规律,拟合出关系式,从而为强化学生的后续学习和提高老师的教学质量提供了有利依据。
一、数据选取
回归分析是统计专业必修课,也是统计学中的一个非常重要的分支,它在自然科学、管理科学和社会、经济等领域应用十分广泛。因此研究影响统计学专业回归分析成绩的相关性是十分重要的。
选取了统计专业50名学生的专业基础课成绩(包括数学分析、高等代数、解析几何和概率论)、回归分析的平时成绩和期末成绩,结合多元线性回归的基础理论知识[1-2],建立多元回归方程,进行深入研究,可以直观、高效、科学地分析各种因素对回归分析期末成绩造成的影响。
二、建立多元线性回归模型1及数据分析
运用SPSS统计软件对回归分析期末成绩的影响因素进行研究,可以得到准确、科学合理的数据结果,全面分析评价学生考试成绩,对教师以后的教学工作和学生的学习会有较大帮助。自变量x1表示数学分析成绩,x2表示高等代数成绩,x3表示解析几何成绩,x4表示概率论成绩,x5表示平时成绩;因变量y1表示回归分析期末成绩,根据经验可知因变量y1和自变量xi,i=1,2,3,4,5之间大致成线性关系,可建立线性回归模型:
(1)
线性回归模型通常满足以下几个基本假设,
1.随机误差项具有零均值和等方差,即
(2)
这个假定通常称为高斯-马尔柯夫条件。
2.正态分布假定条件
由多元正态分布的性质和上述假定可知,随机变量y1服从n维正态分布。
从表1描述性统计表中可看到各变量的平均值1=79.68,2=74.66,3=77.22,4=78.10,5=81.04,1=75.48;xi的标准差分别为10.847,11.531,8.929,9.018,9.221,y1的标准差为8.141;有效样本量n=50。
回归分析期末成绩y1的多元回归模型1为:
y1=-5.254+0.221x1-0.4x2+0.154x3
+0.334x4+0.347x5
从表2中可以看到各变量的|t|值,在给定显著水平?琢=0.05的情况下,通过t分布表可以查出,自由度为44的临界值t?琢/2(44)=2.015,由于高等代数x2的|t|值为0.651小于t?琢/2(44),因此x2对y1的影响不显著,其他自变量对y1都是线性显著的。下面利用后退法[3]剔除自变量x2。
三、后退法建立多元线性回归模型2及数据分析
从模型1中剔除了x2变量,多元回归模型2为:
y1=-5.459+0.204x1+0.149x3+0.377x4+0.293x5(5)
在表4中,F统计量为90.326,在给定显著水平?琢=0.05的情况下,查F分布表可得,自由度為p=4和n-p-1=45的临界值F0.05(4,45)=2.579,所以F>F0.05(4,45),在表5中,所有自变量的|t|值都大于t?琢/2(45)=2.014,因此,多元回归模型2的线性关系是显著的。
四、结束语
通过对上述模型进行分析,即各个自变量对因变量的边际影响,可以得到以下结论:在保持其他条件不变的情况下,当数学分析成绩提高一分,则回归分析成绩可提高0.242分[4-5];同理,当解析几何成绩、概率论成绩和平时成绩每提高一分,则回归分析成绩分别提高0.149分、0.377分和0.293分。
通过对学生专业基础课成绩、平时成绩与回归分析期末成绩之间相关关系的研究,一方面有利于教师把控回归分析教学课堂,提高教师意识,注重专业基础课教学的重要性,同时,当学生平时成绩不好时,随时调整教学进度提高学生平时学习能力;另一方面使学生认识到,为了更好地掌握回归分析知识,应加强专业基础课的学习,提高平时学习的积极性。因此,通过对回归分析期末成绩影响因素的研究能有效的解决教师教学和学生学习中的许多问题。
统计学毕业论文范文模板(二):大数据背景下统计学专业“数据挖掘”课程的教学探讨论文
摘要:互联网技术、物联网技术、云计算技术的蓬勃发展,造就了一个崭新的大数据时代,这些变化对统计学专业人才培养模式的变革起到了助推器的作用,而数据挖掘作为拓展和提升大数据分析方法与思路的应用型课程,被广泛纳入统计学本科专业人才培养方案。本文基于数据挖掘课程的特点,结合实际教学经验,对统计学本科专业开设数据挖掘课程进行教学探讨,以期达到更好的教学效果。
关键词:统计学专业;数据挖掘;大数据;教学
一、引言
通常人们总结大数据有“4V”的特點:Volume(体量大),Variety(多样性),Velocity(速度快)和Value(价值密度低)。从这样大量、多样化的数据中挖掘和发现内在的价值,是这个时代带给我们的机遇与挑战,同时对数据分析技术的要求也相应提高。传统教学模式并不能适应和满足学生了解数据处理和分析最新技术与方法的迫切需要。对于常常和数据打交道的统计学专业的学生来说,更是如此。
二、课程教学探讨
针对统计学本科专业的学生而言,“数据挖掘”课程一般在他们三年级或者四年级所开设,他们在前期已经学习完统计学、应用回归分析、多元统计分析、时间序列分析等课程,所以在“数据挖掘”课程的教学内容选择上要有所取舍,同时把握好难度。不能把“数据挖掘”课程涵盖了的所有内容不加选择地要求学生全部掌握,对学生来说是不太现实的,需要为统计学专业本科生“个性化定制”教学内容。
(1)“数据挖掘”课程的教学应该偏重于应用,更注重培养学生解决问题的能力。因此,教学目标应该是:使学生树立数据挖掘的思维体系,掌握数据挖掘的基本方法,提高学生的实际动手能力,为在大数据时代,进一步学习各种数据处理和定量分析工具打下必要的基础。按照这个目标,教学内容应以数据挖掘技术的基本原理讲解为主,让学生了解和掌握各种技术和方法的来龙去脉、功能及优缺点;以算法讲解为辅,由于有R语言、python等软件,学生了解典型的算法,能用软件把算法实现,对软件的计算结果熟练解读,对各种算法的改进和深入研究则不作要求,有兴趣的同学可以自行课下探讨。
(2)对于已经学过的内容不再详细讲解,而是侧重介绍它们在数据挖掘中的功能及综合应用。在新知识的讲解过程中,注意和已学过知识的融汇贯通,既复习巩固了原来学过的知识,同时也无形中降低了新知识的难度。比如,在数据挖掘模型评估中,把混淆矩阵、ROC曲线、误差平方和等知识点就能和之前学过的内容有机联系起来。
(3)结合现实数据,让学生由“被动接收”式的学习变为“主动探究”型的学习。在讲解每种方法和技术之后,增加一个或几个案例,以加强学生对知识的理解。除了充分利用已有的国内外数据资源,还可以鼓励学生去搜集自己感兴趣的或者国家及社会大众关注的问题进行研究,提升学生学习的成就感。
(4)充分考虑前述提到的三点,课程内容计划安排见表1。
(5)课程的考核方式既要一定的理论性,又不能失掉实践应用性,所以需要结合平时课堂表现、平时实验项目完成情况和期末考试来综合评定成绩。采取期末闭卷理论考试占50%,平时实验项目完成占40%,课堂表现占10%,这样可以全方位的评价学生的表现。
三、教学效果评估
经过几轮的教学实践后,取得了如下的教学效果:
(1)学生对课程的兴趣度在提升,课下也会不停地去思考数据挖掘有关的方法和技巧,发现问题后会一起交流与讨论。
(2)在大学生创新创业项目或者数据分析的有关竞赛中,选用数据挖掘方法的人数也越来越多,部分同学的成果还能在期刊上正式发表,有的同学还能在竞赛中取得优秀的成绩。
(3)统计学专业本科生毕业论文的选题中利用数据挖掘有关方法来完成的论文越来越多,论文的完成质量也在不断提高。
(4)本科毕业生的就业岗位中从事数据挖掘工作的人数有所提高,说明满足企业需求技能的人数在增加。继续深造的毕业生选择数据挖掘研究方向的人数也在逐渐增多,表明学生的学习兴趣得以激发。
教学实践结果表明,通过数据挖掘课程的学习,可以让学生在掌握理论知识的基础上,进一步提升分析问题和解决实际问题的能力。
讨论如何在图书馆个性化推荐中应用网络数据挖掘,并具体对社会网络分析的应用进行了深
入分析,提出了具体算法。
网络数据挖掘又称Web数据挖掘,是数据挖掘技术在网络信息处理中的应用,从与网络相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,是从Web网站的数据中发掘关系和规则。其挖掘对象是大量、异质、分布的Web文档,可以对数据库、Web服务器上的日志、读者信息等数据展开挖掘工作。同时,由于Web在逻辑上是一个由文档节点和超链接构成的图,因此Web挖掘所得到的模式可能是关于Web内容的,也可能是关于Web结构的,或者是关于用户行为模式的1。通过网络数据挖掘对每个用户的访问行为、频度、和内容等进行分析,能提取出每个用户的特征,给每个用户个性化的界面,提供个性化的Web信息服务。
本文以中国知网(CNKI)总库为统计源,以主题“We数据挖掘”、“网络数据挖掘”搜索到国内近六年的论文数量,从中可以看出相关领域的研究从2007年开始呈逐年上升趋势,2009年达到峰值后,逐年有所下降。具体数据如表2所示:
根据对这些文章内容的分析,研究网络数据挖掘算法及其实现的占大多数,国内关于网络数据挖掘在图书馆的应用研究不多,大多是作为电子商务中数据挖掘研究的一部分。网络数据挖掘在图书馆中的应用主要表现在以下几个方面:
(1)图书推荐系统。这类系统主要通过日志挖掘读者的借阅习惯,推测读者的阅读需求,从而为不同兴趣的读者提供相应的推荐内容。这种个性化推荐系统能够较好地把握读者需求,通过聚类和关联规则为读者推荐借阅过的相似图书或可能需要的其他文献。但它的缺点在于,推荐的相似图书,读者已经借阅过,再借阅的几率不大。因此,这个研究的重点和难点在使用的挖掘算法上2。
(2)网络学习平台。现代图书馆越来越重视读者的学习需求,从而推出各种学习服务3。这类应用主要是针对网络学习中的学习资源的挖掘。因为在图书馆提供的虚拟学习平台中,资源是庞大的,而读者的精力有限,同时每个人的兴趣不同,需要对不同的读者组织不同的教育资源。而网络数据挖掘在其中所起的重要作用就是对读者的借阅和浏览行为进行挖掘分析,根据分析结果为读者匹配学习资源。
(3)文献检索系统。网络数据挖掘技术也常见于文献检索系统的应用中,图书馆资源包含大量的文本、期刊、视频等。读者常常需要通过检索才能获取自己想要的信息,使用网络数据挖掘也是为读者提供高效获取信息的方式。
由以上分析看出,网络数据挖掘在图书馆中应用的主要目的就是为读者找到所需资源,满足读者的个性化需求。下面我们就针对网络数据挖掘在图书馆个性化推荐中的应用进行探讨。
1、 图书馆个性化推荐常用分析方法
1.1聚类算法
通常说来,许多图书馆的读者建模方法是基于统计的,即对所有读者的统计数据(比如基于平均值)进行分析。这样的后果是对读者的个性化行为视而不见,影响了读者专业性和个性化需求,忽略了隐含的读者信息的价值。而读者聚类建模,则是把一类读者聚集起来,分析他们的特性并对这类读者建模,在建模质量相同或接近的条件下,聚类建模所需的数据量将远远低于对单个读者建模的数据量,因为分类中的每个读者(知识背景和生活阅历贡献具有很大的相似度)都贡献了其数据。常用聚类算法如表3。
1.2 社会网络分析
社会网络分析已经有相当长的一段历史了,近60年来,相关研究人员做了大量的研究,由Brin和Page等人提出的PageRank算法,以及由Kleinberg说提出来的HITS算法开创了将社会网络研究应用在Web范畴的先河。这两种算法都来源于社会网络分析,都利用了网页的超链接结构并依据网页的“威望”或者“权威”级别来对网页进行分级排序。这在搜索引擎中得到了广泛的运用。图书馆也同样存在着这样的社会网络关系,这种关系主要通过读者浏览和获取文献行为体现。这种关系和活动可以用网络或图来表示,其中,每一个顶点(结点)用来表示一个读者,而一条边的连接用来表示两个读者之间的关系。利用网络图我们可以研究该网络的结构特征,以及每个读者威望性、中心性等属性。同时从中我们也可以找到各种类型的子图,即社区。
2、 基于网络数据挖掘的图书馆个性化推荐分析
2.1基于K-means聚类推荐分析
图书馆读者聚类可以通过两种方式进行聚类,建立二维推荐模型,即:查询聚类和借阅聚类。在此,只要实现查询信息和借阅信息的高效率、高准确率的自动分类,然后根据读者兴趣模型匹配,就可以完成其推荐过程。自动分类信息可以采用K-均值聚类算法实现,并根据图书馆相关信息结构的特点,对算法本身加以改进。具体流程如图1。
2.2 基于PageRank社会网络分析
在图书馆借阅场景下,读者浏览和借阅行为反应了读者的需求。PageRank算法关键在于测度每个对象的随机访问概率。我们假定读者借阅史就是读者推荐书目单,反应了读者对于图书的认可程度。在此,我们可以把访问概率转化为读者推荐书目单的紧密程度,因此,问题转化为求读者推荐书目单的紧密程度,然后通过PageRank算法,求出读者推荐书目单的权威度排名,进而推荐给兴趣模型相似的读者。
我们用dist(j, t)表示两个读者推荐书目单关系程度,使用其文本相似度 来度量,进而产生新的PageRank2算法。对于每个读者推荐书目单,其重要度PR2(i)可定义为:
其中DIS(j,i)定义为:
在实际应用中,由于某些读者推荐书目单可能与其他读者推荐书目单 值为0,故将公式2调整为:
其中a为衰减系数,设定为0和1之间,其本质是为了消除孤立读者,给每个读者增加一条指向所有其它读者的链接,并且给予每个链接一个由参数a控制的转移概率,在这里我们沿用PageRank中的取值a=0.8570。
3、 结语
本文主要探讨了网络数据挖掘在图书馆中的应用问题,并对于社会网络分析的应用进行了较为深入的分析,提出了具体算法。网络数据挖掘广泛应用于互联网。随着数字图书馆的不断兴起,其在图书馆领域的应用将更加广泛4。但是,图书馆相对封闭的信息环境制约着网络数据挖掘的应用。相信随着Web2.0和读者个性化需求不断得到重视5,数字图书馆技术的不断发展,网络数据挖掘将会发挥更加重要的作用。
参考文献
[1] 马费成,王晓光.信息资源管理研究及国际前沿[J].情报学研究进展.武汉大学出版社,2007.
[2] 刘晓忠.数据挖掘技术在图书馆建设中的应用[J].硅谷,2012(6).
[3]夏南强,张红梅.基于数据挖掘的数字图书馆个性化服务[J].图书馆学研究, 2006, (1):32-34.
关键词:数据挖掘技术;成绩管理
一、数据挖掘的定义
数据挖掘是一个涉及多学科交叉的研究领域,综合了人工智能、机器学习、数理统计等学科,它把对数据的应用从较低层次的简单的查询提升到从数据中挖掘知识。简单的说,数据挖掘就是从数据中获取知识。从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道、但又是潜在有用的信息和知识的过程。数据挖掘应该更正确地命名为“从数据中挖掘知识”。
二、数据挖掘的过程
数据挖掘过程大概可以概括为三部分:数据准备、数据挖掘、结果的表达和解释。如图1-1。
三、数据挖掘的特点
数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识,所得到的信息具有事先未知、有效、实用三个特征;用户不必提出明确的要求,系统能够根据数据本身的规律性,自动地挖掘数据潜在的模式,或通过分析建立新的业务模型,帮助决策者调整市场策略,这有利于发现未知的事物。因此,它是由数据驱动的一种真正的知识发现方法。
四、学生成绩管理的现状
随着高校招生规模的扩大使成绩管理处理的数据量急剧增加,存放在数据库中的大量的成绩数据,对于一般的查询过程是有效的,管理人员能够通过简单的统计或排序等功能获得一些表面的信息,但随着数据库中存储的数据量的增大,传统的数据库管理系统的数据管理和处理功能就不能满足现实的需要,因为无论是查询、排序还是方差,其处理方式都是对指定的数据进行简单的数字处理,对于学生成绩管理方面,往往只能做一些简单的功能,由于大量数据以不同的形式存储在不同的计算机上,从而使隐藏在其中的大量有用信息无法得到有效的利用,无法发现数据中存在的关联和规则,无法根据现有的数据预测未来的发展趋势。上述问题直接导致教学管理部门无法进行有效的评估,任课教师无法进行有效的教学方法改进。而如何将这些数据信息转化为知识表示,为学校管理者提供决策依据,科学指导教学,提高教学管理水平,将是高校需要迫切解决的问题。
五、将数据挖掘技术在成绩管理中的应用
1、学生成绩分析方面
学生的学习成绩是评估学生表现好坏的重要依据,也是学生是否掌握好所学知识的重要标志,目前高校使用的成绩管理系统大部分只能做一些简单的数据管理和处理,例如:学生的平时成绩输入、考试成绩输入、毕业设计成绩登记,进行各类统计报表和信息查询、分析某一个班学生学习成绩分布的情况等。目前大量的成绩数据只是简单地存储在数据库中,隐藏在这些数据中的潜在信息被闲置,没能被充分利用。在数据库中学生成绩分析从定性的角度考虑不是很精确,而数据挖掘是从定量的角度精确地分析学生成绩分析的各个方面数据。
2、在考试方面
考试是对教师教学效果和学生学习效果的一个检验,是教学中必不可少的环节,虽然按考试成绩可以总体评价在一定时期内学生取得的成绩,但这并不能有效地说明成绩的高低与哪些因素有关,无法知道教师教学环节中的成功与不足之处,对教师教学方法的改进和学生学习成绩的提高都没有实际意义上的帮助,而且,学生考试成绩的高低也与试题的质量有着很大的关系,因此探索有效的方法来评价试题的质量如试题难易度,知识点全面度等在实际的教学过程中同样具有重要的意义。将数据挖掘技术应用于试卷分析数据库中,然后根据学生得分情况分析出每道题的难易度、区分度、相关度等指标,那么据此,教师可以对试题的质量作出比较准确的评价,进而可以用来检查自己的教学情况及学生的掌握情况,并为今后的教学提供指导。
2、在教学评价方面
教学评价是教学中的一个重要环节,是引导教育、培养高素质人才,帮助社会充分利用教育成果和促进教育健康发展的保证。传统的教学评价大多是参考相关评价指标体系和调查问卷等方式实施的,而且更是注重评价的结果,以作为教师晋升、学生评优等的依据.高校每学期都要搞课堂教学评价调查,积累了大量的教学信息数据,利用数据挖掘技术,从教学评价数据中进行数据挖掘,探讨教学效果的好坏与教师的年龄、职称之间有无必然的联系,课堂教学效果与教师整体素质关系如何,合理配备班级的上课教师,使学生能够较好的保持良好的学习态度,从而为教学部门提供了决策支持信息,促使更好地开展教学工作,提高教学质量。
3、选择教师的教学方法方面
在教学过程中,教师可以采用多种方法来完成自己的教学任务,比如讲授法、多媒体演示、分组讨论法、课程实习法等,在通常情况下,一般可以采取一种或几种方法进行.据此可用数据挖掘的方法来挖掘数据库中的数据,判定下一步应采取什么样的教学方法,以满足教学的需要,更有利于学生对知识的吸收。
4、课程的合理设置方面
在学校,学生的课堂学习是循序渐进的,而且课程之间有一定的关联与前后顺序关系,在学一门较高级课程之前必须先修一些先行课程,如果先行课程没有学好,势必会影响后续课程的学习,此外,每一学期安排课程的多少,也会影响学生的学习效果。利用学校教务管理系统中存放的历届学生各门学科的考试成绩,结合数据挖掘技术的相关功能,得出一些有价值的规则和信息,最终找到影响学生成绩的原因,在些基础上,对课程设置做出合理安排。
六、结束语
随着我国各高校管理信息化的不断推进,各类学校的数据库建设不断完善,在学校平时的教育教学管理中累积了大量的数据。在这些海量的数据中,隐藏着大量有用的知识,如果利用好这些知识,将能够对学校的教育教学工作起到积极的指导作用。数据挖掘技术正是为了解决如何从海量数据中挖掘出有用的知识,因此,将数据挖掘技术应用到高校的教育教学中去是非常有必要的。
参考文献:
【1】吉根林,帅克,孙志挥.数据挖掘技术及其应用.南京师大学报(自然科学版),2000,23(2):25-27
【2】李庆香.数据挖掘技术在高校学生成绩分析中的应用研究:硕士学位论文.重庆:西南大学教育技术系,2009
【摘要】
介绍了数据挖掘的意义和任务,综述了近几年来数据挖掘在中医各领域中的应用,分析了目前存在的问题,并探讨了今后的发展趋势。
【关键词】 数据挖掘 中医
随着计算机技术和网络技术的快速发展,在中医药的现代化过程中建立了很多的数据库。堆积在数据库中的信息呈超指数爆炸式增长。例如中医药科技信息数据库就有50个子数据库、110个表单及数百个自动生成的中间表、800余个著录项目,涵盖所有中医药有关医、药及学术的内容。而数据挖掘技术的发展使我们有可能从这些海量数据中发现新的知识,发现数据背后隐藏的关系和规则,还可以对未知的情况进行预测。多学科交叉目前正成为增强科技创新的重要途径,数据挖掘正是从统计学、数据库、机器学习等多门学科中发展起来的。
1 数据挖掘介绍
1.1 数据挖掘的定义
数据挖掘(datamining)也称为数据库知识发现,为解决上述矛盾提供了强有力的工具[1]。数据挖掘这一术语出现于1989年,其定义几经变动,本研究中引用Frayyad UM等提出的对数据挖掘的定义[2]。
数据挖掘是从数据库中识别出有效的、新颖的、潜在有用的并且最终可理解的模式的非平凡过程。其中:
① 有效性要求挖掘前要对被挖掘的数据进行仔细检查,具备该特性,才能保证挖掘出来信息的可靠性。
② 新颖性要求发现的模式应该是从前未知的,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。
③ 潜在有用性是指发现的知识将来有实际效用,即这些信息或知识对于所讨论的业务或研究领域是有效的、是有实用价值和可实现的,常识性的结论或已被人们掌握的事实或无法实现的推测都是没有意义的。
④ 最终可理解性要求发现的模式能被用户理解,目前它主要是体现在简洁性上。发现的知识要可接受、可理解、可运用,最好能用自然语言表达所发现的结果。实际上,所有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的。
⑤ 非平凡是一个数学概念,即数据挖掘既不是把数据全部抽取,也不是一点儿也不抽取,而是抽取出隐含的、未知的、可能的有用的信息。要有一定程度的智能性、自动性(仅仅给出所有数据的总和不能算作是一个发现过程)。
数据挖掘的结果通常表示为概念(concepts)、规则(rules)、规律(regularities)、模式(pattern)、约束(constraint)、可视化(visualization)等形式。这些知识可以直接提供给决策者,用于辅助决策过程;或者提供给领域专家,修正专家的已有的知识体系;也可以作为新的知识转存到应用系统中,作为实际事务处理中决策的依据[3]。
2 数据挖掘的任务
数据挖掘的任务主要是预测和描述。预测是指用一些变量或数据库的若干已知字段预测其他感兴趣的变量或字段的未知的或未来的值。描述是指找到描述数据的可理解模式。预测方法有统计分析、关联规则和决策树预测、回归树预测等。其中关联规则反映了一个事务与其他事务之间存在关联,那么就能根据其他已知事务预测到另一个事务。描述性方法主要有数据分类、回归分析、聚类、变化和偏差分析、模式发现等。
3 数据挖掘在中医药中的应用
中医药的发展也需要多门学科的交叉应用。数据挖掘最初在生物医学中的应用是在对基因组测序数据的分析,因为人类基因组计划研究中产生了数十亿的核苷酸和上百万的氨基酸,传统的统计方法无能为力。中医学具有系统性、整体性、复杂性、不确定性等特点,不适宜运用传统的还原论的方法研究,而适宜与数据挖掘类似的从整体观上入手的研究方法。数据挖掘可以从海量数据中挖掘出潜在的规律,数据挖掘的结果一部分可能与传统的诊疗规律相符,不符合的部分可能是潜在的新知,也可能是没有意义的,这都需要在相应目标领域专家的指导下进行解释和评价。将数据挖掘(DM)和知识发现(DMKD)应用于中医药领域的研究,是中医药现代化研究的重要组成部分[1],必将促进中医药的发展。而数据挖掘在中药药谱研究和新药开发中取得了一定进展,本研究主要对其在中医以下领域的研究作一介绍。
3.1 证实质的研究
中医的“证”又称“证候”,是疾病在某一阶段病变的本质反映,是由一组能反映疾病本质的症状组成的,能揭示病因、病位、病性、病势,为论治提供依据。证候是中医诊断的核心概念和理论精髓,具有整体性、抽象性、时间性和相对稳定性的特点。现在对证实质的研究多从西医的生理理化指标来揭示证的实质,但实践中却发现缺少证的特异性指标。如果从分子生物学的角度,利用数据挖掘技术对中医证与相关基因的对应关系,可能取得更好的结果。通过研究“证”和基因多态性之间的内在联系,从基因多态性所带来的该基因功能上的变化,由此探寻“证”的相关基因表达谱。
3.2 中医诊断
中医诊断过程主要是对证的判定。而现在证的标准不太规范,缺乏定量的标准,而且其分类与描述也存在不同的观点。数据挖掘则可能完成证的规范化研究,也可辅助临床医生对病人进行证的判定。
陈明等[5]尝试运用关联规则发现诊断模式,他把《伤寒论》中的病名、症状、舌脉分别作为数据表建立数据库,挖掘得出规则:发热、恶寒、脉浮太阳病(支持度65%,置信度5%),可以认为发热,恶寒的确是太阳病的诊断依据。
秦中广等[6]运用粗糙集进行中医类风湿证候的诊断,共收集了224个病例,每个病例有81个属性,并从这224个病例中随机抽取学习样本180例,进行预测诊断44例。他们利用属性约简得到寒湿阻络、湿热阻络、痰阏阻络、气阴两虚、寒热错杂5种证的必定规则和可能规则。在44例预测诊断中诊断正确率达到90%以上,高于传统的模糊数学方法,并认为粗糙集有可能是中医诊断研究的动态理想工具。
刘晋平[7]运用数据挖掘的手段对中医脉象进行研究,并开发出初步的软件。以明清、近现代3000余例病案为研究分析对象,将病案分为病名、证型、脉象、舌象及症状几项,然后进行统一化及规范化处理,得出医案中细脉出现频率最高,占34.39%。其脉象软件可以进行脉象与病名,脉象与证型之间的相互关联分析,发现其内在的规律。
4 方剂配伍规律的研究
方剂配伍理论是中药方剂理论的核心,也是研究方剂的关键问题。采用数据挖掘技术进行基于中医药理论的方剂配伍规律研究,既能为中医新药的临床和实验研究提供目标和思路,减少盲目性,缩短研究周期;同时又为大量古今验方研究探索出一条有价值的研究途径和方法[8]。
何前锋等[9]运用高频集挖掘的方法,对中国方剂数据库、中药新药品种数据库、中药成方制剂标准数据库中各方剂药物组成数据进行了分析,分别得到3个库的前20味高频药,可以看出古今用药频率的变化。并把高频用药组合与经验药对进行比较分析,提示可能成为新药对的组合。
姚美村等[10]应用关联规则分析技术,以文献中收录的106个治疗消渴病的中药复方为对象,经解析后建立复方特征数据库,以数据挖掘系统Enterprise Miner为平台,关联规则分析为工具,在单味药层次上进行消渴病复方组成药味之间的关联模式研究。得到了药物与上中下三消的关联以及药物之间的关联,与中医专家对于消渴病的治疗在主要药物的配伍方面基本一致,这在一定程度上反映出历代中医在消渴病治疗方面认识和治疗的整体规律性。
陈波等[11]应用关联规则对李东垣的脾胃方从药物间关联、症状间关联、处方结构与症状关联进行分析,得出当出现当归、黄芪、升麻时,同时出现柴胡的次数为60次,支持度为10.91%,可信度为84.51%;当出现当归、黄芪、柴胡时,同时出现升麻的次数为60次,支持度为10.91%,可信度为84.51%。两者的支持度和可信度都较高,提示他们常共同使用。此反映出李东垣补气与升阳同用的学术思想,此药组也是补中益气汤的基本组成部分。
现在的研究中存在着方法比较简单,频繁模式、关联规则为其主要方法。方剂配伍不仅是各药味之间的组合,还包含着各药剂量比例的搭配,这也是临床组方的关键,但现在对其进行数据挖掘的研究还很少。
数据挖掘的方法不仅可以运用于中医基础理论中的伤寒、温病等研究,也可用于临床各科的研究。但高质量的数据挖掘不仅需要有被处理数据的质量,更要在中医药专业背景知识引导下,针对具体问题,选择合适的数据挖掘方法,利用各种工具的效能和应用的可能性,取长补短。
对中医药知识进行规范化、数字化、信息化是促进中医药国际化和现代化进程的重要内容[12]。通过数据挖掘,就可以对中医药发展过程中某些缺失的信息进行预测完善并可以避免主观性的干扰。数据挖掘还可以发现一些新的模式和规则,为中医药知识的创新和发展提供一条新途径。
参考文献
1 乔延江.中药(复方)KDD研究开发的意义.北京中医药大学学报,1998,21(3):15~17.
2 Frayyad UM, PiatetskyShapiro G,Smyth P, et al. Knowledge Discovery and Data mining:Towards a Unifying Framework ProcKDD96,Menlo park, CA:AAAIPress,1996,82~88.
3 胡文丰,张正国.生物医学数据挖掘.国外医学生物医学工程分册,2003,26(1):11~15.
4 周雪忠,吴朝晖,刘保延.生物医学文献知识发现研究探讨及展望.复杂系统与复杂性科学,2004,1(3):45~55.
5 陈明,张书河.关联规则在中医疾病证候诊断中的应用.中华医学丛刊,2004,4(5):14~16.
6 秦中广,毛宗源,邓兆智.粗糙集在中医类风湿证候诊断中的应用.中国生物医学工程学报,2001,20(4):354~363.
7 刘晋平.数据挖掘在中医脉诊研究中的应用.天津中医药大学硕士论文,2002.
8 蒋永光,胡波,刘娟,等.方剂配伍的数据挖掘可行性探索.四川中医,2004,22(8):25~28.
9 何前锋,崔蒙,吴朝晖,等.方剂中配伍知识的发现.中国中医药信息杂志,2004,11(7):655~658.
10 姚美村,艾路,袁月梅,等.消渴病复方配伍规律的关联规则分析.北京中医药大学学报,2002,25(6):48~50.
11 陈波,蒋永光,胡波,等.东垣脾胃方配伍规律之关联分析评述.中医药学刊,2004,22(4):611~612.
关键词:实验平台;教学管理;数据仓库;数据挖掘
中图分类号:G642 文献标志码:B 文章编号:1674-9324(2013)09-0253-03
一、引言
21世纪是国家全面推进学生素质培养的时期,计算机专业课既具有较强的理论性,又具有较深的实践性。目前,计算机专业的教学过程中往往理论教育与实际脱节,很多学生通过了专业理论课的考试,却不能将理论付诸于实践,学生对课程知识并没有深刻的理解和消化,对课程理论的实际应用没有感观上的体验。经调查显示,60%以上的学生认为在校期间的计算机理论课的学习对就业和实际工作帮助不大,这给学生学习计算机理论的积极性带来了消极的影响,更有很多学生热衷于参加社会上的计算机培训机构,放弃在高校的课程学习。因此,在培养学生的理论创新能力的同时,提高学生的动手操作能力,加强学生理论联系实际的能力是计算机教学十分紧迫和必要的任务。
随着信息技术和网络技术的快速发展,在短短几年内数据仓库和数据挖掘就已经成为IT信息领域广泛应用和热点研究的领域。该领域主要是研究如何从浩如烟海的海量数据中有效地提取并挖掘知识,对其进行自动分析和汇总,是计算机行业中最热门、最有前景的领域之一[1]。数据仓库与数据挖掘课程也顺应计算机发展的需要,进入到高校计算机教育的专业课课程列表中。
本论文在深入研究了数据仓库和数据挖掘课程的内容和特点的基础上,采用B/S(Browser/Server)架构,即浏览器/服务器架构,开发了web课程教学实验平台。
二、数据仓库与数据挖掘学科教学现状
随着数据仓库与数据挖掘课程在各大高校成功试教后,近年来各大高校都为计算机专业都设立了数据仓库和数据挖掘课程,时至今日,其课堂理论教学已经比较成熟。然而,绝大多数学生在经过该课程的学习后,普遍反映虽然基本了解了数据仓库和数据挖掘相关理论知识,却缺乏感性认识和实践应用能力。这主要是因为该课程的实验教学较难开展,缺乏一个符合以下特点的教学实验平台。
市场中通用数据仓库和数据挖掘软件昂贵且难以使用,大量的专业术语、专业业务理论、数学知识和挖掘模型让人无从下手。因此我们需要的仅仅是一个实验平台,并非大型企业应用软件,只要学生能通过它更简易地完成该课程的实验环节即可。
1.可视化、易操作。可视化和易操作可以提高学生的学习兴趣,让学生更直观的参与到教学活动中来,而不是苦恼于如何使用该平成实验。
2.交互性。一个好的教学平台不仅是一个可以提供给学生传授知识的平台,还应该是一个可以和学生及老师有交互性的平台,并且使学生和学生有交互性,老师和学生有交互性[2]。
3.教学与实验相结合。我们需要不仅仅是一个数据仓库与数据挖掘实验软件,而是综合课程教学和课程实验的平台。教学与实验相结合、理论与实践并重,这才是计算机专业教育的核心。
4.拥有合理和充足的实验数据。对于一个实验平台来说,数据的缺乏将使得实验无法进行。尤其是对于数据仓库与数据挖掘这个特殊的领域,数据不仅要足够的多而且要合理,否则会严重影响实验结果和教学效果。
三、数据仓库与数据挖掘学科教学实验平台的构建
为适应教育发展需要,秉承深化教学改革的方针,改革数据仓库和数据挖掘课程原有的普通教学模式,启动了“数据挖掘课程设计平台建设”教学改革项目。该平台依托我校电信学院985平台的优良硬件环境,由远程开放实验平台服务器和终端PC机组成,其成本低廉、维护方便、部署容易。该实验平台服务器直接部署于本校的学院985实验基地,具有操作稳定性、鲁棒性和容错性。通过该实验教学平台,学生对该课程的学习过程将不受场地限制,只要通过网络就可以登录该平台。该平台主要框架如图1所示。
1.用户管理模块实现了对不同用户的权限设置、登录和注册等功能,超级管理员可以为普通学生用户分配权限。
2.实验平台模块给学生提供了算法模拟和试验的平台,主要分为以下两个部分。
(1)数据仓库的维度建模设计模块。雪花模型设计案例;星型模型设计案例;ETL抽取操作平台。
(2)数据挖掘算法实验模块。数据预处理程序实现算法平台;Apriori算法实验平台;ID3算法实验平台;BP算法实验平台;K-Mean和K-Medoid算法实验平台;C4.5算法和决策树算法实验平台;KNN算法实验平台;贝叶斯算法实验平台。
维度建模设计平台和数据挖掘算法实验平台模块是该平台的核心模块。
3.实验课程模块主要向学生介绍该实验课程的相关内容、教学大纲和教学任务,也包含数据仓库环境的具体安装和配置视频演示。
4.作业提交模块更是改变了传统的提交纸质作业的模式,让学生将动手完成的实验和相关作业通过该平台提交,一个学生一个账户,避免了作业抄袭和拷贝。学生提交的作业只要运行正确,按题目要求编程,不论采用何种语言或者何种算法都是可以的,并没有唯一性的标准答案。当实验课程考核的时候,学生能够通过作业提交系统向服务器提交指定课程内容的作业,供教师在线评阅和打分。
5.教学资源下载提供给学生自学的资料,给感兴趣的学生提供了进一步学习的捷径。
6.当有学生对实验环节和该课程有任何疑问,都可以登录在线答疑系统,给授课老师留言,这些信息都会以邮件的形式发送到授课老师的收件箱,从而实现即时的答复,让学生在第一时间接受老师的指导。当有问题重复出现三次以上,系统就会自动识别,将问题和答复展示在FAQ中,提供给更多的学生共享该问题和该问题的解答,避免重复提问,也给还未遇到该问题的学生共享和学习。在线答疑给学生和教师提供了交互、交流和学习的平台。
7.数据挖掘实验平台的在线代码编译环境主要采用gcc编译器,能够对学生提交的各种代码进行实时编译,给用户的感觉就像是在本地执行一样。它能够支持的在线运行编程语言包括java、C和C++等,给学生提供多样化的语言实现方式,体现了非机械化的计算机应试理念。
四、数据仓库与数据挖掘学科教学实验平台的教学效果
在数据仓库和数据挖掘课程中使用该教学实验平台,具有教育的先进性和优越性。
(一)建设了数据仓库和数据挖掘课程的实验教学体系
1.数据仓库和数据挖掘模型。本平台可以培养学生自己动手创建多维星型模型、多维雪花模型、缓慢变化维、ETL模型、数据立方体模型及其实例等,还可以增加学生对各类重要挖掘算法的特点和应用场景的理解,让学生在实验平台上体验基于数据仓库的主要数据挖掘算法。
2.模型评估。当学生创建完毕自己的数据仓库和数据挖掘模型后,可以通过调整不同的参数值和更改数据集来检验算法的输出结果,并通过记录在不同的应用场景下的参数值和结果值得到最优值。
3.优化创建模型和算法的性能。学生通过使用计算机领域中的一些经典优化技术,如创建位图索引、哈希索引、S-tree索引等来优化模型和算法的性能,并记录和比较不同优化技术对模型和算法的效率和响应时间的影响。
4.定期对学生所学实验内容进行测试,根据学生的实验测试结果对平台的远程实验操作功能进行改进和完善。
(二)部署和实施了基于网络的数据仓库和数据挖掘课程远程实验教学环境
本项目通过构建基于网络技术的远程实验教学平台,不仅给学生和教师提供这样一个教学实验平台,而且还实现了实验教学的网上开放式管理,改革原有相对封闭的实验教学模式为开放的实验教学模式,构建了一个符合实践教学环节需求、虚拟和真实环境相结合、基于Web的多应用场景的远程开放实验平台。
(三)基于采样评估证明了远程网络实验教学的可行性和优越性
根据采样评估结果,该系统体现了远程网络实验的可行性和优越性。在该平台真正投入使用之前,我们将一批学生分为两个组进行数据仓库和数据挖掘课程的学习,A组学生使用现有的课程教学方法,而B组学生使用该平台的远程实验教学环境。具体教学内容为多维数据模型和数据立方体的概念以及k-means聚类和Apriori关联分析算法。两组学生通过不同的教学方式学习后,对他们进行了问卷调查和统计,结果如图2所示。
从图2的数据结果可以看到,无论是从学生兴趣程度、作业完成度还是考试成绩的角度对两组学生的学习效果进行评估,使用该数据仓库与数据挖掘课程教学实验平台的教学方式都具有明显的优势。在实验过程中学生是主体,用所学知识发挥创造性思维进行实践。当实验取得结果时,不论结果成功与否,都能带给学生一定的鼓励,从而在某种程度上激发学生的创造力和积极性,真正加速问题解决和理论创新。因此,我们有理由相信该平台的使用可以极大地提高学生的学习兴趣,促进教学目标的实现。
五、结论
在计算机专业的教学中,如何提高学生的实践能力和独立解决问题的能力是当前高等教育发展的新形势下所面临的主要问题。本文首先介绍了基于数据仓库和数据挖掘课程的实验平台的整体架构,展示了该平台的优点,证明了该平台可以将课堂学习和课后练习、理论教育与工程实践有机结合,为实施更加行之有效的教学组织和教学管理模式提供了可能。只有教育者和学生充分认识到计算机课程中实验环节的重要性,更有效地利用现有的社会资源和计算机技术为我们的教育服务,专业学科教学模式和方法才能不断推陈出新,不断进步和发展。
参考文献:
[1]Jiawei Han,Micheline Kamber.Data Mining Concept and Technology[M].Beijing:China Machine Press,2007:10-12
[2]李旭晴.学科教学网站设计的应用探讨[J].计算机教育,2009,(02):1-2.
随着云计算和云存储的推广,可以收集和利用越来越多的数据。为了高效地处理和有效地利用各种形式的海量数据,以数据仓库、数据挖掘、联机分析处理等为核心的商业智能(BusinessIntelli-gence,BI)技术应运而生。商业智能这一概念由加特纳•格鲁派于1989年提出,可将商业智能理解为一种能够将机构现有的数据转化为知识,帮助机构通过基于事实和电脑化系统,做出科学业务决策的工具。商业智能技术已成功地应用于银行、电信、保险、制造业和零售业等行业。[6]从全球范围来看,商业智能已经成为最具有前景的信息化领域。通过调查了解世界各地的高等教育部门采用商业智能技术的状况发现,高等教育已明显落后于其它行业。然而,DaveWells在文献中指出,越来越多的高校正在关注商业智能应用这一主题,高等教育在技术方面已经到了应用商业智能的时候了。[7]例如,北美高等教育界较早关注商业智能应用的重要性,美国部分高校已经采用或正开始采用商业智能技术,对学校的教育数据进行整合分析,为学校的科学决策与管理提供信息支持。如宾州州立大学、密执根大学均于2005年提出建设BI项目的倡议,弗罗里达州立大学、华盛顿大学分别于2007年、2008年开始利用BI项目分析学校整合数据进行决策支持,普渡大学于2008-2014年期间建设学校新的协同集成系统,印第安纳大学2009年提出BI建设路线图,斯坦福大学商业智能中心2009年提交的BI架构及方案获批准、2010年正式启动项目建设,加州大学(总部)建设StatFinder系统,伊利诺斯大学建立学校决策支持数据仓库,亚利桑那州立大学为支持科学决策建设了仪表盘(dashboard)等。在欧洲、亚洲等地区的高等教育体系中,商业智能技术的应用才刚刚起步。我国少数高校也开始迈出了建设BI系统的步伐,如中山大学2010年开始提出学校BI系统建设倡议,现已初步完成BI系统的数据仓库建设,上海交通大学2011年推出BI项目的子系统———财务管理驾驶舱系统,复旦大学为学校师生在校生命周期实现管理信息化“全覆盖”,中国人民大学推出综合数据填报、数据存储、数据管理和数据展示等四大功能的数据平台,浙江大学为优化资源配置建设共享数据中心进行数据集成,上海财经大学建设校务决策支持系统,常熟理工学院建立高校决策支持系统等等。同时,基于商业智能技术产出的数据,也形成一批对高等教育和高校自身进行深入分析的研究报告。如美国教育研究的主要组织院校研究学会,年会报告除了涵盖数据管理、数据仓库等关于计算机技术本身的报告之外,关于评估、资源、学生、合作和分析的报告,较多地来自于商业智能系统数据的研究结果。[8]
二、数据驱动的高校教育管理智能平台架构
在海量教育数据亟待有效利用的驱动下,为提高高校管理效益,将商业智能技术应用到高校教育管理中,对高校产生的大量数据用数据挖掘等商业智能技术进行分析研究与处理,可以帮助高校决策者做出对学校发展更为有利的科学决策。其关键是建立综合层面上的、能反映高校整体教育教学管理的信息集成系统平台(下文简称高校BI系统平台)。高校BI系统平台体系架构由数据源、数据存储与管理层、数据分析层和用户接口层组成,如图1所示。
(一)数据源
数据源是整个系统的基础,包括高校各类业务管理信息系统的内部数据和其他外部数据。内部数据包括存放于操作型数据库中的各种业务数据和办公自动化系统包含的各类文档数据,如学校财务处、人事处、教务处、科研处、设备处等部门数据库中业务数据;外部信息包括各类教育信息、外部统计和调研数据及文档等。
(二)数据存储与管理
数据存储与管理层是整个系统的核心,包括ETL管理工具、公共数据集、元数据、数据仓库和数据集市。高校BI系统平台建设采用数据驱动设计方法,从学校原有的各个部门的业务处理系统和外部数据源中经过ETL提取数据,并根据常见的分析和统计主题,建设校级数据仓库以及人才培养、师资队伍、科学研究、办学资源、交流合作等主题的数据集市。
(三)数据查询与分析
高校决策者常常希望从不同的角度审视教育数据,比如从时间、区域、学科、教学或科研成果、课程建设、学生层次、交流合作、办学资源等维度全面了解学校的教育质量和状态。高校BI系统平台的数据分析层利用商业智能技术为高校管理主要提供固定报表、即席查询、统计分析、多维分析、预警功能、预测分析、数据挖掘建模分析及优化分析等,根据学校现有学生、教师、资源、科研和人才培养等状况,有助于高校决策者全面地对学校资源配置进行调控、对学校整体办学信息的内部结构进行调整等,做出对学校发展更为有利的科学决策。
(四)用户接口
用户接口层根据高校用户访问需求和角色访问授权机制,提供强大的多用户数据查询操作,并以仪表盘或表格、直方图、饼图等直观方式将查询结果或决策信息呈现给用户。
三、应用案例
下面以高校BI系统平台中的调研数据为商业智能技术应用案例,利用回归方法对大学生学习成果进行数据挖掘分析。
(一)数据来源
案例分析的数据来源于高校BI系统平台中“中山大学学生学习状况调查”项目于2012在中山大学全校范围内开展的在线调研数据。[13]调查覆盖全校36个学院(系),调查总体约为3.3万名本科生。让学生在无压力的情况下答题,共回收问卷7051份,回收率约为21.2%,与国际上通用的问卷回收率相当。案例分析聚焦于本科样本,全部回收的问卷根据答题时长、问卷质量标准等原则,筛选出有效问卷数据6673份,有效率为94.6%。本研究从学生学习经历角度,在“生源-学习-成果”的逻辑框架中,考察分析学校因素和学生因素对于学生学习成果的影响机制。调查把学生学习经历和成果分解为生源情况、学校学习资源供给、学生与学校的融合、学生学习投入、学生成果、学校成果6大维度,各维度下题目的内部一致性均达到0.9以上,具有较高的信度。
(二)数据分析
逐步回归提供了一种识别与学生学习成果相关的具体经历的方法,对于学生学习状况调查中的227项进行相似项合并,用向前和向后逐步回归确定与学习成果相关的项目,对残差图和诊断法的彻底审查,最后确定17个独立变量出现在多元回归模型中(如表2所示),其中,相关系数R为0.994,校正判定系数R2为0.988,因变量变化中有98.8%左右的信息可以由预测变量解释,说明模型的拟合优度较好;Durbin-Watson为1.937,接近最佳理想值,如表1所示。表2显示的是回归系数的相关统计量,可以看出,这17个独立变量的显著性概率Sig.都小于0.05,说明其系数显著不为0,这17个变量均与学生学习成果显著相关。分析表2中的数据可以看出,学生学习经历中的学校学习资源提供、学生学习投入和校园文化及学校成果等四大维度的17个变量均为影响学生学习成果的重要预测变量,包括课程作业评价、专业学习经历评价、学术规范指导、平等文化、多元能力的培养氛围等学校因素变量,以及朋辈交流情况、自主学习情况、活动参与情况、课外阅读情况、论文写作情况、讨论关注的内容情况、师生交流、课业活动及个人闲暇活动时间分配等学生因素变量。同时,在校经历满意度、综合满意度和能力培养满意度等融合学校因素和学生因素的学校成果也对学生学习成果具有一定的影响。通过标准系数可以看出,朋辈交流情况、自主学习情况和讨论关注的内容情况分别是第一、第二和第三重要的预测变量,而性别、年级、所在校区等人口学变量并未出现在该回归分析模型中,对学生学习成果的影响不显著。进一步分析朋辈交流情况和自主学习情况调查指标应答概况,如表3所示,“有时”、“时常”或“频繁”进行朋辈交流的比例为63.7%~97.7%,自主学习的比例为52.5%~92.9%,朋辈交流和自主学习的平均比例相当高(81.8%)。“有时”、“时常”或“频繁”地进行朋辈交流方面的主要比例情况为:“与家庭背景(社会、经济的)不同的同学交流”为97.7%、“与兴趣不同的同学交流”为95.6%、“在与同学的谈话中得到启发,改变自己的想法”为94.4%、“与世界观、价值观不同的同学交流”为93%、“与不同专业的同学交流”为92.6%、“同学与你谈话后,表示受到了你的启发”为90.8%。“有时”、“时常”或“频繁”地进行自主学习的主要比例情况为:“利用图书馆、网络等资源丰富自己的学识”为92.9%、“根据课程安排,做课堂展示”为91.3%、“努力掌握对自己而言较难的课程内容”为91.3%、“随着学习经历的丰富不断整合、梳理自己的知识系统”为88.4%,“因课程设置和教师的要求具有挑战性而更加努力地学习”为85.9%。上述情形符合VincentTinto在研究大学生退学问题时提出的理论模型:学生取得较好的学习成果,依赖于他们在学习经历中能否将自身的经验和目标与学校系统内部的学术系统和社交系统相融合。[10]学术系统代表学生个人的课业表现、智力发展、学业成就等综合表现,如表2中自主学习情况、活动参与情况、课外阅读情况、论文写作情况、讨论关注的内容情况及课业活动等属于学术系统的范畴。社交系统代表学生在校内的同伴关系、师生关系、社交行为等综合表现,如朋辈交流情况、师生交流及个人闲暇活动时间分配等属于社交系统的范畴。学生在其学习经历中,有效地利用学习资源和校园文化氛围、将学术系统和社交系统进行整合,可以从学业和人际关系上自我提升,从而提高学习成果。
四、小结
1知如何能够投其所好,为用户实现主动推荐,提供个性化服务;这些都是电子商务成败的关键问题。在这种新型的商务模式下,如何对网络上大量的信息进行有效组织利用,帮助海量数据的拥有者们找出真正有价值的信息和知识,以指导他们的商业决策行为,成为电子商务经营者关注的问题。迅速发展的基于Web的数据挖掘技术,为解决电子商务所面临的问题提供了有效途径。
2 Web数据挖掘
2.1 Web数据挖掘概述
数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的和随机的数据中提取人们事先不知道的、潜在有用的信息和知识的非平凡过程。
Web数据挖掘(Web Mining)是从Web文档和Web活动中抽取感兴趣的、潜在的有用模式和隐藏的信息,是数据库、数据挖掘、人工智能、信息检索、自然语言理解等技术的综合应用,是在一定基础上应用数据挖掘的方法以发现有用的知识来帮助人们从WWW中提取知识。Web数据挖掘可以分为Web内容挖掘(Web Content Mining)、Web结构挖掘(Web Structure Mining)、Web使用记录挖掘(Web Usage Mining)三类。Web内容挖掘是指从文档内容或其描述中抽取知识的过程,又可以分为基于文本的挖掘和基于多媒体的挖掘两种。Web文本挖掘可以对Web上大量文档集合的内容进行总结、分类、聚类、关联分析等。Web结构挖掘是指从Web组织结构和链接关系中推导知识。通过对Web结构的挖掘,可以用来指导对页面进行分类和聚类,找到权威页面,从而提高检索的性能,同时还可以用来指导网页采集工作,提高采集效率。Web使用记录挖掘是指从服务器端记录的客户访问日志或从客户的浏览信息中抽取感兴趣的模式。
基于Web的数据挖掘技术的出现不仅为商家做出正确的商业决策提供了强有力的工具,也为商家更加深入地了解客户需求信息和购物行为的特征提供了可能性。
2.2 电子商务中Web数据挖掘的步骤
电子商务中Web数据挖掘的步骤如下:
① 明确数据挖掘的对象—业务对象,确定商业应用主题,不能盲目地进行挖掘;
② 将与业务对象的各类原始数据收集起来作为挖掘的数据源泉;
③ 对收集的数据进行预处理,一般包括数据净化、用户识别、会话识别、路径补充、事务识别和格式化等阶段,以提高挖掘效率,剔除无用、无关信息并对信息进行必要的整理。
④ 根据需要解决的问题建立合适的数据挖掘模型,然后利用已知数据对模型进行训练和测试,并应用该模型得到挖掘结果;
⑤ 利用可视化技术,验证、解释挖掘的结果,并据此做出决策或丰富知识,即进行模式分析与应用。
在整个Web数据挖掘的过程中,被明确的业务对象是挖掘过程的基础,它驱动整个Web数据挖掘的全过程; 同时,也是检验挖掘结果和引导分析人员完成挖掘的依据。
2.3 电子商务中Web数据挖掘的数据源
在电子商务中,可以用来作为数据挖掘分析的数据量比较大,而且类型众多,总结起来有以下几种类型的数据可用于Web数据挖掘技术产生各种知识模式。
① 服务器数据。客户访问站点时会在Web服务器上留下相应的日志数据,这些日志数据通常以文本文件的形式存储在服务器上。一般包括servers logs、error logs、cookies logs等。
② 查询数据。它是电子商务站点在服务器上产生的一种典型数据。例如,对于再现存储的客户也许会搜索一些产品或某些广告信息,这些查询信息就是通过cookie或是登记信息连接到服务器的访问日志上。
③ 在线市场数据。这类数据主要是传统关系数据库里存储的有关电子商务站点信息、用户购买信息、商品信息等数据。
④ Web页面。主要是指HTML和XML页面的内容,包括文本、图片、语音、图像等。
⑤ Web页面超级链接关系。主要是指页面之间存在的超级链接关系,这也是一种重要的资源。
⑥ 客户登记信息。客户登记信息是指客户通过Web页输入的、要提交给服务器的相关用户信息,这些信息通常是关于用户的人口特征。在Web的数据挖掘中,客户登记信息需要和访问日志集成,以提高数据挖掘的准确度,使之能更进一步的了解客户。
2.4 Web数据挖掘能够获取的知识模式
运用Web数据挖掘技术能够对站点上的各种数据源进行挖掘,找到相关的一些知识模式,以指导站点人员更好地运作站点和向客户提供更好的服务。一般运用Web数据挖掘可以在站点上挖掘出来的知识模式有以下几个:
① 路径分析。它可以被用于判定在一个Web站点中最频繁访问的路径。通过路径分析,可以得到重要的页面,可以改进页面及网站结构的设计。
② 关联规则的发现。在电子商务中关联规则的发现可以找到客户对网站上各种文件之间访问的相互关系,可以找到用户访问的页面与页面之间的相关性和购买商品间的相关性。利用这些相关性,可以更好的组织站点的内容,实施有效的市场策略,增加交叉销售量,同时还可以减少用户过滤信息的负担。
③ 序列模式的发现。序列模式的发现就是在时间戳有序的事务集中,找到那些“一些项跟随另一项”的内部事务模式。它能够便于进行电子商务的组织预测客户的访问模式,对客户开展有针对性的广告服务。通过系列模式的发现,能够在服务器方选择有针对性地页面,以满足访问者的特定要求。
④ 分类和预测。分类发现就是给出识别一个特殊群体的公共属性的描述,这个描述可以用来分类新的项。分类的目的是通过构造分类模型或分类器,把数据库中的数据项映射到给定类别中的某一个,以便用于预测;也就是利用历史数据记录自动推导出对给定数据的推广描述,从而能对未来数据进行预测,进行适合某一类客户的商务活动。
⑤ 聚类分析。聚类分析可以从Web访问信息数据中聚集出具有相似特性的那些客户。在Web事务日志中,聚类顾客信息或数据项能够便于开发和执行未来的市场策略。这种市场策略包括自动给一个特定的顾客聚类发送销售邮件、为属于某一个顾客聚类中的顾客推荐特定的商品等。对电子商务来说,客户聚类可以对市场细分理论提供有力的支持。通过对聚类客户特征的提取,电子商务网站可以为客户提供个性化的服务。
⑥ 异常检测。异常检测是对分析对象的少数的、极端的特例的描述,以揭示内在的原因,从而减小经营的风险。异常检测在电子商务中的应用可以体现在信用卡欺诈甄别、发现异常客户和网络入侵检测等方面。
Web数据挖掘的各项功能不是独立存在的,而是在挖掘过程中互相联系,发挥作用。
3 Web数据挖掘在电子商务中的应用
3.1数据抽取方法在电子商务中的应用
与传统商务活动相比,电子商务具有更多的虚拟和不确定的因素:如客户购买的心理、动机、能力、欲望等。Web数据挖掘要解决的问题就是如何从零散的无规则的网络数据中找到有用的和有规则的数据和知识,基本方法之一就是进行数据抽取,以期对数据进行浓缩,给出它的紧凑描述,如方差值等统计值或用直方图等图形方式表示,从数据泛化的角度讨论数据总结,把最原始、基本的信息数据从低层次抽象到高层次,以便于企业决策。
3.2 基于Web数据挖掘的智能化搜索引擎
电子商务企业在活动过程中面临的问题之一是如何通过Internet全面、准确、及时地收集到企业内、外部的环境信息,尤其是一些隐性的、关系到企业经营成败的关键信息,以提高竞争力。目前的搜索引擎存在着查准率低、返回无用信息多的问题,使企业无法得到优质的信息。鉴于此,将Web数据挖掘技术应用于搜索引擎,使之成为智能搜索引擎,从而提高性能,满足电子商务企业的需要。Web挖掘技术主要在以下几个方面对搜索引擎有借鉴作用:文档的自动分类、自动摘要的形成、检索结果的联机聚类和相关度排序及实现个性化的搜索引擎。经过文档的分类处理,可以对搜索结果进行分门别类,可以通过限制搜索范围来使文本的查找更为容易,帮助用户快速的对目标知识进行定位,从而提高用户进行网上信息搜索的效率;自动摘要能够解决大部分搜索引擎机械地截取文档的前几句和固定字数的摘要使信息反映不完整的缺陷,使用户能较准确、快速、方便地了解检索信息;通过对检索结果的文档集合进行聚类,可以使得与用户检索结果相关的文档集中在一起,从而远离那些不相关的文档,将处理以后的信息以超链结构组织的层次方式可视化地提供给用户,由用户选择他所感兴趣的那一簇,将大大缩小所需浏览的页面数量;将Web使用挖掘中的个性化技术应用在搜索引擎中,可以在大量训练样本的基础上,得到数据对象间的内在特征,并以此为依据进行有目的的信息提取,使得搜索引擎可以按照用户的兴趣偏好扩充用户搜索的关键词,以使得检索结果更接近用户要求,或者根据用户历史浏览信息的分析获得用户兴趣库,调用个性化的搜索引擎可以提高用户检索的查全率与查准率。通过借鉴Web挖掘技术可以提高查准率与查全率,改善检索结果的组织,从而使检索效率得到改善。
3.3 Web数据挖掘在客户关系管理中的应用
① 客户关系管理的核心
客户关系管理(Customer Relationship Management,简称CRM)的核心是通过客户和他们行为的有效数据收集,发现潜在的市场和客户,从而获得更高的商业利润,通过完善的客户服务和深入的客户分析来满足客户的需求,保证实现客户的终生价值。可以说 CRM 能给传统企业带来在网络经济时代谋取生存之道的管理制度和技术手段。它要求企业从“以产品为中心”的模式向“以客户为中心”的模式转移。
② Web数据挖掘在客户关系管理中的应用
Web数据挖掘能够帮助企业确定客户的特点,使企业能够为客户提供有针对性的服务。将Web数据挖掘用在电子商务CRM中主要体现在客户的获取和保持、价值客户鉴别、客户满意度分析及改善站点结构等几方面。
通过Web数据挖掘,可以理解访问者的动态行为,据此优化电子商务网站的经营模式。通过把所掌握的大量客户分成不同的类,对不同类的客户提供个性化服务来提高客户的满意度,从而保持老客户;通过对新访问者的网页浏览记录进行分析,就可以判断出该访问者是属于哪一类客户,是有利可图的潜在客户还是毫无价值的过客,达到区别对待、节省销售成本、提高访问者到购买者的转化率的目的,从而挖掘潜在客户;通过对具有相似浏览行为的客户进行分组,提取组中客户的共同特征,从而实现客户的聚类,这可以帮助电子商务企业更好地了解客户的兴趣、消费习惯和消费倾向,预测他们的需求,有针对性地向他们推荐特定的商品并实现交叉销售,可以提高交易成功率和交易量,提高营销效果。
此外,站点的结构和内容是吸引客户的关键。利用关联规则的发现,针对不同客户动态调整站点结构和页面内容,把具有一定支持度和信任度的相关联的物品放在一起以有助于销售;通过路径分析等技术可以判定出一类用户对Web站点频繁访问的路径,这些路径反映这类用户浏览站点页面的顺序和习惯,将客户访问的有关联的文件实现直接链接,让客户容易地访问到想要的页面。这样的网站会给客户留下好印象,提高客户忠诚度,吸引客户,延长他们在网站上的驻留时间以及提高再次访问的机率。
通过挖掘客户的行为记录和反馈情况,进一步优化网站组织结构和服务方式以提高网站的效率。通过Web数据挖掘,可以得到可靠的市场反馈信息,评测广告的投资回报率,从而评估网络营销模式的成功与否;可以根据关心某产品的访问者的浏览模式来决定广告的位置,增加广告针对性,提高广告的投资回报率,降低公司的运营成本。
③ 维护客户的隐私权
维护客户的隐私权是商家在商业运作过程中不能忽视的一个基本组成部分。因此,作为电子商务企业,应该尽量避免对单个客户数据进行挖掘。企业管理客户隐私权的保护应该从技术和管理两个方面来实现:技术上,通常是采用加密标志符,并且尽量避免对单个客户数据进行挖掘;管理上,很多电子商务企业现在已经增设了首席隐私官(CPO,Chief Privacy Officer)职位,隐私官将能在个人对隐私的需求和公司以合理手段使用隐私材料的权利之间,建立适当的平衡关系。这种平衡关系的大成,需要以长期的实践和经验为基础。除了电子商务企业以单独的主体身份进行客户隐私权保护的管理之外,行业自律也是保护客户隐私权的一个行之有效的手段。目前,电子商务网站越来越倾向于通过行业自律的方式来树立其在客户心目中的形象,让客户放心地提交数据。
3.4 Web数据挖掘在个性化服务推荐系统中的应用
电子商务个性化服务推荐系统是向站点企业提供在电子商务中更好地运作CRM,建立良好客户关系的一种解决方法,是“以客户为中心”、“一对一”的行销的坚实执行者。
该系统主要是将数据挖掘的思想和方法应用到Web服务器日志及Web数据库等资源上,挖掘出客户的访问规律;然后将在线访问客户归结到某一类中去,根据该类用户的访问规律进行Web页面的推荐;并且系统还可以通过不断地跟踪用户的当前访问,实时调整推荐集,为用户提供个性化的访问。该系统由五大模块组成:数据收集模块、数据预处理模块、数据存储模块、离线挖掘模块和在线推荐模块。其系统结构模型如图1所示:
图1 基于Web数据挖掘的个性化服务推荐系统结构模型
数据收集模块主要用于收集Web数据库、使用日志等数据,形成数据采集库,为以后的挖掘做准备;数据预处理模块主要是对所收集的数据进行预处理,数据预处理的质量与挖掘的效率和结果紧密相关;数据存储模块将预处理后的数据存入用户事务库;离线挖掘模块中的挖掘引擎使用挖掘算法库中的数据挖掘技术如统计分析、关联规则、聚类分析、序列模式等,来发现用户浏览模式,并通过模式分析对其进行分析与解释,根据实际应用,通过观察和选择,把发现的统计结果、规则和模型转换为知识,经过筛选后得到有用的模式用来指导实际的电子商务行为;在线推荐模块在Web服务器前端设置了推荐引擎,它将用户当前的浏览活动与浏览出的页面推荐集结合起来考虑,生成相应推荐集,然后在用户最新请求的页面上添加推荐集的页面,再通过Web服务器传递到用户端的浏览器,为用户实现实时个性化服务;同时将推荐结果送往网站管理中心,以便调整网站设计,优化网站结构,提高网站效率。
总的来说,在个性化服务推荐系统中运用数据挖掘技术有两个阶段:第一个阶段是学习阶段,离线进行。第二个阶段是模式的使用阶段,在线进行。挖掘和在线推荐的特征获取和规则生成是离线处理的,而当用户访问该网站时通过在线推荐引擎进行在线服务。离线模块和在线模块相互联系,在线模块主要是利用离线模块提供的规则模型对在线用户推荐(推荐引擎);离线模块主要是利用在线模块积累的数据运用系统推荐算法形成相应的规则。挖掘算法和推荐策略可以根据不同类型站点的要求来具体选择,挖掘结果和推荐集通过推荐引擎反馈给用户。电子商务网站的客户登录网站以后,其访问信息将会被记录到服务器端。这些数据将在经过预处理后,在专用的数据挖掘模块中,通过具体的挖掘算法和推荐策略来进行模式识别和模式分析。用户访问信息也会传到推荐引擎,推荐引擎根据客户的会员标识,向挖掘模块抽取对应客户的挖掘结果和推荐集,将其可视化地反馈给用户,达到个性化服务的目的。
3.5基于Web的数据挖掘在商业信用评估中的应用
发达的社会信用水平是发展电子商务的重要基础,通过Web数据挖掘对站点数据统计和历史记录之间的差别,结果与期望值的偏离以及反常实例进行充分的分析,可以有效地防范投资和经营风险。另外,通过数据挖掘技术对企业经营进行跟踪,开展企业的资产评估、利润收益分析和发展潜力预测,构建完善的安全保障体系,实施网上全程监控,监督网上言论,维护企业信誉,强化网上交易和在线支付的安全管理,利用数据挖掘的信用评估模型,对交易历史数据进行挖掘发现客户的交易数据特征,建立客户信誉度级别,有效地防范和化解信用风险,提高企业信用甄别与风险管理的水平和能力。
4 结论
本文对Web挖掘技术进行了综述,介绍了其在电子商务中的典型应用。Web数据挖掘高度自动化地对电子商务中的大量信息进行分析和推理,从中挖掘出潜在的模式,预测客户行为,帮助企业的决策者调整市场策略,减少风险,做出正确的决策。Web数据挖掘是近几年来数据挖掘领域的探讨热点,利用它的技术知识将它运用到电子商务,将会解决许多实际问题,具有丰富的学术价值。将Web数据挖掘技术和电子商务两者有机结合,将会为企业更有效的确认目标市场,改进决策,获得竞争优势提供帮助,有着很广阔的应用前景,使电子商务网站更具有竞争力,从而为企业带来更多的效益。面向电子商务的Web数据挖掘能发现大量数据背后隐藏的知识,指导商家提高销售额,改善企业客户关系,提高网站运行效率,改进系统性能,具有良好的发展和应用前景,必将得到越来越多的关注。
参考文献
[1] 毛国君.数据挖掘原理与算法[M].清华大学出版社.2005(07).
[2] 张冬青.数据挖掘在电子商务中应用问题研究[J].现代情报.2005(09).
[3] 李凤慧.面向电子商务的Web数据挖据的研究[D].山东科技大学硕士学位论文. 2004(06).
[4] 杨风召,白慧.异常检测技术及其在电子商务中的应用[J].情报杂志. 2005(12).
在江苏省政府2003年度公派留学计划“访问学者”项目资助下,我于2006年3月~2007年2月对美国德雷克塞尔大学(Drexel University)进行了访问研究。在美期间,我观摩了信息科学与技术学院信息处理专业、软件工程以及工程学院计算机科学与技术系计算机科学专业的软件工程、数据结构、数据库及数据库管理系统、高级人工智能、数据挖掘、数字图书等的教学,接触了导师所申请到的美国国家自然科学基金课题和宾夕法尼亚(PA)州的研究基金课题(NSF Career Grant IIS 0448023;NSF CCF 0514679;Dept of Health Tobacco Settlement Formula Grant, PA, No.240205 and No.240196; Dept of Health Grant, PA, No.239667),参与了博士生的研究指导活动和每周的专题学术研讨会,并撰写了7篇研究论文(后来陆续在国际学报Kybernetes、国际学术会议上公开发表),取得了圆满的访问成果。
采用计算机科学技术、现代信息技术和新的数学理论和工具处理复杂的信息,从各类文本、数据、表格、图像、视频等浩瀚的数据海洋中挖掘规律,发现有用的潜在知识,指导人们进行科学分类、预测、决策,是多年来美国及国际计算机、信息科学和数学家一直在探索的研究领域。知识获取、知识表示和智能化的人机交互,甚至实现计算机可视化信息处理,建立新颖的知识库,从而获得领域信息和知识分析结果,将有助于商业活动、生物信息处理、蛋白质结构分析、科技研究动态分析,有助于科学家在复杂的科研信息中开辟新的未知领域,提供快速独立科学判断的客观依据,探讨和预测学科知识的发展前沿,准确把握学科研究方向,从事科学创新和研究。
多年来,我一直在智能信息处理这一研究领域进行探索。这次联系到美国德雷克塞尔大学信息科学技术学院Tony• H教授,在他的指导下进行数据挖掘、生物信息挖掘以及Rough Set Theory等方向的研究。
Tony•H教授现担任国际学报《Data Mining and Bioinformatics》和《Granular Computing》等的主编和国际粒计算会议的程序委员会主席,他所研究的Rough Set Theory、Data mining、Bioinformatics和Data Management Systems等内容,是近年来在世界智能信息分析中最具特色和影响力的研究领域。从2000年至今,他在这一研究领域中发表的研究论文达60多篇,出版的研究专著为3部。在为期一年的时间里,我与Tony•H进行了很好的合作研究,采用新的研究方法,对前沿领域进行了有益的探索研究,并接受了Tony•H等教授们的研究思想、研究方法、教学思想和教学方法的熏陶,对相关课程的教学方法、教学手段、教学组织方式进行了深入的交流和探讨。此外,我还以志愿者的身份参加了在美国举办的两个大型的全球性国际会议:美国工业数学联合会举办的2006年国际知识发现与数据挖掘会议(Knowledge Discovery and Data Mining- KDD, by SIAM, Maryland April,2006);国际知识发现和数据挖掘会议(International Knowledge Discovery and Data Mining (KDD), Philadelphia August, 2006)。
这次访问研究使我开阔了眼界,接触到很多当今信息科学研究领域中最先进的思想和方法。对Rough Set Theory、Data mining、Bioinformatics等前沿性探索和预测的科学研究也有了更深入的认识。同时,能够有机会和这一研究领域的世界知名专家和教授进行面对面的学术交流与探讨,参加各种类型的学术研讨会,我觉得受益匪浅。我所感受的学术氛围、学到的教学思想和教学方法是一笔宝贵的精神财富,我会将他们直接应用到自己的教学和科研中。下面就我在访美期间印象深刻的几件事谈谈体会,以期对我们的工作有所启示。
2优秀的学习环境
2.1优美的校园环境
我所访问的德雷克塞尔大学地处美国费城的市中心西部,紧邻世界著名的宾法尼亚大学(世界上第一台电子计算机ENIAC在这里诞生,现在这里还保留有部分元件的展览)。虽然离市中心较近,校园也没有围墙与外界明显隔开,由跨南北东西几条街和大道的建筑组成,但校区及周边环境寂静优雅。校园中央有一座代表性的龙雕塑,路边插的许多旗杆上挂着印有龙的图案和Dragon字样的杏黄校旗,几只松鼠在校园内的树上自由地跳跃活动,小道边或树下都设有长凳,供教职工或学生休息、讨论。
教学楼、实验楼、办公楼、图书馆、体育馆内中央空调处于恒温状态,非常适合工作学习。每栋楼的大厅或较宽的走道边的墙壁上都贴有各种名言及名画,营造着好的学习环境,渲染着极其重要的文化氛围。大厅内布置有椅子和圆桌,在上课、实验或面谈之前,教师或学生可在此休息等待,这一点的确做到了以人为本,给我留下了十分深刻的印象。
体育馆内各种体育设施齐全,如健身、跑步、球类等,全年对学生免费开放。游泳也只需支付少量的费用(3个月只需25美元),全天多时段使用。
9月迎接新生、校际间的篮球比赛等活动举办得井井有条,充满生机。
2.2完备的信息化建设
首先,信息化建设表现在数字资源的建设上。图书馆大厅内设有很多计算机,学生可在此上网浏览,查阅资料。书架周边靠墙处设有自习的桌椅,供有网络插口,学生可链接自己的笔记本电脑。图书馆资料丰富,如果在本馆找不到相关资料,也可请图书管理员在馆际间查找,将返回的电子文档通过邮件发送到学生校园网内的电子邮箱中,十分方便。
校园无线网覆盖了整个校园,教室周围也预设了网线插口,在教室内上课或自习的学生均可免费无线或有线上网。在校的本、硕、博学生都有自己的校内学号,凭该学号可直接在自己的实验室登陆校园网的电子图书馆,查到仅在校园网上提供的论文资料。学生还可从校园网中心服务器上下载以学校或机构名义购买的正版软件,这一点国内很多高校还没能做到。
其次,信息化建设也体现在师生信息素养的建设上。无论在信息意识、信息知识、信息能力,还是在信息道德上,师生们都显现出十分成熟的高水平。良好的信息化数字资源建设为师生的教学科研提供了良好的保障,师生们利用简单的搜索机制或便捷的馆际服务就可查到需要的资源。虽然本校师生可从校园网上下载正版软件,但每个人都遵守不宜外拷的基本原则,这也体现了良好的信息素养。
3教师教学与学生学习
3.1教师教学情况
美国高校一般一年分为4个学期,每个学期大约3个月。按照校方的要求,每个教师至少3个学期要有教学任务,而且必须在每个学期完成平均3门课程的教学,个别教师甚至在一个学期要承担4门课程的教学任务。一门课的教学约32学时,这样,每个教师每学期(一学期不到3个月)约完成72~96学时的教学工作量。除非有科研课题,可以用科研任务充抵教学工作量,否则,教学任务就是相当饱满的。除了承担教学工作外,每个教师还要承担科研、指导硕士及博士生进行研究的工作。年轻教师除了要完成教学任务,还要进一步深造,提高自己的学位和水平。教师的教学情况由学生来评价,学生填写调查表格,收齐后交由学院教学秘书统计,最后由学院将统计结果通报给教师本人,类似国内高校的学生评教。所以教师同样很有压力,他们对教学一丝不苟、敬业,并非普通人所想象的美国教师工资高、工作轻松。
在课下,教师必须将所授课程的内容介绍、大纲、演示文档资料、习题等组织好,全部挂在校园网的个人主页上,以便学生随时浏览。备课、批改作业、设计实验题目等各个环节,教师都要十分认真地对待,每周有一次约定学生到办公室进行问题讨论或答疑,保证教学任务圆满完成。教师对实验项目的设计循循善诱,既不是全盘托出,也不是仅给一个题目,让学生冥思苦想地琢磨。除了将学生建立成团队,教师还布置与课程相关的大量文献和资料阅读,并要求学生写出读书报告。对于课程结束或评定成绩用的大作业,甚至要求每个学生制作成演示文稿,并加以汇报、讨论。我看到一位叫爱德华(中译名)的老师,他承担了数据库、软件工程等多门课程的教学任务,每天都在办公室工作到很晚,有时甚至在教学楼大厅的休闲式自习间伏案研究。
在课上,每门课程开始的第一节课,教师就将学生分组,形成一个一个团队。在布置学习和研讨课题后,教师要求学生先独立思考,不明白的东西可在团队内讨论,有问题还可及时问老师。也就是说,每门课都在培养学生的团队协作精神。教师在课堂上的演示文稿经过精心准备,图文并茂,层次分明,令人赏心悦目,但他们也不完全拘泥于演示稿,也在黑(或白)板上演绎关键的内容,突出重点,使学生感到他们备课充分,对教学内容十分精通。
3.2学生学习情况
在美国读书的学生,普遍感到课外阅读任务较重。学生不光要学好课内的基本教学内容,还要阅读文献,查找与主题相关的资料,并加以整理、归纳、汇总。这培养了学生自主学习的意识,清除他们完全靠老师课堂讲授的依赖心理。
课堂上,学生们会踊跃发言,认真记笔记,回答老师的提问,在老师的引导下完成课堂练习。下课后,学生到图书馆查阅资料或自习,也会在网上下载老师在主页上布置的作业,按时完成后及时提交给老师批改。如在课程结束时,教师会给学生布置大作业,学生要在一定时间内当面交给老师,并接受面试提问,作为考查依据的一部分。在接到作业任务后,学生要认真对待,完成后连带其他作业一起交给老师。老师根据学生的总体完成情况给出五级分制的成绩。
我曾遇到一位硕士生,她就接到这样一个大作业。老师给的任务是一个较大的程序,要求她调试运行通过。经过一周的调试,程序始终没能运行成功。在快要到期时,她正好碰到我,听说我是从事这方面教学工作的,就向我请教。我很想了解美国教师采用什么样的教学方法,出什么样的题目让学生做,于是答应帮他。我仔细阅读分析和反复测试网上下载的源代码,终于找出了问题所在。原来老师在程序中故意预设了两个问题,这是学生在学习此类程序设计语言时容易忽略或犯错的问题,程序在编译中并不报错,但就是运行结果不正确,得不到期望的结果,学生找不到出错的地方,感到很困惑。经过修改,程序很快调试运行通过,进一步优化和调整后,她交给了老师。老师看了她的程序运行结果,并问了她的体会,得到非常满意的回答后,表示十分高兴。
其实,这就是教师在主导学生去主动学习,自己找资料,自己研究问题,形象地讲,就是“逼”学生好好学习。这样可以解决学生遇到较难问题时无从下手的迷惑,循循善诱他们找到解决问题的方法,避免了“越俎代庖”。
4 硕士生和博士生的培养过程
在硕、博研究生的指导过程中,如何对学生加以良好的指导,始终是困扰国内外导师们的问题,至今仍无绝对规范。
从导师与学生一见面,指导工作就已开始。导师一般提供很多必要的帮助,如帮助开设相互联系的校园邮箱,确定联系方式和时间,根据学生的知识结构制定研究方向等。作为一项基本约定,指导教师每周要有一个下午与学生见面,由学生汇报学习和研究情况,导师当面给出指导意见。导师有时还会帮助学生查找并提供最相关的研究论文或资料,必要时将研究论文的电子稿发送给学生,甚至将论文复印件放在学生的信箱中――这绝对有别于国内有的指导老师因兼职过多或担任其他职务,指导缺乏或持久不到位现象。这种指导方式加强了导师与学生的交流,也便于将学生引导到相关研究领域的最前沿,而导师也始终站在研究的最高点。而通过不断的交流和指导,学生能很快系统地了解相关领域的研究进展,较早找到问题的抓手,有兴趣地开展有意义的研究,往往容易产生创新型成果,包括理论和应用性实验成果等,并能。
当学生或导师认识到某个研究点的价值所在时,就会着力加以深入研究。如导师要求学生认真阅读研究后再来参加讨论,甚至有时要求学生将讨论内容制成演示文档讲解,这样他们对重要的概念和研究结果的掌握就会更加透彻,文献跟踪程度和研究思路水平就会得到提升。这种有意识的训练大大强于“散放式”的指导方式。
5良好的学术氛围
学科建设和课程教学离不开学术研究。在德雷克塞尔大学,给人留下深刻印象的就是每个教授(正教授、副教授和助理教授)都将自己的研究方向和最新论文或成果以一幅画的形式贴在工作室的外墙上,上面有个人简介、主要方法和结果说明。这样就打出了自己的招牌,便于他人了解自己。此外,每个教授甚至普通教师都在校园网上建有自己的主页,对自己的教学科研工作进行介绍,并将研究论文、著作等目录列在其中,便于与他人交流或沟通。教师也经常根据教学内容联系国际国内的专家做学术报告,始终用新知识武装学生的头脑。
重视营造活跃的学术氛围,并使学术交流制度化、经常化,是我在美做访问学者期间感受最深的一点。每个系或学院基本上每周都举办1~2次学术研讨会,主讲者有来自世界各地的专家教授,也有某个研究领域资深的校内教师。每次学术研讨会的时间大都定在中午12:30,12:00就开始提供免费的午餐。这样既充分利用了时间,又解决了听报告者的午饭问题,也通过免费午餐吸引了不少听众,特别是一些来自第三世界国家的“穷”留学生们。通过网上邀请,大多数感兴趣的学生甚至老师都会来参加研讨会,在这里了解一些最新的研究进展和报告人的研究思路,并能与主讲人交流自己的研究体会,视野随之开阔,思想也随之富有。有时,一些大的跨国公司或政府部门(如安全部门)的技术专家也被邀请来做专题报告,这样学术交流的氛围就比较活跃,研究工作也不会是一潭死水。
6结语
在美国德雷克塞尔大学访问进修一年,我目睹了该大学在环境建设、教学科研等方面的好的做法,开阔了视野。回国后,我给我的学生们讲解我的所见所闻,也给他们留下了深刻印象。这次进修不仅使我在业务上得到进一步修炼,也获得了不少“精神财富”,如下所示:
(1) 抓实抓好教学工作的每个环节,是高校教师的永恒主题。任何一个环节,如教学方法、教学手段、实验项目设计、主导学生学习、提出学习要求、组织讨论答疑、批改作业等方面的提高,都会大大提高教学质量和教学效率,取得事半功倍的效果。
(2) 指导学生方向和过程并重,确保处于研究前沿。指导学生,特别是硕、博士生的导师,不仅在一开始就要帮助学生确定研究方向,而且要定期开展学习检查和交流活动,必要时还要为学生提供前沿性的研究论文或资料,以便将他们早日引导到国际国内的前沿阵地,保持在高新水平上从事研究工作,取得创新性的研究成果。
(3) 创造活跃的学术氛围和良好的学习环境,是高校各级领导及教师的基本责任。只有将教师和学生置于始终向前的滚滚波涛中,教学和研究才会具有不可估量的创造力,才会在科学的道路上获得可持续发展。
参考文献:
1加强期刊文献推送服务的必要性
2001年以来,信息推送模式成为我国图书情报界关注与讨论的热点,对信息推送的技术、内容、方式、应用和存在的问题等进行了研究[7],尤其在数字图书馆信息推送中得到较多的实践,如浙江大学图书馆推出了入藏新书邮件推送服务[8],西北工业大学图书馆对三大索引收录论文进行邮件推送服务等[9]。期刊拥有3支较大的队伍,即作者队伍、审稿专家队伍和编委队伍,他们是期刊文献潜在的用户群。由于用户以拉取模式获取期刊文献存在以上问题,笔者提出基于用户科研工作文献信息的需要,以电子邮件方式进行期刊文献的推送,以便用户能够及时获取和引用相关文献信息。这样可以宣传与推介期刊,转变服务理念,由过去的用户单向被动获取文献,到现在的期刊主动出击,从而加强用户与期刊的互动与合作,以实现“推”“拉”结合的方式,为用户提供更及时、主动和有针对性的文献服务,提升期刊文献的显示度、利用率和影响力。
2电子邮件系统进行期刊文献推送的策略
2.1用户数据库的建立
要向用户推送期刊文献,必须要有需求期刊文献用户的数据信息和电子邮件地址等,可以通过多种渠道准确获取用户的有关信息:一是通过编辑部的投审稿系统提取投稿作者及评审专家的信息,如用户姓名、研究方向及电子邮箱等;二是通过编委资源库获取相关编委的个人信息;三是通过行业学术会议的通讯录等提取相关专业学者的信息;四是通过高校院系网站获取专业学科带头人及有关学者的信息;五是与其他期刊编辑部进行资源互换,获取有关专家的信息。将收集到的用户数据(用户名、专业方向、电子邮箱等)建立在群发邮件工具Outlook(或OutlookExpress等)中,及时更新用户数据库,并将用户按照专业方向进行归类分组,不断挖掘和发现用户文献信息的需求。
2.2期刊文献的提取
已被录用并正式确定刊期的文章,经过编辑、排版、校对后,便可形成最终的电子版本,须尽快将期刊目次和正文转化为PDF格式等常用格式,再将相近专业的文献进行聚合分类,建立分组文件,并打包压缩。另外可将过往的期刊文献进行提取、分类和压缩。同时,将用户数据库与提取的文献信息进行关联,准备发送。2.3期刊文献的推送在垃圾邮件满天飞的状况下,为防止被当做垃圾信息过滤,就要在邮件模板设计时特别注意,邮件主题及内容描述力求准确,既要介绍刊物,又可欢迎赐稿;还建议已实行OA(开放获取)的期刊,将OA网址一并加入;语言表述还要体现个性化,以确保推送的质量。文献推送主要采用电子邮件的群发方式。目前可以群发邮件的软件较多,如Outlook、OutlookExpress、W3JMail等,要注意选择如可调用Outlook作为数据推送客户端,实现邮件推送服务的自动化,自动将期刊文献信息推送到用户邮箱。