欢迎来到易发表网!

关于我们 期刊咨询 科普杂志

数据挖掘课程优选九篇

时间:2023-03-07 15:19:21

引言:易发表网凭借丰富的文秘实践,为您精心挑选了九篇数据挖掘课程范例。如需获取更多原创内容,可随时联系我们的客服老师。

数据挖掘课程

第1篇

国外很多大学都开设了数据挖掘课程,波士顿大学的“数据管理与商务智能”课程主要包括基础、核心技术、应用三部分。授课方式包括理论内容讲授、案例教学,以及学生以团队合作方式完成项目并进行课堂演讲。从麻省理工学院开放性课程资料(斯隆管理学院)中可以看出,在每章讲解一种算法之后都尽可能地安排了商务实例的分析,并在课程后期安排了客座讲座的形式。国内对于数据挖掘的教学类研究成果也很多,主要集中在三类问题的研究上,较为普遍的是根据专业建立大纲的研究,例如针对电子商务专业进行大纲设计;另外也有专注研究某一种或多种适合数据挖掘或商务智能的教学方法,如专题研讨法;还有的讨论算法理解与程序设计、软件应用的关系。

2、基于模块化方法的课程内容分析

模块化教学模式是按照程序模块化的构想和原则来设计教学内容的一整套教学体系,它是在既定的培养目标指导下,将全部教学内容按照一定标准或规则进行分解,使其成为多个相对独立的教学模块,且各教学模块之间可以按照一定的规则有选择性的重新组合。该方法在20世纪70年代,由国际劳工组织引入教学之中,开发出以现场教学为主,以技能培训为核心的模块化教学模式,在很多国家得到广泛应用。由于该教学法具有针对性、灵活性、现实性等特点,越来越受到教育界的关注。模块化教学本质上是以知识点与实践的细化为出发点研究,本课程的知识点细化分为两个层次:一是从宏观角度,参考ACM的SIGKDD的数据挖掘课程建设建议,设计课程的基础内容模块和高级主题模块;二是从微观角度,针对较为复杂的算法进行的知识点划分。课程内容的一至五章属于基础内容模块,介绍本课程的基础理论和入门的数据挖掘技术;六至第八章介于基础内容与高级主题之间,介绍数据挖掘的核心算法,可以根据学生情况进行灵活处理,可强调应用,也可深化算法介绍;第九、十章为高级主题模块,可以作为扩展材料介绍应用,或为感兴趣同学提供算法介绍;课程实践模块包含数据仓库建设与数据挖掘算法的应用,难度居中,可以在引导学生思考的前提下给出实验步骤,并引导学生使用类似的方法处理不同的数据。

3、基于模块化方法进行重要知识点的模块化分析

重要知识点内涵较为丰富,一般体现在经典数据挖掘算法上,通常一大类算法下还分有多个算法,不同算法的在难度上有渐进层次,同一种算法也有很大改进研究空间,讲授弹性比较大。因此,适合使用模块化方法进行处理,并且需要在课程设计中明确一定课时量所要达到的内容和难度。基础部分为必选内容,介绍基本概念和基本原理;决策树作为数据挖掘分类算法的最基础算法也是必选内容,决策树算法有多种分类,需要进行按照难易程度进行选择;最后要根据难度选择其他分类算法进行介绍。

4、结论

第2篇

关键词:数据挖掘;成绩分析;决策树算法

一、引言

成绩作为考试的结果,不仅是对学生学业和教师教学效果的检查和评定,进而激励学生学习及教师工作;更是一种信息,具有反馈于教学活动、服务于教学决策、为教育科研提供资料等作用。为充分发挥考试的效能,综合评价命题质量,及时反馈教学效果,沟通教学信息,教学部门对考试成绩进行统计分析和总结是非常必要的。

二、问题提出

我们以软件技术系软件开发专业为例进行分析。在众多专业课程中,很多科目之间是相互联系相互影响的,例如《Java初级程序设计》是《Java高级程序设计》的前置课程,《J2EE企业级应用开发》则是《Java高级程序设计》的后续课程,《网页制作―HTML、CSS》的学习效果将会影响《网页制作―JavaScript》,而这些课程之间又是相互渗透相互联系的。有时候有的教师在上一门课时会抱怨这个班的基础不好,后续课程很难上,那么究竟是什么哪些前置课程对后续课程造成了影响呢?这里我们以软件开发专业核心课程《J2EE企业级应用开发》为例,分析研究影响这门课成绩的前置课程对其的影响。

三、数据预处理

07级软件开发专业一共9个班,前4个学期一共开设23门课程,在教学管理的数据库中保存着大量属性繁多,定义复杂,冗余多,不完整的数据。我们首先要从大量的数据中筛选出适合分析的数据。

在课程的选择中,我们选取《计算机基础》、《计算机网络基础》、《计算机数学基础》、《Java程序设计基础》、《数据结构》、《数据库原理与SQL Server》、《Java高级程序设计》、《网页制作技术》以及《J2EE企业级应用开发》这几门有关联的课程进行分析。并且在分析之前把《计算机基础》、《计算机网络基础》、《计算机数学基础》这3门基础课取平均值合并成一个《计算机基础》。

这是在软件技术专业9个班400多人中随机抽样选取91个学生的记录作为样本集。

表1 采样成绩表

经统计,91个学生记录中,各门课程及格和不及格人数如表5.2所示。

表2 样本集中各门课及格不及格人数统计

四、建立模型

1. 决策树方法介绍

决策树是一个类似流程图的树型结构,其中树的每个内部结点代表对一个属性(取值)的测试,其分支就代表了测试的每个结果;而树的每个叶结点就代表一个类别,可以根据决策树的结构对数据集中的属性值进行测试,从决策树的根结点到叶结点的一条路径就形成了对相应对象的类别预测。

2. ID3算法的基本思想及原理

ID3算法是R.Quinlan于1986年提出的,其前身是CLS。CLS的工作过程为:首先找出最有判别力的因素,把数据分成多个子集,每个子集又选择最有判别力的因素进行划分,一直进行到所有子集仅包含同一类型的数据为止,最后得到一棵决策树,可以用它来对新的样例进行分类。

3. 构建决策树

成绩结果分为正例和反例两类:及格(P)和不及格(N)。

下面用ID3算法,建立决策树,对课程成绩分类。

具体计算过程如下:

首先计算J2EE课程所含有的信息量。J2EE及格人数P=81,不及格人数N=10,则可得到:

0.4493

然后计算当J2EE及格和不及格时,其他课程所包含的总信息量。经统计,其他6门课程和J2EE有如表3所示的统计数据:

计算机基础:

0.4421

从而得到计算机基础的信息增益度为:

Gain(计算机基础)=0.4493-0.4421=0.0072

同样的方式,得到其他课程的信息增益度,结果如表4所示:

表4 各门课程的信息增益度

可以看出所有课程当中JAVA高级程序设计是最能区别训练集中决定J2EE成绩与否的课程。根据各个课程的信息增益度,应该选择JAVA高级程序设计作为所建决策树的根结点。由于JAVA高级的属性值只有两个:1(及格)和0(不及格),所以在JAVA高级下可以建立两个分支。此时,将训练实例集分为二个子集,生成包含二个叶结点的决策树。如图1所示。

图1 根节点分类决策树

经统计,JAVA高级程序设计及格且J2EE也及格的人数为73,其准确率为73/79=92.4%。因此对JAVA高级程序设计及格这个分支(结点一)停止分割。经统计,JAVA高级程序设计不及格的12人中有5人J2EE及格,7人J2EE不及格,所以对高级程序设计不及格这个分支(结点二)进行再次分割。

对图1中的叶结点二进行分类。经过计算,此刻正例为4,反例为8,所以此时的熵值为:

0.9799

采用上面同样的方法计算各门课程的信息熵,得到

计算机基础:

0.9799

得到Gain(计算机基础)= 0.9799-0.9799=0.0000

同理,得到:

Gain(JAVA基础)= 0.9799-0.9371=0.0482

Gain(数据结构)= 0.9799-0.8669=0.1130

Gain(数据库)= 0.9799-0.9799=0.0000

Gain(网页设计)= 0.9799-0.9371=0.0482

选择数据结构为分裂点,将结点二分为两个子集。JAVA高级不及格且数据结构及格的人数为1人,该结点停止分割,JAVA高级不及格且数据结构不及格的11人中有4人J2EE及格,7人不及格,因此对该节点需要再次分割。

采用上述同样的方式划分,最后得到如图2所示的最终决策树。

图2最终决策树

五、结果分析

分析图2所示的决策树,我们可以得到:对于软件专业后期的核心课程《J2EE企业级应用开发》来说,《Java高级程序设计》的学习程度直接影响其学习效果,《数据结构》和《JAVA初级程序设计》也会对《J2EE企业级应用开发》的成绩带来影响,如果学生《JAVA高级程序设计》学习一般但是《数据结构》和《JAVA初级程序设计》基础较好的话,依然能够在学习《J2EE企业级应用开发》时取得好的成绩。这比较符合专业课程学习过程的实际情况。决策树得出的结果反映了实际情况,这也充分说明了数据挖掘是一个强有力的辅助决策工具。

六、结束语

回顾一下这个案例,验证数据挖掘技术解决这个问题的效果。在分析过程中,我们利用相关的数据,通过横向比较《计算机基础》、《Java程序设计基础》、《数据结构》、《数据库原理与SQL Server》、《Java高级程序设计》、《网页制作技术》以及《J2EE企业级应用开发》等课程成绩,经过数据收集、数据选择、数据清理、数据归纳、数据转换等过程,运用决策树中的ID3算法课程之间知识结构相互支撑的模型,发现专业核心课程之间的内在联系。辅助教学管理人员根据该模型对现有教学计划做出调整,对师资资源合理利用,将优质师资用在主干课程上。

参考文献:

1.李小映,数据挖掘在高职院校学校综合信息中的应用,计算技术与自动化,2006.12

2.陈松、卢继萍,教学管理系统中的数据挖掘技术的应用研究,中国教育技术装备,2007.12

3.李雪真、陈燕国 ,基于数据挖掘的高校课程设置评价方法,科技资讯,2008.8

第3篇

关键词:大数据;数据挖掘课程;教学方法;人才培养

近年来,在社会发展和科学进步的过程中,以信息技术为中心的各领域产生了丰富的数据,引起了社会各界人员的高度关注。体量大、速度快、模态多和价值密度低是大数据具有的特点,其能够促进科学和社会经济的进一步发展,对国家安全也具有重要的影响。然而从大量数据中挖掘出有价值的信息和知识是需要专业的数据挖掘人才来实现的,因此,在高校数据挖掘课程教学过程中,教师要创新教学方法,运用科学的教学理论培养学生对数据的意识,从而促进教学质量的提高和大量数据人才的培养。

一、科学引导,培养数据意识

在我国的各大高校中,数据挖掘课程是理科和工科都开设的一门课程,其专业性质较强,最初开设这门课程的主要目的是在于让学生了解数据的相关概念和挖掘数据的相关技术手段,并能够在以后的社会实践中应用到数据挖掘技术。但社会经济的发展和科学技术的进步,给数据挖掘课程带来了较大的挑战,仅仅是了解数据的相关知识和掌握浅层次的数据挖掘技术是不能适应时展需求的。因此,需要开设数据挖掘课程的高校教师在教学过程中对学生要进行科学的引导,注重培养学生的数据意识,提高学生对数据挖掘课程的积极性。

数据驱动的理论分析和应用是数据挖掘课程的重点,具体性和抽象性是其具有的两个特点。数据挖掘课程的主要研究对象是具体的数据,并从数据中挖掘出有价值的信息和知识,能够对数据进行解释和理解,这主要体现出数据挖掘课程的具体性特点;而在进行数据挖掘过程中使用的理论、方法和技术等概念,体现的是数据挖掘课程的抽象性,其在课堂学习过程中的消化和理解的难度是较大的,因为时间较短。由于种种因素对数据挖掘课程造成影响,因此在设计数据挖掘课程的教学之前,首先要做的就是让学生对数据挖掘课程感兴趣,并在发展过程中使学生的数据意识得以培养和提高。

在设计数据挖掘课程的教学过程中,可以增加讲解什么是数据、数据有什么作用、所具有的重要性等的学时,加强学生对数据的认识和重视。处在大数据的时代环境下,要让学生了解什么是“大数据”,而生活中的哪些方面存在大数据、大数据是以何种增长方式在哪些领域进行发展的大数据能够发挥作用等。教师在教学过程中可以使用多媒体教学的方法,通过实例和声像的展示,让学生了解生活中存在的数量,并清楚的掌握数据挖掘的技术方法,并从大量的数据中挖掘出有价值的信息和知识,为社会发展和企业进步提供服务,让学生了解在企业的发展过程中,数据挖掘的重要性。为了增加学生对数据挖掘课程的兴趣和重视程度,在教学过程中,教师还可以将数据分析和数据挖掘的相关招聘案例融入到教学过程中,从数据挖掘课程以往的就业率、职位性质、工资待遇及未来的职业发展前景等方面来增加学生对数据挖掘课程的兴趣,有利于在以后的学习生活中更好地掌握数据挖掘技术和应用数据知识。

二、深化基础,加强理论体系

现有的数据中心技术因大数据的特征而很难满足数据分析的需求,去噪降维技术、数据储存、数据整合、数据特征表示、数据通信传输和处理,以及非结构化和半结构化处理等方面是其主要表现。基于此,数据挖掘技术面临的局势较为严峻,并且数据挖掘课程是一门综合性较强的学科,涉及的内容较为广泛、复杂,主要包括数据库技术、统计学知识、机器设备知识、信息检索技术和智能计算等学科内容。然而现阶段的高校在教学设计过程中难以在有限的时间里将这些学科全部开设,即使是将这些学科全部开设了,每个学科的课时就会较少,不利于各学科的深入学习,从而对数据挖掘技术的掌握造成不同程度的阻碍。为了解决这个问题,在高校进行教学设计的过程中,可以把大三或大四的学生作为数据挖掘课程的主要教学对象,因为这部分学生对自己的职业生涯有清晰的认识,并且在大一、大二的学习过程中有一定的知识基础。在大一学年和大二学年开设高等数学、统计学、算法分析、智能计算、数据库原理和计算机系统原理等学科,为数据挖掘课程的学习做好基础性的工作。在教学过程中,教师也可以向学生推荐数据挖掘课程相关的数据,最好的专业领域较为著名的案例,有利于鼓励学生学习数据挖掘课程的自信心。外语水平也是数据挖掘课程对学生的一个要求,因为只有掌握了高水平的外语,才能够了解国外的数据挖掘技术的发展水平,全面的掌握国内外的数据挖掘发展情况。所以在设计高校数据挖掘课程的教学过程中,要推进基础知识的深化以及理论体系的完善,为日后的数据挖掘课程的学习奠定知识基础。

三、联系实际,创新教学方法

实践是理论来源的基础,对于理论的检验,实践是最有效的途径。由于数据挖掘技术具有强烈的抽象性,以至于学生对大数据的认识较为模糊,让学生了解数据挖掘课程的内容和在实际生活中的应用所采取的方式就是教师的教学方法。案列教学法是教学过程中最好的教学方法,有利于学生对数据挖掘知识的了解和掌握,还有利于学生掌握良好的数据挖掘技术方法。通过案例教学法,让学生了解数据挖掘在生活中的重要作用,在处理大数据时具有很大的作用。

教师在积极转变教学内容和教学方法的同时,学生也应该积极探索提高学习质量的方法,在课堂教学过程中,虽然教师起主导作用,但是课堂的主体仍然是学生。对于教学内容,学生应该主动接受,与被动接受相比,会获得较好的学习效果,因此要让学生欣然地接受教师教学过程中的新内容和新方法。此外,在上机实验课程的教学过程中,对于案例中的具体案例需要学生亲自来演算,而教师在这个过程中主要是引导和指导,启发学生对深层次内容的创新思考。还可以在每次采集和试验案例之后,要求学生提交相应的分析研究报告,这样一来,学生对于大数据挖掘课程的接受程度能够被教师很好地掌握,从而完善教师的教学方法,提高教学质量。

四、增强兴趣,深入科学研究

数据挖掘在大数据下面临着巨大的挑战,数据挖掘学科是一门综合性的学科,其中涉及的其他学科较多,所以学习难度和教学难度较大。因此在教学过程中要充分发挥教师的主导作用,引导学生对数据挖掘课程的深入学习。例如,让学生间隔性地去了解大数据环境下数据挖掘技术解决了什么问题,甚至让他们调查如今各大型招聘网中有关大数据分析和数据挖掘等职位的情况,进而增强学生对数据挖掘的兴趣。此外,对于年级较高的学生来说,深造是其主要选择的方式,也可以通过出国或是考研等渠道进行知识资源的深入学习,从而掌握更多的知识,提升自身的综合素养。对于这样的学生,教师应该通过鼓励的方式使其选择研究数据挖掘方向的科学,为了充分有效地提高这部分学生的研究水平,教师可以给学生布置一些具体的课题任务,课题任务的研究内容一定要保证精细程度,甚至可以精细到数据挖掘过程中使用的一个方法的研究,这有利于学生深刻认识课题任务重要性的培养,同时还有利于学生较为准确地把握问题研究的方法和内容。提高学生对新型研究技术和研究方法的掌握,可以增加学生的经典文献的阅读量,在这个过程中,学生的创新性思维得到了有效培养,教师还要采取有效的措施引导学生进行学术性的创作研究。在实际的教学过程中,将科学研究引入到其中,有利于促进学生对新知识的理解和吸收,还能够使学生解决问题的能力得到有效提升,为学生研究大数据的挖掘提供有利保证,并且打下一个坚实的基础。

五、结语

在大数据环境下,数据挖掘课程是各大高校急需开设的一门课程,教师在教学过程中,要使用创新的教学方法,让学生真正地了解到数据挖掘技术对社会进步和企业发展的重大作用。教师还要结合教学经验,重点从培养学生的数据意识、加强理论体系、创新教学方法和深入科学研究等方面进行数据挖掘课程教学设计,为提高大数据环境下挖掘课程的教学质量提供参考依据。

参考文献:

[1]刘建伟.数据挖掘课程设计的教学探索[J].科技信息,2013,(23).

[2]黄美丽.“数据仓库与数据挖掘”研讨型教学实践探析[J].计算机时代,2012,(12).

[3]周森鑫,盛鹏飞,王夫芹.数据挖掘课程案例教学研究[J].计算机技术与发展,2012,(11).

第4篇

近年来,数据挖掘与商务智能技术发展迅速,充分借鉴国外相关研究,尤其是ACMSIGKDD课程委员会对数据挖据课程建设建议,对进行数据挖掘类课程的教学建设研究有重要意义。ACM(美国计算机协会)于1998年成立了SIGKDD(知识发现兴趣小组),致力于知识发现与数据挖掘的相关研究,ACMSIGKDD课程委员会连续多年多次更新其主要课程———数据挖据课程的建议,其中委员会将数据挖掘课程分为基础部分与高级主题,基础部分覆盖了数据挖掘的基本方法,高级主题既有数据挖掘基本方法的深入研究,又有更高级算法的介绍。国外很多大学的计算机科学学院、商学院都开设了数据挖掘类课程并同时进行相关研究。波士顿大学开设了“数据管理与商务智能”课程,课程主要包括基础、核心技术、应用三部分。许多国外著名大学建立了教学管理系统,提供大量的案例、在线讨论和在线辅导功能。国内很多学校都开设了数据挖掘的相关课程,我国大多数高校的课程大纲内容与国外大致相同,只是在实践部分选用了不同的商务案例。数据挖掘的应用领域广泛,因此可以根据开课学院和专业选择合适的实例。

二、根据信息管理专业本科生培养要求确定课程目标

数据挖掘课程是一门综合性很强的前沿学科,对计算机软硬件、数据库、人工智能技术、统计学算法、优化算法等基础知识都有较高的要求。因此该门课程开设在学生大三下学期,既有相关知识的基础,又为大四做毕业设计提供了一种思路。信息管理专业是计算机与管理相结合的专业,旨在培养具备信息系统开发能力与信息资源分析与处理能力的综合应用型人才。对信息管理专业的学生而言,本课程主要的目标是数据挖掘算法原理理解、数据挖掘算法在商务管理问题中的应用以及常用数据仓库与数据挖掘软件的熟练应用和二次开发。

三、基于模块化方法的课程内容分析

模块化教学模式是按照程序模块化的构想和原则来设计教学内容的一整套教学体系,它是在既定的培养目标指导下,将全部教学内容按照一定标准或规则进行分解,使其成为多个相对独立的教学模块,且各教学模块之间可以按照一定的规则有选择性的重新组合。学生可以根据个人兴趣和职业取向在不同模块之间进行选择和搭配,从而实现不同的教学目标和人才培养要求。模块化教学本质上是以知识点与实践的细化为出发点研究的。商务智能方法本身非常丰富,实践应用也是课程的主要特点之一,因此十分适合使用模块化的知识分解方式。本课程的知识点模块管理分为两个层次,一是从宏观角度设计课程的基础内容模块和高级主题模块;二是从微观角度针对较为复杂的教学内容进行的知识点划分。

1.课程主要内容模块化分析。目前该课程包括十章理论内容,分别为数据仓库与数据挖掘的基本知识、数据仓库的OLAP技术、数据预处理、数据挖掘系统的结构、概念描述:特征化与比较、挖掘大型数据库中的关联规则、分类与预测、聚类分析、复杂类型数据挖掘和序列模式挖掘。根据模块化管理的宏观角度分类,课程内容的第一至五章属于基础理论部分和简单数据挖掘技术的介绍,可以作为基础内容模块;第六至八章为数据挖掘的核心算法,其中既有基础理论与技术方法,又可深入到较难的方法和复杂的应用,因此介于基础内容与高级主题之间;第九、十章可以算做课程的高级主题模块;另外,课程的实践模块既包含数据仓库的建设又包含数据挖掘算法的应用,难度也介于基础内容与高级主题之间。

2.复杂知识点的模块化管理。从微观角度对知识点进行设计主要针对的是上述的高级主题、以及难度介于基础内容与高级主题之间的章节,由于这些章节知识点在难度上有一定层次,讲授内容弹性比较大,因此需要在课程设计中明确一定课时量所要达到的难度。以商务智能技术中的分类算法为例:首先一般的入门课程都会介绍分类算法的概念和基本原理;接着开始介绍分类算法的基础算法———决策树,而决策树算法中又包含ID3等多种算法,并且除了决策树外,还有其他更高级的分类算法;在真正使用分类法进行预测时,还要分析预测准确度;最终要将所学知识加以应用。这样就形成了一个结构清晰、难度循序渐进的知识点模块的层次关系。在宏观角度、微观角度对教学内容进行分类的前提下进行相应的授课方法与考查方法的研究,才能真正有助于学生的学习。

四、授课与考核方法设计

对不同层次学生要求不同,这种不同既体现在知识点的要求上,又直接体现在任务的难易性程度上,这都需要教师在课程设计时充分考虑不同要求情况下的不同的授课方式,并使学生清楚自己需要掌握的程度。对于高级算法和实现部分,通常可以选择一到两章内容采用专题探讨式的教学方法。这种方法是指在教师启发和引导下,以学生为主体,选择某个基本教学单元为专题,学生自主研究作为知识传递的基本形式,将多种灵活的教学方式综合运用到教学环节的教学方法。根据信管专业培养方案的培养目标、以及对学生调研的情况,实践环节比较适合选择成熟的商务智能工具进行数据的整合和多维数据建模,也就是直接使用现成的;或者使用数据挖掘软件进行数据建模,完善数据挖掘算法。可以针对学生管理基础课与IT基础课知识的掌握情况,选择合适的工具为学生设计综合性实验。实验中给出部分操作步骤,并在实验后期仅给出数据与工具,让学生自己设计数据仓库、进行数据挖掘、并对挖掘结果进行多种形式的展示。

五、结论

第5篇

课程相关性分析数据挖掘相关分析典型相关分析关联规则一、引言

课程是实现教学内容传递的集中体现,是学校教育的目的性、计划性和组织性的集中体现。课程设置规定着课程类型、课程性质、课程排序和学时分配,还规定各类各科课程的学习目标、学习内容和学习要求等,其合理与否将直接影响到所培养人才的质量,关系到学生知识面的宽度、深度、动手实践和研究能力的高低,同时也已经成为了影响大学生就业的主要因素之一。因此,课程结构和课程内容的合理设置尤为重要。

课程相关性分析可定量描述课程之间的相关性,可根据相关系数值的大小确定课程间关系的紧密程度,然后从顺序性、整体性、关联性和连续性四个方面为优化课程设置提供参考信息,优化课程结构和课程内容。近年来,国内外教育工作研究人员开展了大量的课程相关性方面的研究,国内外多所著名高校已将课程相关性研究成果作为课程设置的基本依据。

目前课程相关性分析研究所采用的方法均基于数据分析,其方法主要包括传统数据分析法和数据挖掘分析法两种,而两者又有着本质的区别。在探索数据关系时,传统的分析方法一般是基于验证的方法,即用户首先对数据之间的关系做出一定的假设,然后通过数据分析来验证假设是否正确来得出相应结论,其分析过程是基于假设驱动的演绎型分析;数据挖掘不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型,数据挖掘在本质上是一个完全基于发现驱动的归纳型分析过程。

本文对课程相关性分析中的数据挖掘过程及基于数据挖掘技术的课程相关分析方法进行介绍,以期为我国高校课程的优化设置研究提供理论指导和方法借鉴。

二、数据挖掘技术

数据挖掘(Data Mining,DM)又称数据库中的知识发现,是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,通过使用成熟的数据挖掘模型,提取出隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识,得到数据中反映出来的数据内在的关系,从而进一步应用到具体的数据分析研究中去。数据挖掘得到的信息具有先前未知、有效和实用三个特征。

目前,数据挖掘技术的已被应用于关联分析(Association Analysis)、概念/类别描述(Concept/Class Description)、分类与估值(Classification and Estimation)、聚类分析(Clustering Analysis)、时间序列分析(Time-Series Analysis)、偏差分析(Deviation Analysis)、孤立点分析(Outlier Analysis)等方面,随着数据挖掘技术的发展,可能还会继续出现新的数据挖掘功能。课程相关性分析为其关联分析功能中的一部分,所采用的分析方法主要有相关分析法、典型相关分析法和关联规则分析法等。

数据挖掘分析过程各步骤之间互相影响、反复调整,形成一种螺旋式上升过程,具体分析流程见图1所示。目前已建立的数据挖掘模型有CRISP-DM模型(Cross Industry Standard Process for Data Mining)、ODDM模型(OLE DB for Data Mining)、Oracle9i数据挖掘模型等多种,对于课程相关性分析来说,具有直观、简单和可靠等特点的CRISP-DM模型最为适用,其模型见图2所示。

三、基于数据挖掘的课程相关性分析方法

基于数据挖掘的课程相关性分析方法主要有相关分析法、典型相关分析法和关联规则分析法,三种方法各具优缺点,互不可取代。

1.相关分析法

相关分析法又称单因子相关分析法,主要用于研究两个变量因子间的相关关系。作为教育信息多元统计分析方法的一种,相关分析法主要用于测定现象之间相关关系的规律性,据此进行预测和控制。将其用于课程相关性的探讨研究,可直接量化两门课程间的相关性,分析过程简单、快捷,显示方式直观,数据可信度高。

相关分析法在课程相关性分析研究中应用,主要有以下几个步骤:

第6篇

关键词:数据挖掘原理与算法;实例;教学探索

0.引言

随着经济、科技和信息技术的飞速发展,特别是网络技术的发展,数据的产生和存储能力有了很大程度的提高。数据挖掘的出现,为人们提供了一条解决“数据丰富而知识贫乏”困境的有效途径Ⅲ。所以很多高校,包括世界上一些著名高校都开设了数据挖掘课程。课程的基础理论部分一般包括数据预处理、关联规则、分类、聚类、时间序列挖掘、Web挖掘等内容。该课程使学生学会分析研究数据挖掘中数据预处理、常用算法、结果的可视化等技术,并培养学生的数据抽象能力,帮助学生形成科学思维和专业素养,使他们毕业后在就业上有更多的选择。

笔者将探讨基于实例教学的数据挖掘课程的教学内容安排,强调淡化学科背景,加强算法的应用性训练,将实际的例子贯穿于教学中,并重新组织授课内容、安排实践环节,教会学生学以致用。

1.教学现状分析

1.1课程本质

数据挖掘原理与算法涉及的学科领域很宽泛。其最终目的是在数据中挖掘出可供人们利用的知识和信息,因此数据挖掘技术要从数据库技术、统计学、机器学习、神经网络、知识系统、信息检索、高性能计算和可视化等领域汲取营养。另外,每个学科都在进行着日新月异的发展变化,数据挖掘技术遇到的挑战也为相关学科领域的深入研究提供了新的契机。由于课程难度较大,很多高校把这门课程作为研究生的专业课程,也有院校将此课作为本科生高年级选修课开设脚。但是本科生开设这门课程的普通院校较少,我们能借鉴的教学经验有限。

1.2数据挖掘课程教学环节的弊端

①某些学校对本科生开设的数据挖掘课程,其教学过程对理论的探讨过多,与应用存在距离,没有体现出这门课程面向应用的特质,缺少对学生工程能力的训练,存在学生在学了这门课程后不知道能干什么的现象。

②教学形式呆板单一。传统的教师讲、学生听的教学模式,很难引起学生的探究兴趣,不利于发挥他们自身的能动性和创新动机。

2.选择恰当实例贯穿数据挖掘课程的教学过程

烟台大学计算机学院所开设的数据挖掘课程在教学上安排了6章内容,涉及3个实例(其中两个是实际生活中的项目课题):第1个是用于房产信息调查的房产客户关系管理系统;第2个是用于烟台大学督评中心评教文本分类的中文文本数据挖掘系统;第3个是用于国家葡萄酒检测中心的数据分析的葡萄酒成分数据挖掘系统。

2.1房产客户关系管理系统

在讲述房产客户关系管理系统时内容涵盖绪论、知识发现过程和关联规则3章,重点讲授内容包括:

(1)数据仓库。住房管理数据仓库中的数据是按主题组织的,可从历史观点提供信息。数据挖掘技术能按知识工程的方法完成高层次需求,可以发现蕴藏在数据内部的知识模式。挖掘后形成的知识表示模式可为企业决策提供支持。

(2)通过对客户信息进行分析,阐述关联规则的参数:support、confidence、expected confidence,并简单介绍关联规则中的多维、多层次等拓展知识。

(3)关联规则挖掘。①讲授关联规则挖掘的Apriori算法;②讲述布尔关联规则的概念,对处理后形成的交易数据库进行布尔关联规则挖掘,将问题转化为寻找以决策属性为结果的规则;③将关联规则挖掘应用于客户关系管理的最终目的是努力将潜在客户转变为现实客户,将满意客户转变为忠诚的终生客户,提高客户满意程度,降低市场销售及宣传成本,增加利润率。

(4)设minsup=10%,minconf=70%。在统计的各类人群中猎取咨询的渠道主要是杂志、报纸、互联网和电视。经试验统计后得到以下有关知识:①满足age>50 AND职业=“工人”的客户占所统计总人数的9.7%;其中满足age>50 AND职业=“工人”AND渠道=“TV”的客户占92%。②符合学历=“大专”AND职业=“工人”的客户占所统计总人数的24.8%,其中满足学历=“大专”AND职业=“工人”AND渠道=“newspaper”的客户占82%。③被统计人群中满足income=“5000-9000”AND职业=“教师、医生、公务员”的客户占所统计总人数的32.7%;其中满足income=“4000-6000”AND职业=“教师、医生、公务员”AND渠道=“杂志”的客户占83%。④被统计人群中满足学历=“本科”AND income≥“10000”的客户占所统计总人数的占11.6%;其中符合学历=“本科”ANDincome≥“8000”AND职业=“公司经理”AND渠道=“杂志”的客户占86.5%。

(5)教师要分析Apriori算法的瓶颈和改进,介绍Close算法和FP-树算法,并且要求学生们掌握这3种经典算法。

2.2中文文本数据挖掘系统

中文文本数据挖掘系统围绕评教分类模型的建立讲述特征选择和主要分类算法。根据烟台大学教学督评中心提供的学生对教师的中文评教文本,利用分类的方法找出其评价的倾向性,结合教材,重点讲授了以下内容:

1)特征选择。

①介绍有监督、无监督和半监督的特征选择方法。②介绍使用分词软件后,统计词频,去掉小于阈值的低频词。③对比词频率、IG值(信息增益)、期望值差异对分类结果的影响留取特征词。

部分数据示例如下:用特征选择的方法对重要的属性进行抽取,略去对分类影响不大的属性,达到降维的目的,把特征选择作为预处理。我们选用517条主观评价作为训练样本,其中233条留言是一般评价,采用以下3种方式进行特征选择:词频率、IG值(信息增益)、期望值差异。不同方式特征选择对分类准确性的影响如表1所示。

2)分类。

在介绍常用的分类基础知识和决策树、ID3、朴素贝叶斯分类、最近邻分类算法之后,又介绍了基于潜在语义分析的降维技术,讲授了支持向量机(SVM)适用于文本分类的原因。布置给学生的任务是用爬虫获取网评,作倾向性分析。

评教文本分类统计后的结论是:将降维技术和支持向量机算法结合在评教模型的建立过程中,研究讨论的主要内容有:①各个指标取不同值对分类的影响,这些指标主要集中在特征抽取和选择、保留词性和降维维数等几方面;②对分词后的文本进行特征选择,筛去了词频数小于4的文本;③降维至30维,并适当设置SVM中的可变参数,找到合适的训练一测试样本的比例,最后综合出一个现有条件下的最佳分类模型。

2.3葡萄酒成份数据挖掘系统

葡萄酒成份数据挖掘系统介绍数值数据的预处理和聚类2章内容。对葡萄酒成份的分析是根据所提供的酒中各成份的含量数据,采用聚类或分类的方法确定某种葡萄酒的种类,比如是红葡萄酒、白葡萄酒还是甜葡萄酒。围绕这个问题我们介绍了如下内容:

1)数值数据的预处理。

①介绍葡萄酒中各个属性的含义和取值范围;②讲授数据的离散化技术,如等深、等宽、聚类技术;③讲授本例中使用的m一估值计算对数值属,1生的离散化技术;④讲述本例中如何避免0值出现及去噪声技术。

葡萄酒中各成份的含量数据如表2所示。

2)聚类。

在介绍聚类的基本知识和常用算法(如k均值、k中心点、DBSCAN技术)之后,讲解了:①本课题使用的层次聚类算法。在测试结果时通过测试样本和分类样本的不同比例,对结果进行了对比。②讲述了用朴素贝叶斯分类计数对这一问题的分类处理,同时对比了聚类和分类算法在同一问题上的结论差异。利用朴素的贝叶斯分类器可以完成预测目标,根据训练样本建立分类器,对待测样本进行预测,准确率可达到90%以上。③引导学生思考对问题的处理可以联合使用各种算法,并分析各种算法对结果的影响,从而找出解决问题的最佳方案。

2.4利用已知算法和实例讲授Web挖掘技术

因特网规模庞大、结构复杂、动态变化性大,蕴含大量的信息。将Web上丰富的信息转变成有用的知识正是Web挖掘的意义所在。用之前中文文本分类的方法引导学生在一些购物网站中下载对商品评论的中文文本,抽取特征词,进行倾向性分析,使学生熟悉支持向量机的分类方法,分词软件的使用及文本挖掘的整个过程。

3.结语

文章在前期制定应用型本科生数据挖掘课程教学大纲的基础上,针对数据挖掘课程内容多学科交叉的特点,在教学中提出淡化学科背景,注重算法应用与实践,以客户关系管理、葡萄酒数据分析、中文评教文本分类等实例作为授课内容主线,让实例教学始终围绕着典型的算法和前沿知识展开的教学方式。在今后的教学工作中,我们还应该不断站在学科发展的前列,经常更新实例,使其更好地融入教学,将教与学有机统一,取得更好的教学效果。因此我们还有大量的工作需要探索研究。

参考文献:

[1]宋成,李晋宏,项目驱动的数据挖掘教学模式探讨[J],中国电力教育,2011(27):116-177.

[2]刘云霞,统计学专业本科生开设“数据挖掘”课程的探讨[J],吉林工程技术师范学院学报,2010(6),20-22.

[3]徐金宝,对应用型本科生开设数据挖掘课程的尝试[J],计算机教育,2007(7):27-29.

[4]高园园,吕庆文,数据挖掘课程的教学思考[J],医学信息,2009,22(11):23-24.

第7篇

(武汉科技大学城市学院信息工程学部 湖北 武汉 430083)

摘 要:数据仓库与数据挖掘是大数据时代产生的一门新兴交叉的课程。针对该课程的特点,将CDIO工程教学理念融合到教学过程,重新设置了教学目标与大纲、调整了教学内容、改进了教学方法,总结了数据挖掘课程教学实践的一般流程并给出具体的实验教学设计方案。

关键词 :教学改革;数据仓库;数据挖掘;CDIO

中图分类号:G642 文献标识码:A doi:10.3969/j.issn.1665-2272.2015.09.040

收稿日期:2015-03-15

1 CDIO简介

CDIO工程教育模式是基于项目的学习的一种模式。CDIO中,C(Conceive)构思,根据工程实践,让学生掌握专业知识的基本原理,确定未来发展方向;D(Design)设计,以产品设计与规划为核心,解决具体问题;I(Implement)执行,以制造为核心,组织一体化的课程实践,其中包括学生必须掌握的理论知识与实践能力;O(Operate)运作,即产品应用的各个环节。它以产品的研发到运行的生命周期为载体,通过系统的产品设计让学生以主动的、实践的、课程有机联系的方式学习。CDIO代表工程项目生命全周期,是产业转型升级对创新人才需求的形势。

CDIO培养大纲将工程毕业生的能力分为技术知识与推理、个人专业能力和素质、团队合作与沟通能力、在企业和社会环境下CDIO系统四个层面,大纲要求以综合的培养方式达到这四个层面的预定目标。其精髓在于:以工程项目设计为导向、工程能力培养为目标的工程教育模式。

2 “数据仓库与数据挖掘”课程概况

当今的大数据时代,人们处理数据的能力大大增强,快速增长的海量数据已经远远超出人们的理解能力,因此数据仓库与数据挖掘技术得到了广泛关注,有效地挖掘和运用海量数据,获得有价值的知识和信息,从而帮助人们制定正确的决策。很多高校为工程类专业本科生开设这门专业课,研究如何将信息处理技术运用于企业管理决策的具体实际。

本工程课程涉及到数据仓库的设计与构建技术、联机分析处理OLAP技术、分类与预测、聚类、关联规则算法、数据挖掘应用综合项目技术等多方面的知识和技能。通过课程的学习,不仅要求学生掌握在数据仓库与数据挖掘方面的知识,还要求培养学生的工程CDIO能力。

但是目前许多高校在工程教育采用的教学方式存在以下问题:培养目标不清楚,学术化倾向严重;人才培养模式单一,缺乏多样性和适应性;工程性缺失和实践环节薄弱;课程体系与产业结构调整不适应等。在教学过程中,强调教师的主导作用,却忽视了学生的主体作用,忽视了学生的工程意识、工程素质和工程实践能力的培养。这与高校培养创新性应用型人才的目标相悖。因此,改革势在必行。

3 “数据仓库与数据挖掘”课程改革实践

3.1 基于CDIO理念的教学目标与大纲

CDIO教育理念所提倡的工程毕业生的能力分为技术知识与推理、个人专业能力和素质、团队合作与沟通能力、在企业和社会环境下CDIO系统四个层面,四个层面上进行综合培养的教学模式。在CDIO能力培养目标方面,课程在四个能力层面上建立培养目标。

针对“数据仓库与数据挖掘概述”内容,知识点是数据仓库的含义与特征、数据挖掘的任务、多维数据模型。讲授数据仓库的概念、特点、构成以及数据挖掘和数据处理的基本知识,使学生有一个初步的理解。培养学生技术知识与推理能力。

针对“联机分析处理OLAP”内容,知识点是数据仓库的数据组织、数据预处理、数据存储、基于多维数据模型的数据分析。本阶段如果不结合直观的举例讲解,学生就失去了兴趣,因此笔者要布置一些思考题,教会学生自主学习,自己查阅教材、网络等资源资料,从中提炼出结论。培养个人分析问题、解决问题的能力、所学知识的灵活应用能力;

针对“分类与预测、聚类、关联规则”内容,知识点是数据采集、关联规则算法的设计、结果分析。在这个阶段经常会是“数据的堆砌”,讲了很广泛的算法知识却没有足够的时间进行深入理解。因此应抓住关键的概念、能力,引导学生提出问题,并学会调查研究,为学生提供深层学习的机会,并把在第一层面所学的知识运用到对问题的解决之中去。这样,学习的焦点就从“覆盖”的方式过渡到以学生为中心的学习方式。培养数据获取能力、程序设计能力、问题表达能力;

针对“数据挖掘应用综合项目”内容,知识点是项目的准备、进度管理、文档管理和项目设计和实现。实际工作牵涉到企业或者组织的各个部门多类人员,所有团队成员之间协同、合作,会有分工、沟通、协调,甚至会有妥协,这就要求在运用实例的过程中一定要具有团队合作精神。培养工程系统能力和人际团队能力。

3.2 改革教学内容

在教学内容中安排了两级项目:多种初级项目和一个高级项目。初级项目是将课程内容分成各种项目,数据主要来源于SQL Server 2008的示例数据仓库Adventure Works DW,以项目实现促进理论学习;高级项目是综合性项目:“卷烟产品销售规律挖掘”,利用卷烟产品历史销售数据中蕴含的信息,采用数据挖掘技术对各个卷烟品种销售的关联关系进行分析并预测,以制定更加合理的卷烟产品营销策略。具体项目设置如下:

项目一:基于SQL Server 2008的数据仓库数据库及多维数据模型设计。步骤如下:分析组织的业务状况及数据源结构组织需求调研,收集分析需求采用信息包图法设计数据仓库的概念模型利用星型图设计逻辑模型物理模型设计构建多维数据模型。本项目旨在个人能力的培养(分析问题、解决问题的能力、所学知识的灵活运用能力等)。

项目二:关联规则挖掘。使用商业智能开发工具进行购物篮分析,以达到重新设计网站功能,提高产品的零售量。

项目三:潜在客户分析即分类及预测。使用商业智能开发工具分析购买自行车的潜在客户。

项目四:K-Means聚类分析。使用商业智能开发工具分析客户购买自行车情况分析。

项目五:贝叶斯网络应用。使用商业智能开发工具解决一个简单的预测和诊断问题。

项目二至五旨在培养学生个人能力(数据获取能力、程序设计能力等)和人际团队能力(问题表达能力、人际交流能力),倡导学生乐于探究、勤于动手。

高级项目:数据挖掘应用综合项目“卷烟产品销售规律挖掘”。将一个相对独立的项目交由学生自己处理,从信息的收集,方案的设计,到项目实施及最终评价,都由学生自己负责,学生通过该项目的进行,了解并把握整个过程及每一个环节中的基本要求。通过综合项目,学生完成了CDIO的四个阶段,提升CDIO所提倡的四大能力,具体体现如表1所示。

3.3 改革教学方法

在课程教学方法是项目教学法为主,任务驱动法和案例教学法为辅的教学模式,起到很好的教学效果。

4 结语

CDIO工程教育模式由麻省理工学院和瑞典皇家工程学院提出,包括构思、设计、实现和运作四个环节,是国际流行的工程人才培养理念,强调对学生创新思维、实践能力和团队协作精神的培养。本文体现了CDIO理念的能力培养要求,将数据仓库设计开发方法和数据挖掘技术融入具有较强工程背景与应用价值的项目设计与开发中,理论与实践紧密结合,推动课程建设和课程教学改革。

参考文献

1 顾佩华,沈民奋,陆小华译.重新认识工程教育—国际CDIO培养模式与方法[M].北京:高等教育出版社,2009

2 郭长虹. 重构CDIO特色的工程图学课程体系[J].图文学报,2013(3)

3 王丽丽. CDIO视角下项目驱动法在“数据仓库与数据挖掘”教学中的应用[J].电子商务,2013(9)

第8篇

关键词:数据挖掘技术;应用型本科;理论教学;实验教学

中图分类号:G642 文献标识码:A 文章编号:1009-3044(2016)22-0148-02

1 引言

数据挖掘总是让人觉得就是“高大上”、“深不可测”,而该领域当前主要是博士生、硕士生所研究的,另外,也只在一些研究生或重点大学的高年级的本科生中开设数据挖掘课程,在应用型本科院校中很少开设 [1]。

数据挖掘技术应用很广,应用较好的领域、行业有:金融保险业、电信、市场营销分析、医学、体育、生物信息学(Bioinformatics)等方面[2]。在商业领域中,主要应用如:客户细分、客户获得、公司风险管理、企业危机管理、欺诈行为检测和异常模式的发现等;在计算机领域中,主要应用如:信息安全(入侵检测,垃圾邮件的过滤)、互联网信息挖掘、自动问答系统、网络游戏(网络游戏外挂检测、免费用户到付费用户的转化)等[3]。这一技术的广泛应用,必然在相关的企业中迫切需求掌握这一技术的人才。所以,开设数据挖掘技术课程对于应用型本科来说是很有必要的。

但对于应用型本科来说,若是像重点本科院校或研究生课程那样,在教学中以研究型为主,会导致学生的培养要求与教学内容的深度和广度不适应,学生会感觉到学习得很吃力,而且他们今后工作中的需求与所学到的知识相差也较大。对于应用型本科的数据挖掘技术课程的内容的安排,不仅要反映出数据挖掘技术的特点及前沿,还应该结合学生的学习能力及兴趣,也还需要综合考虑本校该课程的学时分配、教学条件等,要具针对性,突出应用这一重点,目的是使学生能够“学以致用”。

本文从应用型本科的实际出发,讨论了数据挖掘课程的理论教学内容及方法、实验教学内容及方法,使学生能够掌握和应用所学的知识。

2 先导课程及课程的基本要求

先导课程有:程序设计语言、数据结构、数据库技术、Web技术、概率论等[4]。必须深入学习一门程序设计语言,从计算机发展和应用角度,推荐学习C/C++和Java;对于“数据结构”课程,掌握树的知识,数据挖掘中的很多算法都涉及树的应用;对于“数据库技术”课程,掌握数据库操作和应用,因为数据挖掘的主要对象是数据库中的数据;对于“Web技术”,因为Web已经存在于我们生活方方面面,对于Web挖掘相当重要,而且还具有巨大的应用价值;对于“概率统计”课程,要能够熟练掌握其中的思维方式、条件概率以及各种分布,在数据挖掘中的关联规则、分类预测等,都会涉及概率统计中的思维和方法。

课程的基本要求:①了解数据挖掘的重要性,了解国内外的发展的状况及未来发展的方向;②掌握数据挖掘中的一些基本概念、经典算法及相关技术;③对于实际应用问题,能熟练地运用数据挖掘技术及工具解决;④为以后进一步深造或进行高级应用开发打下基础。[5,6]

3 理论教学及方法

对于应用型本科生数据挖掘技术课程的教学,本人认为重要的是普及经典算法,若有多余时间,可以补充一些较难的算法。对于经典算法原理的讲解,采取的是一步步地对小数据集案例进行算法演练,以具体化比较抽象的算法,对于算法的优缺点,采取课堂讨论的方式,可以加深学生对算法的理解和吸收。本校的数据挖掘技术课程的理论教学是32个学时,课程的理论教学内容主要包括:

(1)绪论(4学时):①先举几个数据挖掘中有意思的例子。第一个:超市货架的组织―“啤酒与尿布”;第二个:基于拐点变化的股票趋势预测;第三个:网上购物―“定向营销”;第四个:农夫山泉用大数据卖矿泉水;第五个:阿迪达斯的“黄金罗盘”;第六个:网易的“花田”―定制爱情。通过例子让学生对数据挖掘有一个大致的认识,可以提起学生对学习本课程的兴趣,也让学生了解到目前的数据挖掘已经发展到何种程度。②讲解KDD与数据挖掘相关概念。③数据挖掘对象:关系数据库、数据仓库、事务数据库、空间数据库、时态和时间序列数据库、文本数据、万维网数据、流数据等等。④数据挖掘的方法与相关领域:分类预测型和描述型,通过例子简单介绍聚类、关联规则、分类算法的概念、应用领域等,使学生对要学习的算法有大致的认识。⑤数据挖掘软件与应用系统:介绍数据挖掘软件:IBM Intelligent Miner、SPSS Clementine、Microsoft SQL Server 2008 Data Mining、Weka;数据挖掘应用系统:介绍在商业领域和计算机领域的应用。

(2)数据预处理(2学时):先对数据进行概述,包括:数据集的三个特性:维度、稀疏性和分辨率,它们对数据挖掘技术具有重要影响;数据挖掘中一些很常见的数据集的类型:记录数据、基于图形的数据和有序的数据。然后分别详细介绍数据预处理的主要任务:①数据清理;②数据集成;③数据变换;④数据归约;⑤数据概念分层与离散化。每一项任务举例讲解。

(3)关联规则(6学时):主要介绍关联规则的相关概念、关联规则的经典算法Apriori及它的改进算法FP_Tree、规则的产生,简单介绍多级关联规则和多维关联规则、非二元属性的关联规则、关联规则的评估(提升度(lift) /兴趣因子的计算)等。

(4)聚类(6学时):主要介绍聚类的概念及距离的计算(欧氏距离、曼哈顿距离、明可夫斯基距离)、基于划分的聚类算法(基本K-means聚类算法及其拓展、PAM算法)、层次聚类算法(凝聚的层次聚类算法AGNES、分裂的层次聚类算法DIANA)、基于密度的聚类算法(DBSCAN);简单介绍层次聚类方法的改进―BIRCH算法、CURE算法以及聚类算法评价。

(5)分类和预测(10学时):①决策树(4学时):主要讲解决策树的概念、信息论、ID3算法和C4.5算法。②贝叶斯分类(2学时):主要讲解贝叶斯定理及朴素贝叶斯分类算法。③人工神经网络(4学时):主要介绍人工神经网络的概念及单感知器模型,简单介绍BP神经网络。

(6)数据挖掘模型的评估(2学时):简单介绍模型的过拟合、没有天生优越的分类器、模型选择和模型评估、评估分类器或预测器的准确率――简单划分和交叉验证、数据挖掘模型评估的错误观念。

对于9个需主要介绍的经典算法的讲解,如Apriori算法,先介绍算法的流程,然后通过超市购物篮的一个小数据集一步步地进行算法的演练,得出频繁项集,如下图所示:

又如决策树算法和朴素贝叶斯分类算法,通过如下所示的关于动物的数据集,一步步地进行相关算法的演练,通过建立决策树或计算概率问题,判断一个未知的动物X={1,0,0,1,?}是否会生蛋。

对于算法的优缺点,在讲解完算法的过程之后,采取课堂讨论的方式,与学生共同分析总结算法好在哪里,不足又在哪里,学生通过参与,可以加深对算法的理解与掌握。

4 实验教学及方法

对于应用型本科的学生来说,采用Weka进行算法编写是不切实际的,实验教学工具建议采用目前一些主流的数据挖掘软件,如 SPSS Clementine或 Microsoft SQL Server 2008 Data Mining等[7]。这些软件都具有必需的数据预处理工具及预设的挖掘算法,学生可以把注意力放在要挖掘的数据及要相关需求上,设定挖掘的主题,然后采用这些软件完成相关主题的数据挖掘过程,这样也可以积累一定的处理实际挖掘问题的实战经验,今后碰到项目时也可知道从何处下手。

本校的数据挖掘技术课程的实验教学是8个学时,共两次上机,采用Microsoft SQL Server 2008 Data Mining对Adventure Works DW 2008R2 示例数据库进行数据挖掘。课程的实验教学内容主要包括:

实验一:SQL Server 2008 数据多维分析环境的建立;

实验二:关联规则挖掘方法;

实验三:决策树挖掘方法;

实验四:聚类挖掘方法。

为了让学生更好地进行实践动手,在教学中分两步:第一步,具体的操作步骤的讲解,由老师进行;第二步,学生上机并详细的分析挖掘结果,要求学生熟悉使用Microsoft SQL Server 2008进行数据挖掘的步骤,以及几种常用的算法的挖掘过程:包括创建数据源、创建数据源视图、创建挖掘结构(主要参数的设置)、处理和浏览挖掘模型。如关联规则,要求学生分析挖掘的模型,找出有价值的规则出来。

5 结论

为迎接大数据时代带来的互联网经济机遇,很有必要同时也是时代迫使在应用型本科中开设数据挖掘课程。对这一类学校的教学也是一个挑战,需要老师们在教学过程中不断摸索和改进。在教学过程中,需要针对应用型本科生的学习能力、知识结构,设计好教学内容并采用适当的教学方法,从而使学生对学习的内容感兴趣,改进课堂教学效果,以提高学生实际动手能力,使学生对数据挖掘课程的整体结构、基本概念、经典算法有较深入理解和掌握,最终达到教学目的。

参考文献:

[1] 徐金宝.对应用型本科生开设数据挖掘课程的尝试[J].计算机教育,2007(14):27-29,57.

[2] 李姗姗,李忠. 就业需求驱动下的本科院校数据挖掘课程内容体系探讨[J].计算机时代,2015(1):60-61,64.

[3] 张艳.大数据背景下的数据挖掘课程教学新思考[J].计算机时代,2014(4):59-61.

[4] 李忠,李姗姗. 应用型本科院校IT专业数据挖掘课程建设[J].计算机时代,2014(11):65-69.

[5] 张增平,乔晓华. 针对应用型本科生数据挖掘课程的教学实践[J].内蒙古财经大学学报,2015,13(4):132-137.

第9篇

[关键词] 经济与管理;本科生;数据挖掘;教学探索

[中图分类号] G642.3 [文献标识码] A [文章编号] 1005-4634(2013)04-0082-03

0 引言

数据挖掘技术能从大量数据中发现和学习有价值的和隐藏的知识,因而近年来在国内外受到极大重视,在电信业、零售业和银行业等生产大数据的行业中正获得越来越广泛的应用[1]。因此,近几年数据挖掘这门课程已越来越多的走进了高校课堂。但是,数据挖掘又是一门综合性较强的交叉学科,它涉及到统计学、数据库技术、数据仓库、人工智能、机器学习和数据可视化等学科知识,对学生的专业知识背景和前期所学课程有较高的要求,这在一定程度上限制了数据挖掘作为一门既有理论价值又有实践价值的学科的应用和推广。笔者结合自己的教学实践研究经管类专业本科生开设数据挖掘课程的教学探索。

1 经管类专业本科生开设数据挖掘课程的必要性和可行性分析

从经管类各专业的培养目标角度分析。以南京邮电大学经管类专业为例,该专业包含信息管理与信息系统、电子商务、市场营销、经济学和工商管理等专业,这些专业的培养计划都把培养学生具备市场分析、经营和管理决策能力作为专业的基本培养要求之一。数据挖掘作为商务智能的核心技术,是辅助管理者进行决策分析的有效工具,在激烈的商业竞争中发挥的作用越来越大。因此,为经管类专业本科生开设数据挖掘课程可以更好地实现专业培养目标。

从经管类专业本科生的就业角度分析。经管类专业本科生毕业后,有相当一部分同学会从事营销岗位或者信息管理、网站设计与维护等技术岗位。对于从事营销岗位的同学来说,由于现在的市场营销概念已经发展到精细营销理念,即企业恰当而贴切地对自己的市场进行细分,对各种客户群进行深入的分析和定位,并根据不同的客户群特点,采取精耕细作式的营销操作方式,将市场做深做透,进而获得预期效益。数据挖掘技术是实现精细营销的重要工具;对于从事技术岗位的同学来说,学习数据挖掘课程,掌握数据挖掘的思想和方法对培养学生的系统思维和解决实际问题的能力、提高学生的信息素养很有必要。因此,学习数据挖掘课程对学生未来的工作也是非常有帮助的。

数据挖掘是一门交叉学科,课程理论性强,且对学生的计算机基础要求较高。经管类专业只有信息管理与信息系统、电子商务两个专业开设了较多的计算机课程。但是所有经管类专业都开设了统计学必修课程和数据库原理与应用必修或选修课程,这两门课程是数据挖掘的核心。因此,适当地调整教学目标,将数据挖掘作为一门选修课程为经管类专业本科学生开设是完全可行的。

2 教学过程中存在的问题

笔者在为经管类专业本科生开设数据挖掘课程的过程中,往往遇到两个问题。

1)课程较强的理论性与学生知识结构缺陷之间的矛盾问题。数据挖掘这门课程涵盖了统计学、数据库原理、机器学习、信息论和时间序列等众多内容,课程教材中有较多的公式推导和算法分析,因此课程的理论性较强。然而,经管类专业本科生之前只是学习了统计学和数据库原理与应用两门课程,机器学习等其他课程知识均没有涉及到,因此在学习数据挖掘课程时会感到内容难度较大,障碍较多[2]。

2)理论教学与实验教学学时合理分配的问题。由于数据挖掘课程通常是作为选修课安排在经管类专业本科生培养计划中,总学时数相比学位课程要少,只有32学时。正如前文所述,这门课程包含的内容多、难度大,因此必须要保证足够的理论教学学时数量。同时,数据挖掘又是一门应用性较强的课程,特别是对于经管类专业本科生来说,一定要安排足够的实验教学学时,让学生在实践中提高分析问题和解决问题的能力。在较少的总学时约束条件下,如何合理地分配理论教学学时和实验教学学时是课程教学遇到的又一个问题。

针对经管类专业本科生开设数据挖掘课程时遇到的矛盾问题,将这门课程的教学目标确定为:掌握数据挖掘基本流程和经典算法的基本原理,熟练运用数据挖掘软件工具,分析和解决商业应用问题。课程教学目标指出,为经管类专业本科生开设数据挖掘课程的目的是培养学生利用数据挖掘这种工具去分析和解决商业应用问题的能力,而不是要求学生具备数据挖掘算法设计能力。因此,对于经管类专业本科生来说,实验教学和理论教学同等重要。在课程教学大纲中应将理论教学学时和实验教学学时设置为各16个学时。

3 教学内容设计

用16个学时来介绍数据挖掘课程的理论知识点,这就要求教师能够为经管类专业本科生精心挑选知识点,“量身定做”教学内容。

1)以应用为目的设计教学内容。根据经管类专业本科生数据挖掘课程的教学目标,本门课程在教学过程中应注重培养学生应用数据挖掘分析问题和解决问题的能力,这就要求教师能够围绕数据挖掘的整个应用过程来安排教学内容。数据挖掘的应用过程包括数据收集、数据预处理、模型构建和知识评价四个主要步骤。数据收集步骤是指准备数据挖掘的对象——数据源,有的数据源是一个数据文件或者是数据库中的一张关系表,但对于具体的商业应用来说,数据源往往是来源于同一个或不同数据库中的多张关系表,或者是多个数据文件,这时需要对数据源进行集成,甚至是构建数据仓库;数据预处理步骤是指通过数据清洗、数据集成、数据变换和数据归约等操作为数据挖掘任务提供干净、准确和简洁的数据,提高数据挖掘效率和挖掘结果的质量,它是数据挖掘中非常重要的环节;模型构建步骤是指选用数据挖掘算法在预处理后的数据集上构建挖掘模型的过程,关联、分类、聚类和回归分析是数据挖掘中四个主要的挖掘任务,每个挖掘任务又对应了多个挖掘算法;知识评价步骤是指采用各种统计指标对挖掘结果进行评价,以发现有价值的知识。由于不同挖掘算法得出的挖掘结果表现形式不同,知识评价应针对具体挖掘算法进行,因此知识评价步骤要安排在每个挖掘算法介绍完之后。

2)重点介绍经典算法。针对经管类专业本科生在学习数据挖掘课程时感到内容难度较大这一问题,且考虑到课程的理论授课学时有限,笔者对原有的数据挖掘内容进行了适当的精简。数据挖掘包含数十种挖掘算法,删除复杂和难度大的数据挖掘算法,针对每种挖掘任务重点介绍其经典算法。例如,关联挖掘中的Apriori算法,实现分类挖掘的决策树算法,实现回归分析的最小二乘法以及聚类分析的k-means算法。对于神经网络、贝叶斯分类、时间序列挖掘和Web数据挖掘等难度较大或内容拓展性算法,在介绍相关章节时略提一下,并鼓励有兴趣的学生在课余时间自学。

3)增加商业案例。数据挖掘是一门技术性较强的课程,一般的教材往往注重理论,相关案例较少,因而不容易激发学生的学习热情[3]。为了帮助经管类专业本科生增加对课程中各种挖掘任务的感性认识,同时也是为了激发学生对本门课程的学习兴趣,笔者在讲授过程中增加了若干关于数据挖掘的幽默故事、经典案例和在各行业中的应用案例,通过分析案例加深学生对算法应用的理解。例如,在介绍关联挖掘任务时给学生们引入“啤酒与尿布”的故事;在介绍分类挖掘任务时讲解客户流失分析的应用案例;在介绍聚类挖掘任务时分析客户细分的应用案例。

基于上述分析,笔者为经管类专业本科生开设的数据挖掘课程教学内容具体如下。

第一章为绪论,主要是对数据挖掘技术作概括性描述,让学生对数据挖掘定义、与数据仓库的关系、研究热点以及发展趋势形成感性认识。本章内容分配2个理论教学学时。

第二章为数据仓库,主要内容包括数据仓库的定义与特征、数据仓库的数据组织、数据模型、总体结构和设计等原理性知识点,以及联机分析处理(OLAP)的基本概念和分析操作等基本知识。本章内容分配2个理论教学学时。

第三章为数据预处理,主要介绍数据清洗、数据集成、数据转换以及数据归约等数据预处理的基本步骤和常见方法。本章分配3个理论教学学时。

第四章至第七章围绕数据挖掘的4个重要任务——关联、分类、聚类和回归分析,在介绍每种挖掘任务基本概念的基础上,重点介绍经典算法的基本原理和挖掘结果评价方法,以及每个挖掘任务在具体行业的应用案例。第四章至第六章每章内容分别分配3个理论教学学时,第七章内容分配2个学时。

4 实验项目设计

数据挖掘是一门与实际应用结合紧密、实践性较强的课程。为了加深学生对数据挖掘理论知识点的理解,锻炼和提高学生的实际动手能力,必须结合实验进行教学。数据挖掘课程的理论教学和实验教学构成一个完整的整体,缺一不可[4]。实验教学要充分调动学生的主动积极性,而不是简单地让学生进行验证式的操作实验或仅仅局限于机械地使用、熟悉某种软件工具。

笔者针对课程知识点设计了4个实验项目,每个实验项目分配4个实验学时。

第一个实验项目为数据仓库构建,实验软件是SQL Server 2000,它提供了一套完全的数据库和数据分析解决方案,其中的Analysis Service 组件支持数据仓库的创建和应用,并提供OLAP联机分析操作。构建数据仓库的数据源来自SQL Server 2000的样例数据库Northwind,Northwind是一家虚构的公司,从事世界各地的特产食品进出口贸易。Northwind数据库包含有这家公司的销售数据,数据内容多,数据量大,数据结构贴近企业的真实数据,符合实验要求[5]。实验包含4个步骤:(1)理解业务数据,确定分析主题。Northwind数据库中的表非常多,需要理清各关系表的内容及其相互间的关联,在此基础上确定感兴趣的主题;(2)围绕分析主题,将主题相关的关系表通过企业管理器中的DTS进行清洗和转换,为数据仓库提供合适的数据;(3)使用Analysis Server向导,建立多维数据集;(4)基于构建好的多维数据集,对数据进行切片、切块、钻取、聚合和旋转等各种OLAP分析操作。

第二至第四个实验项目均是基于Clementine12.0等数据挖掘工具,通过构建数据挖掘模型分析具体商业问题。其中,第二个实验项目为关联挖掘的综合实践,要求学生运用关联挖掘经典算法Apriori分析移动产品交叉销售;第三个实验项目为分类挖掘的综合实践,要求运用决策树算法进行电信客户流失分析;第四个实验项目为聚类挖掘的综合实践,要求运用聚类经典算法K-means进行电信客户细分分析。上述三个综合实验项目都要求学生首先能够分析具体应用问题,然后进行数据预处理、构建数据挖掘模型,并对挖掘结果进行分析和讨论,以锻炼学生数据挖掘的思维体系和数据分析能力。

5 教学方案实施

在教学方案实施过程中,着重营造活跃的课堂教学氛围,重视对课后作业的指导,以期提高课堂教学效果。考虑到经管类专业本科生的知识背景和本门课程的特点,在每次课堂上都会抛出一个思考题,要求学生们运用所学理论联系身边实际展开讨论。例如,在介绍完第一章后设计了一个讨论题:如何运用数据挖掘帮助电信企业提高竞争优势?学生讨论得很热烈,也得出了多个答案。由于本门课程课堂讲授学时较少,为了帮助学生复习、巩固及应用所学内容,课程每章节后都安排了课外作业,并就其中的难点进行指导和讲解。实验过程中,着重培养学生的独立性和数据分析能力。首先向学生讲授清楚实验具体要求和注意事项,然后放手让学生自己去做,遇到问题先鼓励学生自己思考解决,实在有困难再稍加指点。实验结束后,要认真分析实验结果,完成实验报告。选择实验数据时要考虑到数据是否符合现实情况且能够突出所分析的问题。除实验以外,其它实验项目均采用SPSS产品培训过程中所用的相关数据,数据量大小适中,适合在实验课上使用,而且这些数据与真实数据的差异小,有助于提高学生解决现实问题的能力。数据挖掘课程的教学方案已实践了5年,其间不断进行经验总结和探索,无论从近几年选修本门课程的学生人数还是从课堂上学生的反映和学习气氛看,本门课程都取得了很好的课堂教学效果。

6 结束语

数据挖掘作为一门技术性和应用性较强的课程,对优化经管类专业本科学生的知识结构、扩展学生的专业应用领域有着重要的作用。笔者结合自己的教学经验,对经管类专业本科生数据挖掘课程的教学内容和实验环节等方面进行了积极的教学探讨和实践,学生反映非常好。在今后的教学工作中,要不断实践,不断总结,进而不断改进和提高数据挖掘课程的教学质量。

参考文献

[1]刘云霞.统计学专业本科生开设“数据挖掘”课程的探讨[J].吉林工程技术师范学院学报,2010,26(6):20-22.

[2]李志勇,王翔,喻军.信息管理专业数据挖掘课程教学探讨[J].管理工程师,2012,(4):66-68.

[3]刘昆宏.浅谈本科阶段数据挖掘课程设置[C]//In Proceedings of 2010 Third International Conference on Education Technology and Trainning,Wuhan,2010:4-5.

相关文章
相关期刊