• 陈坤携手IDo跨界设计相“信”爱钻石项链 不要轻易放弃。学习成长的路上,我们长路漫漫,只因学无止境。


      大数据期间下,措置已知和预测未知数据的数据挖据技能在社会生活的众多方面得到了多量使用。因此,采用数据挖据中BP神经网络算法和决策树技能对毕业生赋闲偏好举办了预测研究。研究中首先对两种算法流程举办了先容,其次使用两种算法分离对扬州大学2017年本科毕业生赋闲景遇举办模拟预测研究,并对两种算法优缺点和下场举办了对比分析。经过历程模拟预测下场得知,两种算法预测数据均与现实吻合,决策树法更适用于数据数量较少的样本,而当数据量较大时,BP神经网络法得到的预测数据将更准确。   关键词:数据挖掘;BP神经网络;决策树;C4.5算法;机器进修   中图分类号:TP183;TP311.13 文献标记码:A 文章编号:1673-291X(2018)20-0186-05   引言   随着信息技能的高速成长,人们日渐依赖计算机技能去解决问题。随着人们对收集、措置数据的的才能逐步加强,现时的数据驾御技能已不克不迭满足人们的需要,因此数据挖掘就应时而生。目前,对数据挖掘相比公认的定义是W.JFrawley,G.Piatetsky-Shapiro等人提出的[1]。   数据挖掘自成长到如今为止已产生了很多种体式格局[2],其中以BP神经网络和决策树算法为代表。神经网络算法是一种使用广泛的数据挖掘办法,因其自身自行措置、散布存储等特性非常适合措置非线性的以及那些以模糊、不残缺的知识或数据为特性的问题。BP神经网络即反向传播网络(Back Propation Network)是1986年以Rumelhart为首的专家组提出的一种多层前馈网络。它由多量神经元构成,包含三层结构:输入层、隐含层和输入层[3]。神经网络经过进修训练,经过历程网络跟尾权值以及网络函数,建立起数学模型。现实证明含一个隐含层的BP神经网络能以恣意精度逼近任何非线性映照关连[4,5]。决策树技能是机器进修中的一种归纳进修技能,它可以 呼吁 呼吁从一组毫无纪律的的数据样本会萃中揣度出决策树[6]。历史上人们先后提出了ID3算法、C4.5算法[7]、分类与回归树CART算法[8]、快速可伸缩的分类体式格局(Supervised Learning In Quest,SLIQ)[9,10]、可伸缩的并行归纳决策树(Scalable PaRallelizable Introduction of decision tree,SPRINT)分类体式格局[11]、随机映照随机离散化延续型数据(Random Projection Random Discretization Ensembles)的算法[12]。其中,ID3算法和C4.5算法经过历程信息论的体式格局来举办分类,而CART算法、SLIQ算法以及SPRINT算法使用的是Gini指数的分类体式格局。本文将侧重向读者先容C4.5算法。   针对高校毕业生数量增加给高校带来的毕业生信息整理问题,本文采用BP神经网络算法和决策树C4.5算法来得到2017届扬州大学数学科学学院毕业生赋闲模型,并经过历程相比BP神经网络模型和C4.5算法得到较为准确的毕业生赋闲模型,利用模型指导大学生有倾向、有挑选性的进修。   一、数据挖掘BP神经网络技能   BP神经网络的建立历程包含两个历程:正向传输和反向传输。输入旗帜暗号经过输入层、隐含层神经元的逐层措置到达输入层,如果输入旗帜暗号不在预期的误差内,则转向反向传输阶段,经过历程批改 复学各层神经元之间的权值使得误差淘汰,再次进入正向传输历程,再三重复直至误差在预期的领域以内。具体算法步伐如下[13,14]:   再�D至步伐4举办,直至每层的均方差处于设定误差领域。   二、数据挖掘决策树技能   (一)决策树技能的定义和结构   决策树是一种用来预测模型的体式格局,树结构一般由根节点、中间结点、叶子结点组成,其中决策树中的根节点和中间结点寄放数据的属性或属性会萃,叶子节点寄放分类的下场。   (二)C4.5算法   在ID3的算法中,决策树分支的决策是由信息增益的大小决策的,因此利用ID3算法举办分类时,下场会倾向于分类下场多的属性。因此,J.R.Quinlan提出了C4.5算法,使用了信息增益率来对决策属性举办挑选。   设S是一个包含n个数据样本的会萃,该数据会萃有l个属性D={d1,d2,…,dl},则C4.5的算法步伐为[15]:   其中,ti是子集中属性值为i的个数,i=1,2,...,b;nw是数据属性为j的个数,并由此推出信息增益率,其定义为Radio(dj)=Gain(dj)/Split(dj),至此选出信息增益最大的属性dj,则dj为这一层的结点。   (5)最初,按照该属性将子集再分类,重复步伐2、3、4,直至到达叶子结点即分类下场,由上而下递归下去,则可以 呼吁 呼吁得到残缺的决策。   三、用人单位对毕业生的偏好研究   为了研究用人单位对毕业生的偏好,本文从2017届扬州大学数学科学院毕业生系统中随机抽取了140份数据样本,数据中包含学生的基本信息、课程造诣信息、综合造诣信息、获奖信息、赋闲信息;对数据本文举办预措置,删去了与挖掘下场相关性弱的属性,最终留下性别、专业造诣、英语水平、计算机水平、政治风度、获奖称号、赋闲单位称号。   (一)BP神经网络法在用人单位对毕业生的偏好中的研究   使用BP神经网络分析用人单位对毕业生偏好,首先需要将数据举办归一化:对性别,男为1,女为0;对获奖景遇,有为1,有为0;对政治风度,党员为1,非党员为0;对赋闲景遇:KY、GN、GP、SP、NP分离为0.8、0.7、0.6、0.5、0.4、0.3;对专业造诣、英语水平、计算机水平,则采用归一化公式:   接着建立BP网络结构。本文将140个样本数据的前100个数据作为进修样本,后40个作为训练样本,并设定该网络结构为三层,输入层有6个节点,输入层一个节点。在三层网络结构中。输入层神经元个数m、输入层神经元个数m和隐含层神经元个数L有如下近似关连:   其中,a为[0,10]之间的的正整数。因此,本例中隐含层中神经元个数在区间[3,12]内。使用MATLAB2016a来对样本中100个数据建立神经网络,经过历程屡次训练相比不同隐含层神经元个数得到的不同MSE(Mean Square Error)即均方差,得到隐含层数量为8时,训练而得的神经网络的均方差最小,到达了,如图 1。   在迭代次数为207次时得到最小均方差0.008 811 8   神经网络训练成功后,利用剩下的40个数据对神经网络数据举办预测值检讨,从表1可以 呼吁 呼吁清楚地看到,预测所得的赋闲下场与现实下场较为相近,准确率为84.21%。实行下场表白,经过历程BP神经网络可以 呼吁 呼吁对毕业生信息中毕业生赋闲景遇作出较为准确的预测。   (二)决策树法在用人单位对毕业生的偏好中的研究   接下来本文使用C4.5的体式格局建造赋闲信息决策树。首先需要将原毕业生信息表中”专业造诣”、”英语水平”、”计算机水平”举办进一步泛化:以70、85为区间分辩点,将造诣泛化为优(大于或就是85)、良(大于70小于85)、差(小于70)。“赋闲单位品级”是类别符号属性,“英语水平”、“性别”、“专业造诣”、“获奖景遇”、“计算机水平”、“政治风度”是决策属性。数据挖掘C4.5决策树算法建造决策树的体式格局如下。   共有140个样本,GN、GP、SP、BP、DY、KY对应的样本数分离为d1=54,d2=4,d3=23,d4=4,d5=11,d6=44。首先算出总样本的期望信息,接着算出每一个决策属性对应的信息增益率。这里以性别的信息增益率为例:性别分成“男”“女”两种,统计男生的赋闲景遇,GN为13人、GP为2人、SP为8人、BP为3人、DY为6人、KY为15人;统计女生的赋闲景遇,GN为41人、GP为2人、SP为15人、BP为1人、DY为5人、KY为29人。则性别是“男”的期望信息为I(d11,d21,d31,d41,d51,d61) = I(13,2,8,3,6,15)=2.299;性别是“女”的期望信息为 I(d12,d22,d32,d42,d52,d62)= I(41,2,15, 1,5,29) =1.885。   上面算出性别的信息期望是E(性别)=47/140×I(c11,c21,c31.c41,c51,c61)+93/140×I(c12,c22,c32,c42,c52,c62)=2.024,因此“性别”对应的信息增益为Gain(性别)=I(d1,d2,d3,d4 d5,d6)-E(性别)=0.040。经分辩,性别破裂信息是Split(性别)=0.920,由此得到的性别信息增益率是Ratio(性别)=Gain(性别)/Split(性别)=0.043。   同理,可以 呼吁 呼吁得到其他属性对应的信息增益率,专业造诣为 0.198,政治风度为0.057,英语水平为0.119,计算机水平为0.062,获奖景遇为0.064。至此,因为专业造诣最高,为0.198,因此得到决策树的根节点是专业造诣。   同理,经过Matlab编程,可得决策树每分枝的属性增益率,并按照得到的属性增益率得到决策树,如图4―7所示。   四、结论   使用BP神经网络和决策树算法分离对用人单位对毕业生偏好和于本科生借书偏好举办模拟预测,得到用人单位对毕业生偏好的的神经网络和决策树,经过历程它们的构成,可以 呼吁 呼吁得到如下结论。   1.BP神经网络和决策树算法对用人单位对毕业生的偏好和本科生停止偏好预测得到的结论都与现实景遇吻合。   2.决策树适用于数据数量较少的样本,当数据数量相比多时,使用BP神经网络得到的下场更为明晰。   3.在措置多个属性的数据样本时,神经网络更具上风,结论也越发直观。   4.决策树可以 呼吁 呼吁坚持属性的不变性,而神经网络需要将离散属性转换为数值属性。   参考文献:   [1] AGRAWAL R,PSAILA G,WIMMERS EL,et al.・Querying shapes of histories.・In Proc.of the VLDB Conference[M].1995.   [2] 邵峰晶,于忠清.数据挖掘道理与算法[M].北京:中国水利水电出版社.   [3] M OLLER MF.A Scaled Conjugate Gradiential Gorithm for Fast Supervised Learning[J].Neural Networks,1993,(6):525-533.   [4] 王小川,史峰,郁磊,等.MATLAB神经网络43个案例分析[M].北京:北京航天航空大学出版社,2013.   [5] KARDAN A A,SADEGH.H,GHIDARY.S.S,et al.Prediction of student course selection in online higher education institutes using neural network[J].Computer&Education,2013,65;1-11.DOL;10.1016/j.compedu.2013.001.015.   [6] IQBALl M R A,RAHMAN S,NABILl S I,et al.Knowledge based decision tree construction with feature importance domain knowledge [C].International Conference on Electrical & Computer Engineering.IEEE,2013:659-622.   [7] QUINLAN J.R.Discovering rules by induction from large collections of examples[J].In Expert System in the Micro Electronic Age,1979:27-37.   [8] BREIMAN L,FRIEDMAN J,OLSHEN R A,et al.Classification and regression trees [M].Belmont Wadsworth,1984.   [9] METHA M,RISSANEN J,ARAWAL R.SLIQ:A fast scalable classifier for data mining [A].In EDBT’96 Avignon,France [C],1996.   [10] CHANDRA B and PAUL P VALGHESE.Fuzzy SLIQ Decision Tree Algorithm.IEEE Trans on systems,2008,38(5):1294-1301.   [11] SHAFER J,RAWAL R,METHA M.SPRINT:A scalable parallel classifier for Data Mining [A].International Conference on Very Large Data Base [C].1996.   [12] AMIR AHMAD,GAVIN BROWM.Random Projection Random Discretization Ensembles―Ensembles of Linear Multivariate Decision Trees.IEEE Trans on Knowledge and Data Engineering,2014,(5):1225-1275.   [13] 胡月.BP算法并行化及在�稻萃诰蛑械挠τ醚芯�[D].重庆:重庆大学,2014.   [14] 梁栋,张凤琴,陈大武,等.一种基于决策树和遗传算法――BP神经网络的组合预测模型[J].中国科技论文2015,10(2):170-172.   [15] 瞿花斌.数据挖掘的决策树技能在高校毕业生治理中的使用[D].济南:山东大学,2014.

    上一篇:诗词阅读教学初探

    下一篇:文化自信的现实诉求