大数据背景下高校招生策略预测

来源：职称驿站所属分类：教育学论文
发布时间：浏览：94次

　　在应届高中生生源不断下降、高等院校招生规模不断扩大、招生方式多元化不断发展、各院校之间招生竞争日趋激烈的条件下，利用海量招生异构数据，准确定位生源对象，做好前期招生宣传是各高等院校需要考虑的重要问题。结合云计算技术，利用并行化计算模型 MapReduce 和内存并行化计算框架 Spark 对高校招生历史数据进行分析，提出采用并行化随机森林预测高校招生策略模型，缩短了模型的预测时间、提高了模型的预测精度、增强了模型对大数据的处理能力。实验结果表明，并行化随机森林算法在不同数据集上的多方面性能均优于常用的决策树预测方法。

今日教育

　　《今日教育》杂志是由重庆出版集团主管主办,重庆市教育科学研究院承办,是国家新闻出版总署核定的面向全国公开发行的教育类综合期刊.以马列主义、毛泽东思想、邓小平理论和“三个代表”重要思想为指导，全面贯彻党的教育方针和“双百方针”，理论联系实际，开展教育科学研究和学科基础理论研究，交流科技成果，促进学院教学、科研工作的发展，为教育改革和社会主义现代化建设做出贡献。

　　随着计算机通信网络技术、信息技术的发展，普通高校招生方式多元化，以及各院校招生竞争的日趋激烈，制定精确合理的招生策略所需要参考的招生信息数据呈现爆炸性增长，形成了招生信息大数据[1]。原有的招生信息数据处理方式已不能满足大数据的要求，需要研究新的数据分析方法。

　　高校招生策略预测的常用方法有：时间序列、灰色预测、多元统计等。这些方法具有简单实用、预测速度快的优点，但只适用小样本、线性变化的数据集，对大规模、非线性数据则无能为力[2]。近年来，基于大数据技术，研究更有效的预测模型已成为学术界和产业界共同关注的热点[3]。如文献[4]采用Spark平台和并行随机森林算法对短时电力负荷进行预测，改进了单机随机森林算法的各方面性能;文献[5]基于随机森林算法的并行化，对历史负荷数据及相关的温度、风速等一起进行分析，提高了负荷预测效率，并增强了算法对大数据的处理能力;文献[6]提出了一种基于弱相关化特征子空间选择的离散化随机森林并行分类算法，使决策树之间相关性降低，提高了随机森林的分类效果;文献[7]在小规模集群服务器上用消息传递技术对随机森林算法进行并行化，提高了模型的训练速度。文献[8]采用数据重构方法获取多维高校历史数据，利用非线性预测能力较强的支持向量机提出了一种数据挖掘高校招生预测模型;文献[9]以历年招生数据为基础，采用数据挖掘手段分析校园网络数据，构建了高校招生预测系统，为学校招生带来可视化的预测信息;文献[10]建立了高校招生数据挖掘系统，提出了有利于高校招生的策略预测方法;

　　经过众多研究学者的努力，国内对高校招生策略的预测方法取得了一定成果，但由于相适应的市场机制还没有形成，一些有效的预测模型，如并行化随机森林算法在高校招生领域还没有得到应用。本文借助Hadoop平台，利用并行化计算框架对招生数据进行挖掘和分析，提出了并行化的随机森林算法预测高校招生策略的方法。

　　1 大数据管理平台

　　1.1 Hadoop 技术简介

　　Hadoop是云计算技术应用最广泛的平台之一，已经成为大数据管理与并行处理的主流技术。Hadoop是一个开源的分布式软件框架，分布式文件系统(Hadoop Distribution File System，HDFS)和并行化计算模型 MapReduce 是其最核心内容 [11] 。HDFS提供了文件分布式存储、大数据库管理等应用技术;而MapReduce则为大数据库提供了完善的并行分析计算框架。为了方便用户操作，Hadoop还提供了一系列实用的组件供用户选择，如Hive、Pig、Sqoop、Datanucleus等[12]。

　　1.2 大数据管理平台框架结构

　　参照云计算技术体系结构[13]与数据分析处理工具，并结合高校招生数据分析的实际需要，搭建以数据存储、分析计算为主的高校招生数据管理平台，其基本构架如图1所示。平台自下往上分为：数据采集整合系统、数据存储系统、数据分析系统和数据应用系统。

　　该平台是Hadoop技术的具体应用：一方面，利用Hadoop的核心组件HDFS、HBase、Hive建立大数据存储系统;另一方面，利用MapReduce并行计算框架和Spark内存并行计算框架，构成数据计算分析数据整合过程就是将海量异构数据迁移至Hadoop集群，实现高效存储与管理。目前，数据整合过程还没有一个高效标准的方法，还需要利用第三方软件完成该操作，如Sqoop，Datanucleus等。Sqoop能够将数据在Hadoop集群和关系型数据库之间进行相互转移[14]。在本管理平台中，利用Sqoop将各数据子集迁移到集群的数据仓库;Datanucleus能够支持多种主流存储系统[15]，屏蔽各存储系统之间的差异，提供标准的数据接口(JDO，JPA)实现数据传送。在本管理平台中，各数据子集通过Datanucleus接口将数据导入到列数据库HBase中。

　　1.4 数据存储系统

　　数据仓库、列数据库中的数据均存储在 Hadoop 集群的 HDFS 中。采集到的原始数据经过抽取、清理、系统加工、整合等预处理后保存到数据仓库，预处理过程是为了保证数据仓库中的数据信息是一致的全局信息[16]。Hadoop 提供了一款管理数据仓库组件 Hive，其作用是将结构化的数据文件映射成数据库，并为用户提供简单的 SQL 查询功能[17]。 HDFS 中的数据块(Block)采用冗余多备份机制存储，能有效的处理单点故障。

　　1.5 数据挖掘分析系统

　　平台采用并行化计算模型MapReduce对数据进行挖掘分析，利用基于内存的并行化计算模型Spark对对密集型数据完成迭代式计算。MapReduce向用户提供了庞大但设计精良的并行计算软件框架，在集群内能实现计算任务和数据的自动划分，并能根据集群节点所能提供的资源自动完成任务的分配，并有效监控任务的完成过程，最后还能自动完成各集群节点计算结果的收集。MapReduce将数据分布式存储、数据通信、容错处理等复杂的底层细节全交由系统处理，大大减轻了用户软件开发负担[18];Spark是在Hadoop基础上进行改良的基于内存的集群计算系统。系统的中间数据全部存放在内存中，对迭代等复杂的计算过程具有很高的效率[19]。

　　1.6 数据应用系统

　　根据云服务中应用即服务的概念，数据应用系统就是向高校招生策略预测系统的应用者提供所需要的服务，如以文件的形式提供各省市招生计划投放数据列表、指导本校专业设置建议、招生生源选择提示、招生宣传策略等可视化服务。数据应用系统还为用户提供与高校招生有关的、能够与其它系统进行数据交换的操作接口。

　　2 并行随机森林预测高校招生策略

　　2.1 随机森林算法原理

　　在大数据背景下，常用的分类预测算法有极限学习、神经网络、遗传算法、支持向量机、决策树等。决策树在传统的分类预测算法基础上得到了广泛研究，也取得了不错的应用效果[20]，但由于其自身原因，仍然存在一些不足：

　　1) 在建树初始需要将所有的分类规则读入内存，限制了决策树处理更多数据，因此其处理大数据的能力有限;

　　2) 实际应用中，当数据中有噪声或训练样本过少时，会出现过度拟合(Over Fitting)现象。过度拟合的决策树对训练样本的分类效果表现良好，但对新样本的分类效果则明显不佳;

　　3) 决策树在选择属性时不进行回归运算，因此其结果仅能收敛于局部最优解，造成决策树分类精度不高，且泛化能力较差。

　　随机森林是一种集成了多棵分类回归树的综合分类预测算法。当输入训练样本时，每一棵决策树都会产生一个分类结果，通过对所有分类结果进行投票得到随机森林的最终分类结果。随机森林吸收了决策树的所有优点，同时克服了决策树的缺点。又因为便于实现并行化，提高了数据分析效率，同时也提高了算法对大数据的处理能力。由于高校招生策略的输出为实数，只需要讨论随机森林的回归过程，其实现步骤如下(设集成的决策树棵数为 R )：

　　1) 从原始数据集 S 中用 Bagging 方法有放回的抽取大小为 N 的训练子集 TSi (i = 0,1 R) ;

　　2) 对 TSi 重复以下步骤，直到节点的样本数不超过预设的最小值 Lmin ，得到一棵决策树 Ti ;

　　① 从 M 个属性样本集中随机抽取 m 个属性样本;在回归模型中， m 值取 M 的 1/3。

　　② 从 m 个属性样本中选择最佳的变量 j 和切分点 s 得到θ ( j, s) ;

　　③ 将该节点θ ( j, s) 切分成两个内部节点。

　　3) 所有决策树集合 {Ti }1R 构成随机森林。

　　决策树中内部节点进行分支的样本属性选择

　　依据采用最小二乘偏差算法。

　　2.2 随机森林算法的并行化

　　随机森林集成了多个决策树，这是随机森林算法能够实现并行化的物理条件。而袋装(Bagging)算法和随机子空间思想为随机森林算法的并行化提供了基本理论依据：Bagging 算法是一种根据概率分布原理从数据集中有放回的抽样技术。Bagging 算法进行每轮抽样时，数据集中约有 36.8%的样本不能被抽中，没有被抽中的数据样本不能参加算法训练，但可以用来检测训练模型的泛化能力。Bagging 算法使每个训练样本的内容不同，但所包含原始数据集的知识规模是相同的，从而使随机森林中的每个决策树的构建过程相互独立，可以并行完成训练过程。

　　随机子空间思想是指决策树在每个节点进行属性样本抽取时，随机的从属性样本中抽取若干个属性的方法。由于抽取过程随机，所以多个节点可以并化地同步抽取，使各决策树可以独立生成。

　　Bagging 思想和随机子空间思想保证了随机森林能够并行运行，使其具有较高的预测精度、较快的数据分析效率和较强的数据处理能力。因此，本文提出了基于 MapReduce 的并行化随机森林算法(MapReduce-Paralleled random forests，MR-PRF)进行高校招生策略预测方法。

　　3 并行随机森林算法实现

　　3.1 算法的预测流程

　　高校招生策略预测的原始数据量巨大，开启 3个 MapReduce 作业类来完成数据处理过程。每个MapReduce 类的输出作为下一个 MapReduce 类的输入，3 个 MapReduce 类分别完成生成数据字典、生成决策树和构建随机森林模型。

　　生成数据字典就是以文件的形式解析参于训练的样本数据，由第 1 个 MapReduce 作业类完成。在 Map 过程，首先读取一部分招生样本数据，然后

　　提取样本数据的属性类型、属性值、以及模型的类型(是回归还是分类)，得到 key/value 数据对传递给 Reduce 过程;在 Reduce 过程，将 Map 过程得到的 key/value 数据对按 key 值进行合并，并通过 Datanucleus 数据库接口写入到 HBase 中。所有的 key/value 数据对以文件形式进行记录，保存在集群的 HDFS 中，作为第 2 个 MapReduce 作业类的输入;生成决策树由第 2 个 MapReduce 作业类完成。

　　随机森林算法中集成的决策树是并行产生的，一个 Map 过程生成一个决策树。该 MapReduce 作业只有Map 过程，没有 Reduce 过程;生成随机森林由第 3 个 MapReduce 作业类完成。在回归预测模型中，该过程的主要功能就是将所有决策树的结果进行统计，求取平均值得到随机森林的最终结果。

　　采用并行化随机森林算法预测高校招生策略的具体流程如图 2 所示。该流程基于 Hadoop 集群强大的存储能力和数据处理能力，对招生数据进行挖掘和分析处理，有效的提高了算法的预测精度和

　　3.2 高校招生大数据实验平台

　　课题组在实验室采用 46 台计算机建立了一个高校招生策略预测实验平台。计算机集群采用典型的主/从结构，也称为 Master/Salve 结构。其中一台计算机作为 Master(管理节点)，负责集群内的资源管理和任务分配;其它计算机作为 Salve(数据节点)，负责保存各数据块，并完成与数据块相对应的任务。当 MapReduce 作业提交至 Master 节点时，Master 将数据文件进行分块，并记录与各数据块相对应的名字空间与元数据。然后将各数据块冗余的保存在各数据节点并分配相应的作业任务，并负责监控 MapReduce 作业的执行过程。实验平台的拓扑结构如图 3 所示。

　　图 3 中，大数据库以关系型数据库方式保存，应用 Sqoop 软件将本地文件或数据库表与 HDFS 文件进行相互迁移。Sqoop 软件是基于 MapReduce 实现的，用户无需过多关注 MapReduce 的实现和优化过程。实验中，将约 20 万条测试数据整合到 HBase 列式数据库中，大约需要 2min 时间。

　　3.3 实验数据、属性值、实验评价指标选取

　　实验数据来自某高校近 3 年的招生数据，包括：该年各省考生人数，考生来源(毕业中学、中学所在地)，各专业在各省的招生人数，报到率，录取志愿排名，男女比例，学生当年录取成绩(总分、选测成

　　5 结论

　　在国内外大数据研究基础上，针对高校招生数据集的特点，提出了一种基于 Hadoop 的分布式并行随机森林算法模型，并利用该模型处理高校招生大数据，实现对未来招生策略进行预测。经多次不同类型的实验进行验证，并与使用广泛的决策树预测算法进行比较，证明并行随机森林算法模型具有更快的数据分析速度，更高的预测性能以及更好的大数据处理能力。

　　受实验条件限制，原始招生数据集在数量上远没有达到大数据的规模，但通过人为的数据补充操作，提高了实验的真实性。因此，本文的结论仍然具有较强的可参考性。

　　[1] TOLLE K M, TANSLEY D, HEYA J G. The fourth paradigm: data-intensive scientific discovery[J]. Proceedings of the IEEE, 2012, 99(8):1334-7.

　　[2] MAYER-SCHONBERGER V, CUKIER K. A big data: A revolution that will transform how we live, work, and think[M]. Boston: Eamon Dolan, 2013.

　　[3] Rusitschka S, Eger K, Gerdes C.Smart grid data cloud： A model for utilizing cloud computing in the smart grid domain[C]//First IEEE International Conference on Smart Grid Communications.Gaithersburg, MD, USA:IEEE, 2010:483-488.

　　[4] 刘琪琛，雷景生，郝珈玮，等.基于Spark平台和并行随机森林回归算法的短期电力负荷预测[J].电力建设，

　　2017，38(10):84-92.

　　LIU Qichen, LEI Jingsheng, HAO Jiawei, et al. Short-Term power load forecasting based on spark platform and parallel random forest regression algorithm model[J]. Electric Power Construction, 2017, 38(10):84-92.

　　[5] 王德文，孙志伟.电力用户侧大数据分析与并行负荷预测[J].中国电机工程学报，2015，35(03):527-537. WANG Dewen, SUN Zhiwei. Big data analysis and parallel load forecasting of electric power user side[J]. Proceedings of the CSEE, 2015, 35(03):527-537.

　　[6] 陈旻骋，袁景凌，王啸岩，等.基于弱相关化特征子空间选择的离散化随机森林并行分类算法[J].计算机科学，2016，43(06):55-58+90.

　　CHEN Mincheng, YUAN Jingling, WANG Xiaoyan, et al. Parallelization of random forest algorithm based on discretization and selection of weak-correlation feature subspaces[J]. Computer Science, 2016, 43(06):55-58+90.

　　[7] 程光，王贵锦，何礼，等.人体姿势估计中随机森林训练算法的并行化 [J] . 计算机应用研究， 2014 ， 31(05):1558-1561+1576.

　　CHENG Guang, WANG Gui-jin, HE Li, et al. Parallelization for randomized forests used in human pose estimation[J]. Application Research of Computers, 2014, 31(05):1558-1561+1576.

　　[8] 孙晓莹，郭飞燕.数据挖掘在高校招生预测中的应用研究[J].计算机仿真，2012，29(4):387-391.

　　SUN Xiaoying, GUO Feiyan. Research on data mining for college enrolment prediction[J]. Computer Simulation, 2012, 29(4):387-391.

　　[9] 韩娜，廖晨，许杰维，等.基于大数据的高校招生预测系统的设计与实现[J].信息技术，2016，12:80-83. HAN Na, LIAO Chen, XU Jiewei, et al. Design and implementation of college enrollment forecasting system based on big data[J]. Information technology, 2016, 12:80-83.

　　[10] 朱丽丽.数据挖掘在高校招生中的应用研究[J].计算机与现代化，2012，204(8):190-194.

　　ZHU Lili . Research on application of data mining

　　technology in enrollment of vocational colleges[J] . Computer and Modernization, 2012, 204(8):190-194.

《大数据背景下高校招生策略预测》

本文由职称驿站首发，您身边的高端学术顾问

文章名称：大数据背景下高校招生策略预测

文章地址： https://m.zhichengyz.com/p-36766

免费咨询获取帮助

上一篇：新时代我国教育技术学科高质量发展的机遇与路径

下一篇：未来学校十五个变革可能