6月10日,第八届“泰迪杯”数据挖掘挑战赛评比结果在大赛官网公布,玉林师范学院计算机科学与工程学院共组织9支队伍成功参赛,其中7支队伍为计算机科学与技术专业(大数据分析方向)学生,并有1支队伍获得全国二等奖。
本届竞赛于2020年3月1日正式开始,至2020年5月8日截止提交作品,历时两个半月。竞赛共计有来自全国300多所高校3044支队伍报名参赛,由高校和公司共同组成的评审专家组历时半个多月的评审,本届竞赛采用盲审(屏蔽参赛者信息;评审专家只能评阅非本区域作品;三位评阅专家同时评阅同一作品,超限调整后再取平均分)。
玉林师范学院学生林泳昌、林盛斌、黄孔兰在曙光瑞翼教育大数据老师潘永光的指导下,凭借“基于多模型加权融合的“高送转”预测研究”课题拿下泰迪杯全国二等奖。
主要解决的问题
在我国证券市场快速发展的情况下,浮现了各种各样的行业板块,其中上市公司实行送红股、转增股经常被认为是一种积极信号,我们称之为“高送转”,“高送转”本质上是上市公司股东权益的内部结构调整,对公司的盈利能力也并没有任何实质性影响。实施“高送转”后,公司股本总数虽然扩大了,但公司的股东权益并不会因此而增加。而且,在净利润不变的情况下,由于股本扩大,资本公积金转增股本摊薄每股收益。在公司“高送转”方案的实施日,公司股价将做除权处理,股价将进行相应的调整。因为实施“高送转”后股价将做除权处理,中小投资者可以通过填权行情从二级市场的股票增值中获利。很多股票在公布派送预案的第二天直接涨停,而等除权后再买入可能会面临很大的回撤风险。如果我们能准确预测下一年可能实施“高送转”的上市公司并提前买入,这对我们投资的安全性具有很大的现实意义。
影响上市公司实施“高送转”的因子主要有两类,即为基本因子和成长因子,它们包括了股价、总股本、上市年限、每股未分配利润、每股资本公积、每股现金流、每股收益,以及“未来 6 个月是否存在解禁”、“是否存在定增方案”等因子。通过对数据的分析与挖掘,筛选出对上市公司实施“高送转”影响较大的因子,利用这些优秀因子来建立模型,预测可能实施“高送转”的公司,避免掉入利用“高送转”减持股份,偿还债务、利用“高送转”规避高额税款等陷阱。
提出的解决方案
为了准确有效的预测上市公司未来是否实施“高送转”,主要做了以下三个方面工作:
首先,对题中所给数据进行数据异常值修正、数据标准化和数据二值化等预处理,提高数据质量,增加可信度,最后利用“股票编号”特征列将基础数据、年数据、日数据进行数据合并。
其次,针对问题一,设计分别了相关性分析、卡方检验方法、随机森林方法、XGBoost方法进行挑选“高送转”的优秀因子方案,再利用多模型加权融合方法筛选出“高送转”的优秀因子。根据所筛选出的优秀因子,可以看出对“高送转”影响最大的并非传统认为“公积金”和“未分配利润”因子,而是“每股收益”、“每股净资产”因子,得到本题提供的上市公司存在大量不合理“高送转”现象的结论。
最后,针对问题二,首先对预处理后的训练集使用SMOTE方法进行数据均衡化,再构建随机森林模型、卷积神经网络模型、循环神经网络模型对上市公司未来是否实施“高送转”方案预测的模型,然后对所构建的三种模型进行模型加权融合得到最终的“高送转”预测的模型,最后对模型进行查全率、查准率、准确率以及泛化性能等方面测试,得到所构建模型对“高送转”的预测能力和泛化能力极强等结论。
此次参赛队伍中不乏北京师范大学、中山大学、暨南大学、武汉大学等重点大学院校学生队伍参赛,大数据专业学子能在本次比赛中与众多优秀队伍进行同台拼比,并获得佳绩,体现了他们在大数据专业技能的扎实知识功底和积极努力拼搏的团队精神。
此次比赛,我们将瑞翼教育理念——VIP垂直整合项目教学理念贯穿其中,队伍由跨专业、跨年级组成,由学校老师与大数据工程师联合指导,在学生进行作品准备过程中及时提出思路与建议,让学生能在规定的时间里成功将作品做出来,瑞翼教育与各高校联合培养适合企业发展需求的大数据专业人才,在进行人才培养过程中注重学生的实践与理论相结合,比赛与课堂相结合,形成以赛督学、以赛促学,充分展现了在校企合作模式下大数据专业学子的学习能力与技能提升。