2023美赛C题思路

在线解析

https://kdocs.cn/l/ccNGjN9sGugL​kdocs.cn/l/ccNGjN9sGugL

C题思路:(具体以题目解决问题顺序为主)
(1)问:
本文分两个小问,第一个小问是一维数据的预测,但同时要得出一个区间,这里就用多元线性回归来做,输入数据集用历史一段时间的数据以每第i:i+k-1个数据依次排列,构成空间结构数据作为自变量,当前的数据作为因变量,拟合关系式并预测2023年3月1日的两个报告结果数指标;第二小问,分析单词属性对7个百分比数据的影响,属性例如:字母种类数、字符重复次数、字符平均间隔、ASCII码平均值等,最后通过方差分析对属性和百分比指标的影响度进行分析,并说明哪些属性呈显著影响。
(2)问:
前面的单词与后面的百分比指标存在一定的关系,以百分比指标作为因变量,单词作为自变量,为了方便带入机器算法学习,需要对单词进行量化,基于第一问属性分析结果,从字母种类及频次角度出发,将单词字母转化为26个字母出现的频次序列(比如we这个单词,先生成26个0,在e和w位点统计各字母出现的频次数)作为训练输入,通过机器学习算法训练并对误差进行检验,最后预测2023年3月1日各百分比指标值。
(3)问:
接下来的就是词汇的分类,难度划分例如通过选择困难模式比率和百分比指标作为基础数据进行无监督分类。分类结束后,将上述属性变量作为自变量,类别作为因变量,构建机器学习模型训练,测试单词类别的准确率,计算一些性能指标加以说明(混淆矩阵、ROC曲线等),最后识别给定单词“ERNIE”的难度,对于无监督分类和之后的机器学习算法的训练效果都可以进行灵敏度分析以说明模型的可行性和可靠性。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
THE END
分享
二维码
< <上一篇
下一篇>>