2.3 数据变换【李沐-斯坦福21秋季:实用机器学习中文版】
【李沐-斯坦福21秋季:实用机器学习中文版】笔记系列
2.3 数据变换
1.数据流程:原始数据–标注及清理–数据变形–特征工程–模型训练
2. 数据归一化
-
Max-Min Normalization算法把一个列里面的数值的最小值与最大值都限定到一个固定区间内,然后把所有的元素只通过线性变化出来【将数据的单位放到合理的区间】;
-
Z-Score 算法:通过算法使得均值变为0,方差变为1 。把一列的数据换成是-1到1之间的数据。
-
Decimal-Scaling 算法:使Xi➗10的阶乘,使Xi的绝对值处于-1与1之间。
-
Log-Scaling 算法:对数值都是大于0,且数值变换比较大可以试一下log一下【log上面的加减等于原始数据的乘除,可以将计算基于百分比的】。
3. 图象变换
将图片的尺寸变小,机器学习对低分辨率的图片不在意,图片采样的比较小,且jpeg选用中等质量压缩,可能会导致精度有1%的下降(ImageNet),凡是数据的大小与质量要做权衡,要么不要下采样,要么下采样的时候数据的质量(分辨率)就要高一点。通常数据质量更加的重要。
4. 视频变换
-
当你拿到VIDEO的时候,你需要将他缩减成对你最有用的片段,因为机器学习看不了那么长的视频
-
把视频压缩,但是读取比较困难
-
处理视频的时候,我们可以提取关键帧,而并不是输入整个视频
5. 文本变换
- 词根化(语法化):把一个词变成常见的形式
- 词元化(机器学习算法中最小的单元也就是token)
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
THE END
二维码