失效链接处理 |
机器学习基础知识和面试考点总结 PDF 下载
相关截图:
主要内容:
特征工程与特征选择
机器学习处理流程
问题建模->数据探索->特征工程->模型训练->模型融合
特征工程
特征工程是对原始数据进行一系列的处理,旨在去除原始数据中杂质和冗余,设计更加高效的特
征以刻画求解的问题与预测模型之间的关系。
常用数据类型:
1)结构化数据:可看作数据库中一张表,每列有明确定义,包含数值型和类别型两种
2)非结构化数据:包含文本,图像,音频等,其包含信息无法用一个简单数值表示。
1. 数值型特征
特征归一化(normalization)是在数值类型的特征上做的,为了消除数据特征之间的量纲影
响,需要对特征进行归一化处理,使得各指标处于同一数量级,让他们之间具有可比性。在
实际应用中,通过梯度下降法求解的模型通常需要归一化。之所以要归一化是因为在更新参
数是,不同特征的范围不同,参数更新速度也会不同,归一化后会更加容易找到最优解。
a. 线性函数归一化(Max-Min Scaling)。对原始数据进行线性变化,使结果映射到[0,1]的范
围,实现对原始数据的等比缩放。
|