数据预处理技巧(持续更新)

/ 默认分类 / No comments yet / 119 browses

找到和标签最相关的特征

print("Find most important features relative to target")
corr = train.corr()
corr.sort_values(["target"], ascending = False, inplace = True)
print(corr.SalePrice)

ID类特征处理(特征工程)

根据ID出现的频率转化为数值型特征,或者将频率输入高斯函数转换为概率值

热力图作用(HeatMap)

可利用特征之间的热力图和特征-标签趋势图来处理缺失值,假如两个特征具有很大的相关性,且其中一个特征具有缺失值,那么可删除带缺失的特征。

决策树中连续值特征的处理

利用连续特征组合进行联合装箱,利用KD树来对上述组合进行子空间划分(Facebook论文中第3.1节第二段最后一句提到,但是具体操作还有待考究)

高基数类别型特征处理

Mean Encoder方法见右。 MeanEncoder