多特征数据预处理的一种尝试

2024-08-17 10:37:52 217人阅读

在一个实例中，有近60个特征，上千组数据样本。考虑到数据受噪声污染可能比较严重，希望能首先筛除部分不合理数据，也就是仅采用高度集中区域的数据。那么，问题就是，如何找到数据高度集中区域。找到数据密集区，数据之间的规律性更强，更利于接下来的识别。

首先考虑到的就是抽样，或者美其名曰蒙特卡洛抽样。这是一种正向问题解决方法，对于复杂问题往往有意想不到的效果。但是，此处有近60个特征，若每个特征分x个区间，总区间就是x^60,计算机根本无法解决。

那么，退一步，首先找到样本点在每个特征上的分布，找到最集中的区域，再合并，是否可行呢？事实上，每个特征的集中区域，并不一定是同时考虑多个特征的密集区。从二维投影到一维，会把另一个变量对应的各区间累积起来，并不要求在另一变量上的分布如何。

换个思路，从样本点出发是否可行呢？找到每个样本点周围一定范围内的样本点数目，样本点数目最大的那个对应的样本点，就是样本密集区的中心。需要计算各样本点相互之间的距离，会有n(n-1)/2个数据，显然增长的比较慢一点。如果样本点数据过多，仍然难以实现。

在寻找密集区的时候，是否可以降低样本点数目？如果样本的分布具有一定规律，那么如果随机抽样，如果抽样数目较多，将逼近样本的分布规律。此处寻找样本密集区，并不是非常强的要求，似乎可行。

小结一下，可以采用两步，首先对数据二次抽样，再计算任一样本点周边一定范围内样本点数目，最大者对应的样本点就是密集区的近似中心。为了提高精度，可以采用更多的样本，仅考虑任一样本点相对密集区内样本点的距离，再次比较一定范围内样本数目，从而提高样本点中心的精度。

找到中心之后，新数据的分类，就可以采用k近邻法。也可以训练神经网络、SVM，找到边界，再用于分类。

多特征数据预处理的一种尝试

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们