首页 > 代码库 > 利用shuf对数据记录进行随机采样

利用shuf对数据记录进行随机采样

最近在用SVM为分类器做实验,但是发现数据量太大(2000k条记录)但是训练时间过长...让我足足等了1天的啊!有人指导说可以先进行一下随机采样,再训练,这样对训练结果不会有太大影响(这个待考证)。所以就对数据进行了一下降采样,具体方法如下:

shuf data | head -n 100000

其中,我的数据是在txt文件中存储的,基本格式是:

record 1 xxxxxrecord 2 xxxxxrecord 3 xxxxxrecord 4 xxxxx ...........record n xxxxx