利用shuf对数据记录进行随机采样

2024-07-15 06:04:35 222人阅读

最近在用SVM为分类器做实验，但是发现数据量太大（2000k条记录）但是训练时间过长...让我足足等了1天的啊！有人指导说可以先进行一下随机采样，再训练，这样对训练结果不会有太大影响（这个待考证）。所以就对数据进行了一下降采样，具体方法如下：

shuf data | head -n 100000

其中，我的数据是在txt文件中存储的，基本格式是：

record 1 xxxxxrecord 2 xxxxxrecord 3 xxxxxrecord 4 xxxxx ...........record n xxxxx

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们