在百度nlp实习一个月时间里用到的shell操作

2024-07-15 07:15:49 223人阅读

文本行中各列打乱：

awk ‘BEGIN{srand()}{for(i=1;i<=NF;i++) b[rand()NF]=$i}END{for(x in b)printf "%s ",b[x]}‘` data

文本行中各行打乱：

awk ‘BEGIN{srand()}{b[rand()NR]=$0}END{for(x in b)print b[x]}‘ data

shuf -n1000 data

以a.txt作为pattern查找b.txt，实际是求2者交集：

grep -F -x -f a.txt b.txt

以a.txt作为pattern查找b.txt，显示不在a.txt中的数据，实际是求差集b-a：

grep -F -v -x -f a.txt b.txt

编码转换：

iconv -f gb18030 -t utf8 filename

以_为分隔符，第二列为键值排序，稳定排序（默认不稳定）：

sort -t_ -k1,2 -s filename

对大文件进行外部排序并去重，以temp目录作为缓存：

sort -u -T temp filename

sort filename | uniq -c计数唯一的排序的记录 -d仅仅显示重复的记录 -u仅仅显示没有重复的记录

在preview中打开awk的man文档：

man -t awk | open -a Preview -f

awk和cut简单用法：

awk -F: -v ‘OFS=\t‘ ‘{print "all users are:",$1,$2,$3,$4,$5,$6,$7}‘ /etc/passwd | cut -f 1,6

wc -l 行数 -c字节数 -w字数

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们