|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
在linux中学习命令的最好办法是学习Shell脚本编程,Shell脚本比起其他语言来学习简单,但是功能却十分强大.通过学习Shell编程,能让你掌握大量的linux命令。
你是不是已经有过要盘算一个十分年夜的数据(几百GB)的需求?或在内里搜刮,或别的操纵——一些没法并行的操纵。数据专家们,我是在对你们说。你大概有一个4核或更多核的CPU,但我们符合的工具,比方grep,bzip2,wc,awk,sed等等,都是单线程的,只能利用一个CPU内核。
借用卡通人物Cartman的话,“怎样我能利用这些内核”?
要想让Linux命令利用一切的CPU内核,我们必要用到GNUParallel命令,它让我们一切的CPU内核在单机内做奇妙的map-reduce操纵,固然,这还要借助很罕用到的–pipes参数(也叫做–spreadstdin)。如许,你的负载就会均匀分派到各CPU上,真的。
BZIP2
bzip2是比gzip更好的紧缩工具,但它很慢!别折腾了,我们有举措办理这成绩。
之前的做法:- catbigfile.bin|bzip2--best>compressedfile.bz2
复制代码 如今如许:- catbigfile.bin|parallel--pipe--recend-kbzip2--best>compressedfile.bz2
复制代码 特别是针对bzip2,GNUparallel在多核CPU上是超等的快。你一不留心,它就实行完成了。
GREP
假如你有一个十分年夜的文本文件,之前你大概会如许:如今你能够如许:- catbigfile.txt|parallel--pipegreppattern
复制代码 大概如许:- catbigfile.txt|parallel--block10M--pipegreppattern
复制代码 这第二种用法利用了–block10M参数,这是说每一个内核处置1万万行——你能够用这个参数来调剂每一个CUP内核处置几行数据。
AWK
上面是一个用awk命令盘算一个十分年夜的数据文件的例子。
惯例用法:- catrands20M.txt|awk{s+=$1}END{prints}
复制代码 如今如许:
在linux中学习命令的最好办法是学习Shell脚本编程,Shell脚本比起其他语言来学习简单,但是功能却十分强大.通过学习Shell编程,能让你掌握大量的linux命令。 |
|