生信人的自我修养:Linux命令速查手册

您所在的位置:网站首页 linux中文命令 生信人的自我修养:Linux命令速查手册

生信人的自我修养:Linux命令速查手册

2023-01-03 08:41| 来源: 网络整理| 查看: 265

文章很长,建议先收藏,点赞,然后过一遍,如果觉得理解困难,可以看看文末的粉丝福利,加入我们的零基础学习交流群。

许多人做生物信息学,要么不重视Linux,要么不知道怎么才能学好。翻开厚厚的一本教材,却不知道哪些是重点。Linux的核心知识有哪些,就像英语的核心词汇一样。这篇文章,给你答案。

只要几个小时,掌握生信所需的90%以上的Linux知识,让你一举攻克Linux难关。——生信老司机man - 获得帮助man ls # 许多Linux自带命令可以通过man查看使用帮助 ls --help # 有些程序可以通过-h, --help查看使用帮助ls - 显示目录内容ls # 显示目录内容 ls -l # 以列表显示形式显示目录内容,通常在~/.bashrc文件中增加一行:alias ll='ls -l' # 以后就可以直接使用别名ll了,更方便 ll -h # 以人类可读的方式显示文件大小 ll -t # 以文件的修改时间排序,最新修改的在最前面 ll -tr # 以文件的修改时间排序,最新修改的在最后面 watch -n 3 -dc ls -l # 追踪目录内容的变化,每3秒刷新一次pwd - 显示当前目录pwd # 显示当前目录的绝对路径 ls `pwd`/file # 显示文件的绝对路径cd - 切换目录cd dir # 切换到目录dir cd # 切换到用户的HOME目录 cd ~ # 同cd,~表示HOME目录 cd .. # 切换到上一级目录;一个点.表示当前目录,两个点..表示上一级目录 cd - # 切换到进入当前目录之前所在的目录mkdir - 创建目录mkdir dir # 创建dir目录 mkdir -p dir1/dir2 # 递归创建目录,如dir1不存在,会先创建dir1cat - 合并文件(按行)cat file # 合并一个或多个文件至标准输出,当只有一个文件时,相当于显示所有文件内容 cat file1 file2 # 合并file1和file2的内容,并在屏幕上输出 cat R1.fq.gz R2.fq.gz # 可以合并gzip压缩文件,如测序数据原始reads的合并paste - 合并文件(按列)paste -d ' ' file1 file2 # 按列对列的方式一行一行合并文件。默认列中间加TAB键, -d参数可以改变列之间的分隔符split - 分割文件split -d -l 10000 file chunk_ # 按行数分割文件,每个文件最多10000行,分割成的文件名为chunk_01, chunk_02。。。 split -d -b 100m file chunk_ # 按大小分割文件,每个文件最多100m,分割成的文件名为chunk_01, chunk_02。。。cut - 剪切文件cut -f 1 file # 剪切文件的第1列 cut -f 1,2 # 剪切文件的第1,2列 cut -f 3- # 剪切第3列及之后的所有列 cut -d ' ' -f 1 file # 剪切第1列,但以空格作为列与列之间的分隔符。默认以TAB作为分隔符 grep '^>' test.fa | cut -c 2- # 得到fasta文件中的序列名称(去掉了>符号)less, head, tail - 显示文件内容less file # 分屏显示文件内容,按空格键显示下一页,按下/后可以搜索内容 less -SN file # 显示文件的行号,并且截断太长的行 ​ head file # 默认显示文件前10行 head -n 20 file # 显示文件前20行 ​ tail file # 默认显示文件后10行 tail -n 20 file # 显示文件后20行 tail -n +2 file # 跳过第1行,显示从第2行开始的所有行,可用于跳过文件的标题行 tail -f file # 当文件的内容还在增加时,实时显示末尾增加的内容,常用于查看日志文件的更新情况wc - 统计文件内容wc -l file # 统计文件行数touch - 创建文件touch file # 创建一个空文件 touch {file1,file2,file3} # 同时创建3个文件cp, mv, rm- 文件/目录的复制,移动,删除scp file1 file2 # 将file1复制一份,命名为file2,复制目录要加-r参数:scp -r mv file1 dir1/ # 将file1移动到dir1/目录下 mv file1 file2 # 重命名:即将file1移动成为file2 rm file # 删除文件,删除目录要加-r参数:rm -r rm -f file # 文件若不存在,删除时会报错,加-f参数就不会报错tar - 文件打包/压缩# 平时tar基本上就能完成打包、压缩、解压的任务了 tar czvf file.tar.gz files # 打包并压缩 tar xvf file.tar.gz # 解包,解压缩 ​ gzip file # 压缩 gunzip file.gz # 解压chmod - 改变文件/目录权限chmod +x file # 增加[本人]可执行权限 chmod -x file # 取消[本人]可执行权限 chmod a+x file # 增加[所有人]可执行权限 chmod a-x file # 取消[所有人]可执行权限chown - 改变文件/目录归属chown jianzuoyi:jianzuoyi file # 将文件的所有权给jianzuoyi chown -R jianzuoyi:jianzuoyi dirname # 将目录以及目录内的文件的所有权给jianzuoyisort, uniq - 排序,去重sort file # 默认按字典序对文件进行排序 sort -k2,2 -k3,3 file # 先按第2列排序,第2列相同,再按第3列排序 sort -k2,2n file # 按第2列排序,且第2列是数字,升序 sort -k2,2nr file # 按第2列排序,且第2列是数字,降序 sort -u file # 先排序文件,然后去除相邻的重复行,只保留一条记录 sort file | uniq # 去除相信的重复行,只保留一条记录,相当于: sort -u file # 利用sort, uniq取两个文件的交、并、补集 sort a b | uniq # 并集 sort a b | uniq -d > c # 交集 sort a c | uniq -u # 补集wget - 下载文件wget https://repo.anaconda.com/archive/Anaconda3-2020.07-Linux-x86_64.sh # 下载文件到当前目录,文件名保持不变ssh - 远程登录ssh username@host # ssh 远程连接至服务器scp - 远程文件传输scp username@host:/path/to/file . # 将远程服务器上的文件传输到当前目录,文件名保持不变,复制目录加参数-r scp file username@host:/path/to/dir/ # 将本地文件复制到远程服务器,文件名保持不变,复制目录加参数-rrsync - 远程文件拷贝

rsync与scp不同,它只是做增量更新且支持断点续传,也就是要复制的文件存在于目标文件夹且内容与当前要复制的相同,则不会复制。

rsync -azvP dir1 dir2 # 将dir1的内容同步至dir2 rsync -azvP --delete dir1 dir2 # 同步dir2与dir1,dir1中删除的文件,dir2中也要跟着删除 rsync -azvP --exclude 'file' dir1 dir2 # 同步dir2与dir2,且将file排除在外df, du, free - 查看磁盘/内存使用情况df -h # 查看磁盘使用情况,-h表示以人类可读的方式显示容量大小 du -sh # 查看当前目录使用了多少磁盘空间 du -sh * # 查看当前目录下各文件或文件夹使用的磁盘空间 free -h # 查看内存使用情况top, htop, ps, kill - 任务管理top -c # 查看CPU,内存的使用情况 htop # top的完美替代品,Linux系统不自带,需要安装, ubuntu系统:apt install htop ps aut # 查看后台任务运行情况,第2列是任务的PID号 kill -9 PID # 删除编号为PID的任务 killall -9 bwa # 删除所有名称为 bwa 的任务 killall -u username # 删除用户 username 的所有任务nohup,disown - 远程任务管理nohup ./run.sh &> run.sh.o & # 远程SSH登录服务器,在后台运行任务,断开远程连接后任务仍然在后台跑如果运行任务时没有加nohup命令,但任务运行时间长,但又必须断开(比如快下班了),若不想让任务因为断开远程连接而中断,可以用disown命令补救./run.sh # 假如任务是直接这样开始跑的 ctrl + z # 按ctrl + z,将任务放到后台 jobs # 输入jobs命令,回车,可以看到任务是暂停的: [1]+ Stopped(SIGTSTP) bash run.sh bg # 让后台暂停的任务开始运行 jobs # 再次运行jobs,可以看到任务已经跑起来了: [1]+ Running bash run.sh & disown -r # 从当前shell中移除运行中的作业,至此,可以关掉终端回家了| - 管道

管道,将前一个命令的输出作为后一个命令的输入

command1 | command2>, >> - 输入输出重定向

Linux中常用重定向操作符有:

标准输入(/dev/stdin):代码为0, 使用(追加)标准错误输出(/dev/stderr):代码为2,使用2>或2>>&> 标准输出和错误输出同时重定向/dev/null 代表垃圾箱,不想要保存的东西都可以重定向到这里输出重定向就是将命令的结果重定向到文件,而不是输出到屏幕,通常用于保存命令的结果./run.sh > run.sh.o # 标准输出到run.sh.o日志文件 ./run.sh 2> run.sh.e # 标准错误输出到run.sh.e错误日志文件 ./run.sh &> run.sh.log # 标准输出和标准错误都输出到定一个文件 ./run.sh &> /dev/null # 丢弃标准输出和标准错误信息输入重定向是将文件作为输入的来源,而不是键盘command < file # 将file的内容作为command的输入 command result.txt

逐行读入file.txt的内容,处理之后,将结果保存到result.txt文件中。

find, locate, which - 文件查找find -name file # 在当前目录查找名为file的文件 find dir/ -name file # 在dir/目录下查找名为file的文件 find dir/ -name '*file*' # 在dir/目录下查找包含file关键词的文件,-name参数支持正则表达式 find dir/ -name file -delete # 查找文件并删除 locate file # 查找文件 which command # 显示命令的绝对路径xargs - 命令组合工具cat file | xargs # 将file的内容显示成一行 cat file | xargs -n3 # 将file的内容每3列一行进行输出 find /ifs/result -name '*.fq.gz' | xargs -n1 -I{} cp {} /ifs/data/ # 查找fq.gz文件并复制到/ifs/data目录下 find /ifs/result -name '*.fq.gz' | xargs tar czvf all.fq.gz # 查找fq.gz文件并打包在一起 find . -type f -name '*.log' -print0 | xargs -0 rm -f # 当rm文件过多时,可以这样删除 find . -type f -name '*.py' -print0 | xargs -0 wc -l # 统计一个目录中所有python文件的行数parallel - 并行工具

parallel是增强版的xargs。假如一个脚本文件中有4条命令:

# cat run.sh echo a echo b echo c echo d # 同时执行4个任务,生信中常通过这种方式并行执行多个任务 cat run.sh | parallel -j 4 find *.fq | parallel -j 12 "fastqc {} --outdir ." # 同时执行12个Fastqc任务 find *.bam | parallel --dry-run 'samtools index {}' # 同时执行samtools index任务,--dry-run显示任务命令但不实际执行,用于命令检查useradd - 添加用户useradd -m username # 创建用户并为其在/home下创建一个以其名称命名的目录passwd - 更改密码passwd # 更改当前用户的密码 passwd username # 更改指定用户的密码dos2unix - 文件格式转换

Linux很多工具都是针对纯文本文件的,并且需要是Unix-like格式的文本文件。但是很多时候文件是从Windows或Mac系统上传到Linux服务器上的,这可能导致文件格式不兼容,原因是不同平台生成的文本文件的换行符不一样。

操作系统符号正则表达式Mac^M\rLinux$\nWindows^M$\r\ncat -A file # 查看文件换行符情况 dos2unix file # Windows格式转换成Unix-like格式grep

用于查找文件里符合条件的字符串。

grep [-abcEFGhHilLnqrsvVwxy][-A][-B][-C][-d][-e][-f][--help][范本样式][文件或目录...] grep pattern files # 搜索文件中包含pattern的行 grep -v pattern files # 搜索文件中不包含pattern的行 grep -f pattern.txt files # 搜索的pattern来自于文件中 grep -i pattern files # 不区分大小写。默认搜索是区分大小写的 grep -i pattern files # 只匹配整个单词,而不是字符串的一部分(如搜索hello,不会匹配到helloworld) grep -n pattern files # 显示行号信息 grep -c pattern files # 显示匹配的行数 grep -l pattern files # 只显示匹配的文件名 grep -L pattern files # 显示不匹配的文件名 grep -C number pattern files # 额外显示匹配行的上下[number]行 grep pattern1 | grep pattern2 files # 显示既匹配pattern1,又匹配pattern2的行 grep -E "pattern1|pattern2" files # 显示匹配pattern1或者pattern2的行, grep -E相当于egrep # 用于搜索的特殊字符 ^: 表示行前 $: 表示行尾 grep '^#' result.vcf # 显示VCF文件的表头信息 grep '^hello$' files # 显示只包含hello的行 grep -v '^\s*$' file # 删除空白行sed

sed是stream editor的缩写,中文称之为“流编辑器”。

sed command filecommand部分,针对每行要进行的处理file,要处理的文件Actionsd:删除该行p:打印该行i:在行的前面插入新行a:在行的后面插入新行r:读取指定文件的内容。w:写入指定文件。sed -n '10p' file # 显示第10行 sed -n '10,20p' file # 显示第10到20之间的行 sed -n '/pattern/p' file# 显示含有pattern的行 sed -n '/pattern1/,/pattern2/p' file # 显示patter1与pattern2之间的行 sed '10d' file # 删除第10行 sed '10,20d' file # 删除第10到20之间的行 sed '/pattern/d' # 删除匹配pattern的行 sed '/^\s*$/d' file # 删除空白行 sed 's/^\s*//' file # 删除行前的空白:空格,制表符 sed 's/\s*$//' file # 删除行尾的空白:空格,制表符 sed 's/^\s*//;s/\s*$//' file # 删除行首和行尾的空白:空格,制表符 sed 's/AA/BB/' file # 将文件中的AA替换成BB,只替换一行中第一次出现的AA,替换后的结果输出到屏幕 sed 's/AA/BB/g' file # 将文件中的所有AA都替换成BB,替换后的结果输出到屏幕 sed -i 's/AA/BB/g' file # 将文件中的所有AA都替换成BB,直接更改文件的内容 sed '/CC/s/AA/BB/g' file# 只替换那些含有CC的行 sed 's/pattern/&XXXX/' file # 在pattern之后加上XXXX。&表示之前被匹配的内容 sed 's/pattern.*/&XXXX' file# 在匹配pattern的行尾加上XXXX。pattern.*表示包含pattern的整行内容 sed -n '1~4s/^@/>/p;2~4p' file.fq > file.fa # Fastq文件转Fasta文件 sed -n '2~4p' file.fq # 提取Fastq文件的序列 sed 'y/ABC/XYZ/' file # 将ABC逐字替换成XYZ sed '1i\hello' file # 在第1行前面插入一行,内容为hello,通常用来为文件增加标题 sed '1a\hello' file # 在第1行后面插入一行,内容为hello sed '1r file2' file1 # 在第1行后面读入file2的内容 sed '/pattern/w file2' file1 # 将匹配的行写入file2中awk

Awk是一个强大的文本分析工具,它每次读入一条记录,并把每条记录切分成字段后进行分析。Awk官方文档是非常好的学习材料,通过man awk查看。

awk 'BEGIN { action } pattern { action } END { action }'

Awk程序通常是一系列 pattern {action}对:

pattern,表示模式匹配,只处理匹配的行。pattern可以省略,表示匹配所有行

action,表示对匹配行所做的动作。{actions}可以省略,表示{ print }。BEGIN和END的{action}不能省略

pattern可能是:

BEGIN, 执行初始化操作,程序开始时执行一次

END,执行收尾工作,程序结束时执行一次

expression,一个表达式,既可以是判断语句,也可以是正则表达式

常用参数-F value 设置域分隔符,相当于给FS内置变量赋值-v var=value 将变量value的值赋给程序变量var,-v可以多次使用记录与字段

记录是一次读入的内容,通常是文件的一行,保存在字段变量$0中,记录可以被分割成字段,保存在变量$1,$2,...,$NF中。

表达式与操作符

Awk表达式的符号与C语言的类似,基本的表达式有数字,字符串,变量,字段,数组以及函数调用。变量无需声明,它们在首次使用时被初始化为null。

assignment = += -= *= /= %= ^= conditional ? : logical and && logical or || logical not ! array membership in matching ~ !~ relational < > = == != concatenation (no explicit operator) add ops + - mul ops * / % unary + - exponentiation ^ inc and dec ++ -- (both post and pre) field $正则表达式

在Awk中语言中,通常测试一个记录、字段或字符串是否与一个正则表达式匹配,匹配返回1,不匹配返回0。正则表达式用两个反斜杠/包围。

expr ~ /r/ # 评估expr是否与r匹配。匹配的意思是expr的一个子串是否在正则表达式r定义的字符串集中。 /r/ { action }, $0 ~ /r/ { action } # 两者相同, /r/ 等于 $0 ~ /r/

任何表达式都可以放到~和!~右边或者内建的需要正则表达式的地方。在必要的时候,该表达式会被转变成字符串,然后作为一个正则表达式来解释。以下三行awk命令完成同样的功能:输出第5列为10的的行。

seq 20 | xargs -n5 > file # cat file 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 awk '$5 ~ /10/' file awk '$5 ~ "10"' file awk '$5 ~ 10' file数组

Awk支持一维数组。其表示方法为array[expr],expr在内部被统一转换成字符串类型,因此A[1],与A["1"]相同,事实上索引都是“1”。索引为字符串的数组被称为关联数组。expr in array用于判断数组元素array[expr]是否存在。

for ( var in array ) statement控制语句if ( expr ) statement if ( expr ) statement else statement while ( expr ) statement do statement while ( expr ) for ( opt_expr ; opt_expr ; opt_expr ) statement for ( var in array ) statement continue break内置变量NR - 当前行数NF - 当前行的列数RS,行分隔符,默认是换行符FS,列分隔符,默认是空格和制表符ORS,输出行分隔符,默认为换行符OFS,输出列分隔符,默认为空格FILENAME,当前文件名内置函数字符串函数

sub()、substr()、gsub(),sprintf(),index(),length(), match(),split(),tolower(), toupper()

数学函数

sin(),cos(), ...

输入输出

有两个输出语句,print和printf

print # 打印整条记录到标准输出,相当于print $0 print expr1, expr2, ..., exprn # 打印指定字段到标准输出 printf format, expr-list # C语言printf函数的重用

输入函数getline有以下几种形式:

getline # 读取下一条记录到$0,更新NF,NR和FNR getline var # 读取下一条记录到var,更新NR和FNR getline < file # 从文件读取记录到$0,更新NF getline var < file # 从文件读取记录到var command | getline # 通过管道传递command的结果到$0,更新NF command | getline var # 通过管道传递command的结果到var seq 10 | awk '{print $0;getline}' # 显示奇数行 seq 10 | awk '{getline; print $0}' # 显示偶数行 seq 10 | awk '{getline tmp; print tmp; print $0}' # 奇偶行对调 awk 'BEGIN {"date" | getline;close("date");print $0}' # 得到系统当前时间 # fastq转换成fasta awk '{getline seq; getline comment; getline quality; sub("@", ">", $0); print $0"\n"seq}' file示例awk '{print $0}' file # 打印整行 awk '{print $1}' file # 打印第一列 awk '{print $2}' file # 打印第二列 awk '{print $NF}' file # 打印最后一列 awk '{print $(NF-1)}' file#打印倒数第二列 awk -F ';' -v OFS='\t' '{print $1,$2,$NF}' file # 读入的文件以逗号;分隔列,打印第1列,第2列和最后一列,并且打印时以制表符作为列的分隔符 number=10;awk -v n=$number '{print n}' file # number的值被传给了程序变量n awk '$2 > 100' file # 打印第2列大于100的行 awk 'NR>1 && NR


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3