澳门永利开户注册

SEARCH
技术服务021-34781616

热门搜索关键词:转录组基因组甲基化酵母文库蛋白芯片

021-34781616

当前位置澳门永利开户注册 » 新闻资讯 » 技术&解读&应用 » SeqKit-FASTA/Q序列处理神器

SeqKit-FASTA/Q序列处理神器

返回列表 来源: 查看手机网址
扫一扫!SeqKit-FASTA/Q序列处理神器扫一扫!
浏览:- 发布日期:2017-08-02 09:40:39【

澳门永利开户注册 今天小编给大家介绍一款神器,处理FASTA和FASTQ的工具SeqKit,window\linux系统版本都有。对于没有编程基础的小伙伴们,我们照样可以轻松操作序列文件。

该软件功能强大,小编只罗列部分模块功能,更详细功能参见软件网站:

http://bioinf.shenwei.me/seqkit/usage/

一、序列操作

seqkit seq [flags] file

参数:

澳门永利开户注册 -p, --complement

取互补序列

--dna2rna

澳门永利开户注册 DNA to RNA

-l, --lower-case

澳门永利开户注册 将序列以小写字母形式输出

澳门永利开户注册 -g, --remove-gaps

移除组装序列中的gap

澳门永利开户注册 -r, --reverse

取反向序列

--rna2dna

RNA to DNA

澳门永利开户注册 -u, --upper-case

澳门永利开户注册 将序列以大写字母形式输出

澳门永利开户注册 -w, --line-width int

以每行指定长度输出序列 (0 for no wrap) (default 60)

举例:

澳门永利开户注册 seqkit seq test.fa -w 0#将此文件fasta序列转换成一行输出

seqkit seq -w 100 test.fa#将此文件fasta序列转换成100个碱基一行输出

澳门永利开户注册 seqkit seq --dna2rna test.fa#将此文件fasta序列dna转换成rna

seqkit seq -w 100 -p -r test.fa#将此文件fasta序列反向互补输出,每行100碱基

二、Fasta/q之间及与tab格式互换

1、FASTQ转换成FASTA: seqkit fq2fa

举例:

seqkit fq2fa reads_1.fq -o reads_1.fa

澳门永利开户注册 2、FASTA/FASTQ转换成tab格式。seqkit fx2tab

举例:

seqkit fx2tab test.fa>test.fa.tab.fa

澳门永利开户注册 seqkit fx2tab test.fq>test.fq.tab.fq

澳门永利开户注册 tab格式:ID sequence

三、序列信息统计

1、序列碱基含量及序列长度信息统计

seqkit fx2tab [flags]

参数:

澳门永利开户注册 -B, --base-content value

澳门永利开户注册 要输出的碱基含量e.g. -B AT -B N

-g, --gc

澳门永利开户注册 print GC content

-l, --length

澳门永利开户注册 print sequence length

澳门永利开户注册 -n, --name

澳门永利开户注册 only print names

-i, --only-id

澳门永利开户注册 print ID instead of full head

举例:

澳门永利开户注册 seqkit fx2tab -l -g -n -i -H test.fa

输出结果:

#name seq

qual

length

GC

gene1

30

40.00

2、序列长度分布统计

xUsage:

seqkit stat [flags]

举例:

澳门永利开户注册 seqkit stat test.fa

输出结果:

file

format

type

num_seqs

sum_len

min_len

avg_len

max_len

test.fa

FASTA

DNA

1

30

30

30

30

四、根据ID或特定的motif筛选提取序列

seqkit grep [flags]

参数:

-n, --by-name

匹配整个序列的名字,包含deion部分,而不是序列id。

澳门永利开户注册 -s, --by-seq

匹配序列

-d, --degenerate

pattern/motif 包含简并碱基

-i, --ignore-case

忽略大小写

-v, --invert-match

澳门永利开户注册 输出不匹配此模式的内容

-p,

匹配模式,支持连续写多个模式,匹配任一模式即输出。如-p ^ATG -p TAA$。注意该功能仅能正向匹配,不能实现对互补链匹配。

澳门永利开户注册 -f, --pattern-file string

支持匹配模式写到一个文件中,如要提取的序列ID。

-R, --region string

澳门永利开户注册 匹配位置选择。e.g 1:12 for first 12 bases, -12:-1 for last 12 bases

澳门永利开户注册 -r, --use-regexp

使用正则表达式,必须加入此参数,如^匹配首端。同-p联合使用。

举例:

seqkit grep -s -r -i -p ^atg cds.fa#选取有起始密码子的序列

澳门永利开户注册 seqkit grep -f list test.fa > new.fa#根据ID提取序列

seqkit grep -s -d -i -p TTSAA#简并碱基使用。S 代表C or G.

澳门永利开户注册 seqkit grep -s -R 1:30 -i -r -p GCTGG##匹配限定到某区域

五、motif定位

对grep的拓展,可以正反链同时匹配,输出匹配的位置。

seqkit locate [flags]

参数:

澳门永利开户注册 -d, --degenerate

pattern/motif contains degenerate base

-i, --ignore-case

澳门永利开户注册 ignore case

澳门永利开户注册 -P, --only-positive-strand

only search at positive strand

澳门永利开户注册 -p, --pattern value

search pattern/motif

澳门永利开户注册 -f, --pattern-file string

pattern/motif file (FASTA format)

举例:

seqkit locate -i -d -p AUGGACUN test.fa

输出结果:

seqID

patternName

pattern

strand

start

end

matched

cel-mir-58a

AUGGACUN

AUGGACUN

+

81

88

AUGGACUG

ath-MIR163

AUGGACUN

AUGGACUN

-

122

129

AUGGACUC

六、多个序列文件比较寻找相同的序列或者ID相同的序列

seqkit common [flags]

参数:

-n, --by-name

澳门永利开户注册 匹配整个序列的名字,包含deion部分,而不是序列id

澳门永利开户注册 -s, --by-seq

澳门永利开户注册 match by sequence

澳门永利开户注册 -i, --ignore-case

ignore case

澳门永利开户注册 -m, --md5

use MD5 reduce memory usage

举例:

1、By ID (default,>后面,空格之前的名字)输出ID名字相同的。

seqkit common test1.fa test2.fa -o common.fasta

2、By full name(整个序列的名字,包含deion部分)。输出序列名字相同的。

seqkit common test1.fa test2.fa -n -o common.fasta

澳门永利开户注册 3、输出要比较的文件中序列相同的序列

seqkit common test1.fa test2.fa -s -i -o common.fasta

4、输出要比较的文件中序列相同的序列 (for large sequences)

seqkit common test1.fa test2.fa -s -i -o common.fasta --md5

七、提取部分序列

如随机抽取10000条FASTQ序列做NT污染评估。同时他也可以对FASTA序列提取

seqkit sample [flags]

参数:

澳门永利开户注册 -n, --number int

sample by number (result may not exactly match)

-p, --proportion float

澳门永利开户注册 sample by proportion

-s, --rand-seed int

澳门永利开户注册 rand seed for shuffle (default 11)

澳门永利开户注册 -2, --two-pass

2-pass modelower memory

举例:随机抽取序列

澳门永利开户注册 seqkit sample -n 10000 -s 11 test1_1.fq -o sample.fq

seqkit sample -p 0.1 -s 11 test1_1.fq -o sample.fq

八、排序输出命令

seqkit sort [flags]

参数:

澳门永利开户注册 -l, --by-length

按照序列长度排序

澳门永利开户注册 -n, --by-name

by full name

-s, --by-seq

按照序列排序

-i, --ignore-case

按序列排序时忽略大小写

-r, --reverse

反向排序

-2, --two-pass

对于FASTA序列排序可以减少内存

举例:

澳门永利开户注册 seqkit sort -ltest.fa

九、文件切割

澳门永利开户注册 seqkit split [flags]

参数:

-i, --by-id

澳门永利开户注册 split squences according to sequence ID

澳门永利开户注册 -p, --by-part int

将一个文件分割成N 份

澳门永利开户注册 -s, --by-size int

将一个文件按照N 条序列一个文件进行分割

-O, --out-dir string

output directory (default value is infile.split)

澳门永利开户注册 -2, --two-pass

澳门永利开户注册 two-pass mode to lower memory usage(only FAST)

举例:

seqkit split hairpin.fa.gz -p 4

欧易生物

技术热线:021-34781616 咨询热线:4006-4008-26

上海市闵行区新骏环路138号5幢3层
service@oebiotech.com
欧易生物
欧易生物微信公众号
 网站地图  Copyright © 2016 上海欧易生物医学科技有限公司 保留所有权利