Question

How do I remove certain sequences in fast based on header?

0

Entering edit mode

3.8 years ago

tianshenbio ▴ 170

I have a fasta file like this:

>XM_0000001.1 
actact
>XR_0000001.1
atcatc

How do I remove all the sequences with a XR header?

I only want to keep:

>XM_0000001.1
actact

RNA-Seq sequence fasta • 3.4k views

ADD COMMENT • link updated 3.8 years ago by Hugo ▴ 380 • written 3.8 years ago by tianshenbio ▴ 170

cpad0112 · Answer 1 · 2020-06-29

0

Entering edit mode

3.8 years ago

shiyeyishang • 0

If you do it on linux，it will be easy.

PS: Seqtk is a software that you need to install.

edit:formatting.

ADD COMMENT • link updated 3.8 years ago by cpad0112 21k • written 3.8 years ago by shiyeyishang • 0

score 0 · Answer 2 · 2020-06-29

0

Entering edit mode

3.8 years ago

cpad0112 21k

try with gnu-sed on ubuntu/mint:

$ sed  -e '/^>XR/,+1d' test.fa

If you have multiline fasta, use seqkit:

$ seqkit grep -rvip "^XR" test.fa

ADD COMMENT • link 3.8 years ago by cpad0112 21k

score 0 · Answer 3 · 2020-06-29

0

Entering edit mode

3.8 years ago

Hugo ▴ 380

You can try SEDA (https://www.sing-group.org/seda/). The Pattern filtering operation (https://www.sing-group.org/seda/manual/operations.html#pattern-filtering) would allow you to do this if you configure a Not contains pattern with the "^XR_" text.

ADD COMMENT • link 3.8 years ago by Hugo ▴ 380