Question

How to shorten header of multiple fasta sequences

0

Entering edit mode

2.5 years ago

Nelo ▴ 20

Hello everyone

I wanted to trimmed or shorten the header of multiple fasta as given here;

>PH01000278G0580 AAPIP1;1 PH_genemodel_v1 PH01000278..503019..506969 . + . ID=PH01000278G0580;Name=cytochrome P450, putative, expressed
MVLLVAIGVVVGVLVVSSLVLRWNEVRYSRKQGLPPGTMGWPLFGETTEFLKHGP
>PH01003036G0080 AANIP2;1 PH_genemodel_v1 PH01003036..45987..47350 . + . ID=PH01003036G0080;Name=chlorophyll A-B binding protein, putative, expressed
MAMASSSGLRSCSAVGVPSLLAPSSRSGRSGLPFCAYATTSGRVTMSAEWFPGQ


                                                                                                               TO


>PH01000278G0580 AAPIP1;1
MVLLVAIGVVVGVLVVSSLVLRWNEVRYSRKQGLPPGTMGWPLFGETTEFLKHGP
>PH01003036G0080 AANIP2;1
MAMASSSGLRSCSAVGVPSLLAPSSRSGRSGLPFCAYATTSGRVTMSAEWFPGQ

I found some command like

awk 'BEGIN{RS=">";}NR>1{ split($1,a," "); print ">"a[0]"\n"$2; }' in.fasta > out.fasta
awk -F 'locus_tag=|]' 'NR %2 == 1 {print ">"$2 }; NR % 2 == 0 {print}'

But not works for even after playing with those commands multiple times

trimmed header fasta • 589 views

ADD COMMENT • link updated 2.5 years ago by Pierre Lindenbaum 161k • written 2.5 years ago by Nelo ▴ 20

score 1 · Answer 1 · 2021-10-29

1

Entering edit mode

2.5 years ago

Pierre Lindenbaum 161k

cut -d ' ' -f 1,2  in.fasta

ADD COMMENT • link 2.5 years ago by Pierre Lindenbaum 161k