Question

Adding numbers after duplicate headers in fasta files

0

Entering edit mode

17 months ago

name_hidden • 0

If I have the .fasta file consisting of a sequence of genes from certain species, how do I add numbers after duplicate headers in such a manner:

i.e. before

>Homo Sapiens
ABCDEFG

>Mus Musculus
EDFGHIK

>Homo Sapiens
XYGFS

after

>Homo Sapiens_1
ABCDEFG

>Mus Musculus
EDFGHIK

>Homo Sapiens_2
XYGFS

linux • 727 views

ADD COMMENT • link 17 months ago by name_hidden • 0

score 1 · Answer 1 · 2022-11-05

1

Entering edit mode

17 months ago

rpolicastro 13k

Here's a seqkit answer too.

seqkit rename -n file.fasta

ADD COMMENT • link 17 months ago by rpolicastro 13k

score 0 · Answer 2 · 2022-11-05

0

Entering edit mode

17 months ago

Pierre Lindenbaum 161k

 awk '/^>/ {printf("%s%s\t",(N>0?"\n":""),$0);N++;next;} {printf("%s",$0);} END {printf("\n");}' < in.fa |\
sort -t $'\t' -k1,1 |\
awk -F '\t' '{N++;if($1!=P) N=1;printf("%s_%d\t%s\n",$1,N,$2);P=$1;}' |\
tr "\t" "\n"

ADD COMMENT • link 17 months ago by Pierre Lindenbaum 161k

0

Entering edit mode

that still adds the one to non-replicate header species.

ADD REPLY • link 17 months ago by name_hidden • 0