Question

split files in Linux with pattern match

0

Entering edit mode

6.5 years ago

skjobs1234 ▴ 40

I have a file contents with specific pattern, I would like to split that file into multiple file after pattern match and file name should be with after pattern match words Examples

P1_1r6r

NRVSTVQQLTKRFSLGMLQGRGPLKLFMALVAFLRFLTIPPTAGILKRWGTIKKSKAINV
LRGFRKEIGRMLNILNRRRRRVSTVQQLTKRFSLGMLQGRGPLKLFMALVAFLRFLTIP

P1_1sfk

MALVAFLRFLTIPPTAGILKRWGTIKKSKAINVLRGFRKEIGRMLNILNRRRRRVSTVQQ LTKRFSLGMLQGRGPLKLFMALVAFLRFLTIPPTAGILKRWGTIKKSKAINVLRGFRKEI

P1_12562

RFSLPLKLFMALVAFLRFLTIPPTAGILKRWGTIKKSKAINVLRGFRKEIGRM LNILNRRRRRVSTVQQLTKRFSLGMLQGRGPLKLFMALVAFLRFLTIPPTAGILKRWGTI

So, here pattern is P1, I want to split the above file into 3 different files contenst with file name like 1r6r,1sfk,12562.

Thanks

sequence • 2.6k views

ADD COMMENT • link updated 6.5 years ago by Kevin Blighe 87k • written 6.5 years ago by skjobs1234 ▴ 40

2

Entering edit mode

your input format is not clear . is it fasta ?

ADD REPLY • link 6.5 years ago by Pierre Lindenbaum 161k

2

Entering edit mode

with awk and sed: Input:

$ cat test.txt 
P1_1r6r
NRVSTVQQLTKRFSLGMLQGRGPLKLFMALVAFLRFLTIPPTAGILKRWGTIKKSKAINV
LRGFRKEIGRMLNILNRRRRRVSTVQQLTKRFSLGMLQGRGPLKLFMALVAFLRFLTIP
P1_1sfk
MALVAFLRFLTIPPTAGILKRWGTIKKSKAINVLRGFRKEIGRMLNILNRRRRRVSTVQQ LTKRFSLGMLQGRGPLKLFMALVAFLRFLTIPPTAGILKRWGTIKKSKAINVLRGFRKEI
P1_12562
RFSLPLKLFMALVAFLRFLTIPPTAGILKRWGTIKKSKAINVLRGFRKEIGRM LNILNRRRRRVSTVQQLTKRFSLGMLQGRGPLKLFMALVAFLRFLTIPPTAGILKRWGTI

command:

 $ sed -e 'N;s/\n/\t/;s/^P.*_//g'  test.txt | awk -F"\t" '{print $2 > $1}'

output:

$ ls
12562  1r6r  1sfk   test.txt

$ cat 12562 
RFSLPLKLFMALVAFLRFLTIPPTAGILKRWGTIKKSKAINVLRGFRKEI
GRMLNILNRRRRRVSTVQQLTKRFSLGMLQGRGPLKLFMALVAFLRFLTI
PPTAGILKRWGTI

Note: All AA are in single line post identifier (each 2nd line after identifier)

ADD REPLY • link 6.5 years ago by cpad0112 21k

0

Entering edit mode

probably a duplicate of How To Split One Big Sequence File Into Multiple Files With Less Than 1000 Sequences In A Single File ; How To Split A Multiple Fasta ; ...

ADD REPLY • link 6.5 years ago by Pierre Lindenbaum 161k

score 2 · Accepted Answer · 2017-11-05

Maybe this is the desired output?

File: 1r6r

NRVSTVQQLTKRFSLGMLQGRGPLKLFMALVAFLRFLTIPPTAGILKRWGTIKKSKAINV
LRGFRKEIGRMLNILNRRRRRVSTVQQLTKRFSLGMLQGRGPLKLFMALVAFLRFLTIP

File: 1sfk

MALVAFLRFLTIPPTAGILKRWGTIKKSKAINVLRGFRKEIGRMLNILNRRRRRVSTVQQ 
LTKRFSLGMLQGRGPLKLFMALVAFLRFLTIPPTAGILKRWGTIKKSKAINVLRGFRKEI

File: 12562

RFSLPLKLFMALVAFLRFLTIPPTAGILKRWGTIKKSKAINVLRGFRKEIGRM 
LNILNRRRRRVSTVQQLTKRFSLGMLQGRGPLKLFMALVAFLRFLTIPPTAGILKRWGTI

Assuming that the data is in MyProtein.fasta, this can produce this output (assuming FASTA headers as '>P1_1r6r', '>P1_1sfk', et cetera):

awk -F"_" '/^>P1/ {file=$2; printf "" > file}; !/^>P1/ {print >> file}' MyProtein.fasta

If the headers are just 'P1_1r6r', 'P1_1sfk', et cetera' (without the greater than symbol):

awk -F"_" '/^P1/ {file=$2; printf "" > file}; !/^P1/ {print >> file}' MyProtein.fasta