Question

Problem in processing SRA file from NCBI

0

Entering edit mode

6.5 years ago

majeedaasim ▴ 60

I downloaded the SRA file from NCBI for my organism of interest. It is Illumina sequenced paired end RNA data. Normally to create an assembly forward and reverse reads are required by Trinity. However the downloaded file has no separate fprward and reverse reads. It appears to be a merged file. The _1 and _2 suffixes suggest that.

I wonder how can I split the forward and reverse reads if it is merged. Is there any other way to get such data.

Thanks

SRA ncbi • 2.1k views

ADD COMMENT • link updated 5.6 years ago by gtrwst9 • 0 • written 6.5 years ago by majeedaasim ▴ 60

1

Entering edit mode

How did you process the SRA file? Did you use the --split-files and -F options with fastq-dump to split the two read files and recover original Illumina fastq headers? Post the SRA # if you want someone to check on it.

ADD REPLY • link 6.5 years ago by GenoMax 141k

0

Entering edit mode

I have not processed it yet. I just downloaded the SRA file through galaxy. On viewing the file it looks like this

@FCC0MWCACXX:3:1101:1249:2088/1
NATCCGCCTAAGGAGGGGCTCACGTCTGATTAGCTAGTTGGTGAGGCAATGGCTTACCAAGGCTCCGATCAGTAGTTGGTCTGAGAGGAT
+
#4=DFFFFHHHHHIJJJJJJJJJJGHIJJJJIJJJIJGIIIFGIIDHIJIJJJIIGHHHHDFFFCDDDBDDDDDDFDDCBCDCCDDDDBD
@FCC0MWCACXX:3:1101:1249:2088/2
CACGCGGCATTGCTCCGTCAGGCTTTCGCCCATTGCGGAAAATTCCTCACTGCTGCCTCCCGTAGGAGTCTGGGCCGTGTCTCAGTCCCA
+
CCCFFFFFHGHHHJJJIHIJJJJIJJJJJJJJIJJJJJGJHHEHFFFFFFEEEEEEDCDDDDBDDDDD<CDDDDDDDBBBDDDEDDDDDD
@FCC0MWCACXX:3:1101:1175:2193/1
CAAATTCAAACCGCGCAGGAAGTCCCTCTTCCAACAATGCTGGACTCGCCCCTAATGCCGCTACTCCTCAGCCAGAGTTAAATCACAATA
+
CCCFFFFFHGHHHIIIJJIIJEDHIJFJIGIIJJJIJIGIJJJJJIGGIIGHFFFFFFFDDDDDCDDDDCACDDDDD>ACDDEDDDDDDD
@FCC0MWCACXX:3:1101:1175:2193/2
CTGATTTTTTGTCAAAAAACTCCGGCAGAAATCTCTTCTCTGTGCTATGAATTTTGTCCCAAGAAAACCACTTCGAATAGCTGGGGATTT
+
C@CFFFFFHHHHHGIIIJIJGIIGGIIHGGGDHGIJJIIJIIFHHIIJIGGGIIJJHEHHGHEFFFEEDDDDDDB=<>?CDDCDDDDDDD
@FCC0MWCACXX:3:1101:1344:2132/1
CTTTTGGCATTTAATTTATGTATGGTTATTTAATTTTTTTTGTAGCTGACTTGTGGCTCAACATATATTTATTGTAAAGGTTTTAATTTA
+
@CCFDF@DBBFHDGHGIGI>AIGGIFHGIIIGIIIGIIIIIIEFD@GCGHFHICGGEHIIIHHHFGDCDEFFFDE6;;AC@CCBCCCEEC
@FCC0MWCACXX:3:1101:1344:2132/2

ADD REPLY • link updated 6.5 years ago by GenoMax 141k • written 6.5 years ago by majeedaasim ▴ 60

0

Entering edit mode

If you are limited to working in Galaxy then I don't know the option you should use off the top of my head but make sure to choose split-files if that is available. Otherwise this is simple to take care of using reformat.sh from BBMap suite but that will have to be done on the command line. reformat.sh in=SRA.fq out1=R1.fq out2=R2.fq

ADD REPLY • link 6.5 years ago by GenoMax 141k

score 0 · Answer 1 · 2017-11-07

0

Entering edit mode

6.5 years ago

Sean Davis 26k

The --split-files argument to fastq-dump is needed. That should produce two separate files if, indeed, the original sequencing was paired-end.

ADD COMMENT • link 6.5 years ago by Sean Davis 26k

score 0 · Answer 2 · 2018-09-07

0

Entering edit mode

5.6 years ago

gtrwst9 • 0

fastq-dump --split-3 SRR...

This does NOT redownload everything.

ADD COMMENT • link 5.6 years ago by gtrwst9 • 0