ENA and SRA fastq files
1
0
Entering edit mode
6 months ago
Sbrillo • 0

Hi,

I downloaded the same file using in one case the ENA archive (directly from the browser) and in the other case the sratoolkit (prefetch and then fastq-dump conversion).

Do you know why these files have a different format?

ENA:

@SRR1531443.1 /1
TCTGGGTTGTTTCGGAGGTGGGTAGTCTTCGTTTGGGGATGTTTTTGTGGTTGATTGTTTCAGGTGGGGTTGTGTGTCATTGGAGTGTGTTGTGTTTGTGATGGGGTAGTGGATTATCCCTGCGGTGTGTATTGGGGGTTTTGAGGTTTGGTTTTGTGTGTTTTTTTTGTTGTGTTGGTTCGGTGTTGTGTTTGG
+
""!""""""""""""""""#"""""#!"!"!""""!!""""!"""!"#!""""""!#""""""!!""""!"""""!""""!""""""""#"""!""!"!#"""!""""""!!""!""!!"!""!"!!!"""#"!!!"""!"!""""!""!"!!""""""##!!"!!""""""#"""""!"!"""#"""!""""!"
@SRR1531443.2 /1
TGTGTTGTCGTTGGATTTGTTATGTTGATTGTGGGTCTAGTTGGTGGGTTTGTTTTTGGTAGTTGTTTATGTCGGGTTGGTGGGTCTTTGGGTCGTGGGCTCGTTGTTGGTTGCTGTGATGGTTTCGGTGAGTTGTTGTTTGGTGGGGTGGTTGTGTCGAGTGGGGCTTGTGTGTGGGGGTGGGTGGCG
+
"""""""""""""!"""""!"""$!"!""!"!!"""""""!!""!""!""""""!""""""#""""""""!#""!!""!"""""""""!""""""!""""#"#"!""""!""!""""""!"""""""""!!""""""#""!"""""!""!""""!""""#"""!"""""""""""#"""""""!"!!!"
@SRR1531443.3 /1
GTTGTTTCGATTTTTTTTCTGTGGATGTGGTGTTTTGGTTTGTTTGTTTTGTGATCTTGTGTTCTGTGGCTGTGCGTGTTTGGTGTTGGGTTGTGTGTTTGGTTTTTTTTCGGTTTTGGTTGTTGTTGTTGTTGTTGATTCTGCTGGTTTGTCTTTGGGTGTTGTGGTGTGATTTTTGTTTGATATGTTGATGTGTGATGGTTAT

SRA archive (sra toolkit) :

@SRR1531443.1 length=195
TCTGGGTTGTTTCGGAGGTGGGTAGTCTTCGTTTGGGGATGTTTTTGTGGTTGATTGTTTCAGGTGGGGTTGTGTGTCATTGGAGTGTGTTGTGTTTGTGATGGGGTAGTGGATTATCCCTGCGGTGTGTATTGGGGGTTTTGAGGTTTGGTTTTGTGTGTTTTTTTTGTTGTGTTGGTTCGGTGTTGTGTTTGG
+SRR1531443.1 length=195
""!""""""""""""""""#"""""#!"!"!""""!!""""!"""!"#!""""""!#""""""!!""""!"""""!""""!""""""""#"""!""!"!#"""!""""""!!""!""!!"!""!"!!!"""#"!!!"""!"!""""!""!"!!""""""##!!"!!""""""#"""""!"!"""#"""!""""!"
@SRR1531443.2 length=189
TGTGTTGTCGTTGGATTTGTTATGTTGATTGTGGGTCTAGTTGGTGGGTTTGTTTTTGGTAGTTGTTTATGTCGGGTTGGTGGGTCTTTGGGTCGTGGGCTCGTTGTTGGTTGCTGTGATGGTTTCGGTGAGTTGTTGTTTGGTGGGGTGGTTGTGTCGAGTGGGGCTTGTGTGTGGGGGTGGGTGGCG
+SRR1531443.2 length=189
"""""""""""""!"""""!"""$!"!""!"!!"""""""!!""!""!""""""!""""""#""""""""!#""!!""!"""""""""!""""""!""""#"#"!""""!""!""""""!"""""""""!!""""""#""!"""""!""!""""!""""#"""!"""""""""""#"""""""!"!!!"
@SRR1531443.3 length=205
GTTGTTTCGATTTTTTTTCTGTGGATGTGGTGTTTTGGTTTGTTTGTTTTGTGATCTTGTGTTCTGTGGCTGTGCGTGTTTGGTGTTGGGTTGTGTGTTTGGTTTTTTTTCGGTTTTGGTTGTTGTTGTTGTTGTTGATTCTGCTGGTTTGTCTTTGGGTGTTGTGGTGTGATTTTTGTTTGATATGTTGATGTGTGATGGTTAT

Is this difference (+ / +SRR1531443.1 length=195) have an impact during common operation like assembly/alignment/kmer generation ?

My dataset consists of PacBio reads and Illumina reads, do you suggest download both the datasets from the same archive? (in my case SRA)

fastq ENA sratoolkit next-gen Assembly • 345 views
ADD COMMENT
0
Entering edit mode

https://trace.ncbi.nlm.nih.gov/Traces/sra/?run=SRR1531443 is a PacBio dataset. Not sure why ENA has added Illumina style headers (@SRR1531443.1 /1) though the data is clearly long read.

ADD REPLY
2
Entering edit mode
6 months ago
Rayan Chikhi ★ 1.5k

"Is this difference (+ / +SRR1531443.1 length=195) have an impact during common operation like assembly/alignment/kmer generation ?"

-> no. Headers are ignored during all analyses.

ADD COMMENT

Login before adding your answer.

Traffic: 2503 users visited in the last hour
Help About
FAQ
Access RSS
API
Stats

Use of this site constitutes acceptance of our User Agreement and Privacy Policy.

Powered by the version 2.3.6