Question

fast-dump of 10x genomics SRA data

0

Entering edit mode

5.0 years ago

linjc.xmu ▴ 30

Dear all, I used fastq-dump to extract single cell SRA data of 10X genomics. But the sequences ID are seemed not paired between read1 and read2. Did anyone meet with this problem?

> fastq-dump --split-files --origfmt SRR8315908.sra

Rejected 105369008 READS because READLEN < 1
Read 105369008 spots for SRR8315908.sra
Written 105369008 spots for SRR8315908.sra
> head SRR8315908_1.fastq

@1
NTTCTCGAGTCACGCCAAAAGCAGCC
+1
#AAAAEEEEEEEEEEEEEEEEEEEEE
@2
NGAATAGGTGTCCTCTACTCCCATAT
+2
#AAAAEEEEEEEEEEEEEEEEEEEEE
@3
NTTGTCAGTTCACCTCTCTACTGATC

> head SRR8315908_2.fastq

@52684505
NNNNTCTTTGCTCTATGGTTCGGCTTGAAGAATTAATTAGTTTGGTAGTTTTGTAATATTTTGAGAAATAGAGGGGTTGGGTTTGTAATTTTTTTTCT
+52684505
####////E////E///</EEE/EAEEE/EEAAA/A<AEEE6EEEAEEAE/A<AEAAE<EEEAEEEEEAEA<EE<EEAEAE<EE/EEE/A/A/E<EEA
@52684506
NNNNTCTTTCAATGGAGTTATTGTGAAATTGCATGACTGGCCCAAGAGTAATTAATTAAATATGGATTAGTGTTAAATTTCGTATGTTAATATTTGTA
+52684506
####AAEE/A/<///<//<////AAAAEAEEEEEE<EEE/A/A<AAEAAEE//6A6<E<EEEEEE/EEEEE/EE</EEEEEEEEEEEAEE<E<<AAEE
@52684507
NNNNGTATATGGTCTACAATTAGAGAGATTGAGACAGATAGAAGAACTCCGAAATAAAACTCCGAAACACTCTTTGTTCTTTGTTTGTGTCTCTTCCC

sequence • 4.0k views

ADD COMMENT • link updated 5.0 years ago by GenoMax 141k • written 5.0 years ago by linjc.xmu ▴ 30

1

Entering edit mode

The shorter reads are cell barcodes/UMI and longer reads as actual sequence data.

That said ENA seems to contain only one fastq file for this accession number. That must be incorrect.

ADD REPLY • link 5.0 years ago by GenoMax 141k

0

Entering edit mode

I think seq ID should be equal for one cell barcode/UMI and one sequence in read 2. Is there any way to repair the pair?

ADD REPLY • link 5.0 years ago by linjc.xmu ▴ 30

2

Entering edit mode

That is correct. You could try to rewrite the headers in file 2 programmatically to match file 1 but a manipulation like that is risky for original data.

Since you are unable to generate the original Illumina headers using the right command option you may want to contact the authors to let them know. They may not have uploaded the data properly. They may be willing to share a copy with you directly.

ADD REPLY • link 5.0 years ago by GenoMax 141k