Question

How to download large-scale cDNA sequences from NCBI effectively ?

0

Entering edit mode

16 days ago

Sony ▴ 10

Hello everyone,

I would like to download cDNA dataset from this published paper. In this paper, the cDNA dataset was submitted in EMBL database. I was not able to download these cDNA sequences in Fasta format from EMBL, but it worked in NCBI. here is the Accession numbers for submitted data can access in NCBI: Oryza sativa ssp. indica cv. Guangluai 4 full-length cDNAs (10,096)

CT827960-CT834770, CT836522-CT836598, CT837477-CT837976, CT834771-CT836521, CT827880-CT827943, CT836599-CT837476

I tried to download it manually in the NCBI website. I want to use script or command line to automatic download 10,096 cDNA sequences above because it not effective incase I download it manually. I create a script to download these dataset, but it not work like my expectation. The download files are log files, not in fasta format.

Here is my script:

#!/bin/bash

start_accession=827960
end_accession=834770

for (( i=$start_accession; i<=$end_accession; i++ )); do
    genbank_number="$i.1"
    download_url="https://www.ncbi.nlm.nih.gov/search/api/download-sequence/?db=nuccore&id=$genbank_number"
    echo "Downloading genbank number $genbank_number..."
    wget "$download_url"
    echo "Download of genbank number $genbank_number completed."
done

Does anyone have any guidance for me in this case? Thank you everyone for any support.

NCBI. cDNA • 384 views

ADD COMMENT • link updated 16 days ago by Pierre Lindenbaum 161k • written 16 days ago by Sony ▴ 10

score 2 · Accepted Answer · 2024-04-13

I think your mixing accession and ncbi gi (depreacted I think).

your first 'i' is start_accession=827960 look like a gid

then you add a kind of version: genbank_number="$i.1" (looks like an accession number now...)

I think you want something like:

echo CT827960-CT834770,CT836522-CT836598,CT837477-CT837976,CT834771-CT836521,CT827880-CT827943,CT836599-CT837476 \
 tr ",-" "\n" |\
cut -c3- |\
paste - - |\
while read A B ; do  for i in $(seq $A 1 $B ); do echo $i; done ; done |\
sed 's/^/CT/' |\
xargs -L 100 echo |\
tr " " "," |\
awk '{ print "https://www.ncbi.nlm.nih.gov/search/api/download-sequence/?db=nuccore&id="$0}' |\
xargs -L 1 wget -O -

>CT827960.1 Oryza sativa (indica cultivar-group) cDNA clone:OSIGCPI031I06, full insert sequence
CTTTGATGATTCTTCTTCTTCCTCCTCATTCAGATATGGATCCTCTGCAACGACTGCGGCGCGACGTCGA
ACGTGAACTTCCACGTCCTGGCGCAGAAGTGCCCCGGATGCAGCTCCTACAACACCCGGGAGACCAGAGG
CTGCGGCCGCCCTGCAGCCGCGCGCTCCACGGTTTGATTTCAGCAGCAGCAGCAGAGACGAGTTGGCATC
CATCTCACAAACTAAGGATGAAATCGAGAGCGACAAACAAGATGCAGAGACGGCTTCCTCTGAACTTAGC
CGTCGAGCAAAAGCTGCAAAATCGATCGGCGTCGAGTTTGGTAGACACTTTGCGCCAAGAGGAGTATGGT
GATTTTGGCGCAGTATGCAGCGAGTTGAATAGCCCATATATGTTGTGTTTTCTCTCTCTCTCTTTTTTGT
GAGGATATATGTTATGTTTTGAAACTCCAACTATTATTATTACTAAATGATACTCCTAATAAAAGAGAGA
CATCTTCTCAAG

>CT827961.1 Oryza sativa (indica cultivar-group) cDNA clone:OSIGCRA205K13, full insert sequence
AAATGGCTGGAGCAGCAGATGGTGAGGGTCTGAGGCCGTTGCCATCCCGCCGGAGCTTACCACCCTCTTC
GTCAGACCTGGTGCCTGCAACAACAGTGAGCTGCTTCTGGTTCCCGGCATCGACGTCTCCCACAGCTCGT
TCTTCAACCGCGCCGACGCCCCAGGCGCCCACGGTGCCCCTGCCGGCTTCCTCGACACTTTCGACGTCGC
CATCAACGGCGCGCTCCGCGCCGCTCCTGCCGCGGCTTCACCGGCTTTCCTCCTGCCGAACCTCAACGAT
GACGCGACTGCGACTCTCCACGCCCAGGCCGTCGCCGTTCTGAACCACGACCGCAGATTCGGGTGGCGCT
GTCATGGAAGGTGGAGAAGAACCGGGGGTGGAGCCGTCGGCATCGGCGACTACAGAGGAACCGACAGCGA
GGTGGAGCAGAAGTCAGCGAGGACGGAGGGAGTGGGTGGTTAAGCCGTGGTGCACTTCCGACGGGGGCGC
CGAGGCAACGGGTGGTTGGTGCATGTGTCCCAGCCTCCGGTGGCAGCAGCGGCCTCAACCCTCAGATCTG
GGGCGGCACAGAGGAAGTTACATGCCAGAAGCCGGCGGCGACAAGAAGCAGCATGGCGGAGATGGAGGCT
GGTGATAAAAAGAACAGCGAATGGTGGAGGCCGTGGCAATGTGAAACAATGTGGACAGCAAAATCTGGAG
ATGGAATCAACAAATGGACCATTACCTCGCTAGCTCCCTTGAGGCTTCTTCCATTGTCAAGATCCAAATC
AACAACAGCCCCCCCCAACCTTTCAATTGAGCCATTGAGGAGTGAAACGACTGCCGACATGCAACGAAAC
GGAGCGGCCAAGAAACACTACGAACTCCACCACGGCCGGCTAGCTTCTGATCTGGCCACTGCCACGACGC
CACACCAGCACACGCTCTCGTGAAACCCTAGGCCCCTCTCCCGCAGGTGTGGCCTTCCCCGACACCGAGC
CTTCACGCGACGGCGGAAGAGATGACCGGCGGCCTGCGGCCACTACTTATTAGGGGAGGATGTGCATCAT
CCGGTGTCATTGCTCTGTGCGCGGGAATAACGCGGCAAGCGGTGGCGGGGATAGCGCTCGAGGCGGTGTT
ACTGCGAAAGGGGTTCTCGCGCTCGCCCGGTGGGATGAGGAATCGGTGATTTCACCGCTACACAGAGGGT
GGGGACATGGGGATTGATTTCACCTGAAGGATTGCTAGTAAGAACTCGTCCATTTTATATTAGTATAGAT
ATAGATAGACCATGAAACCTGTGATTATTTGCCATGCTTCATAATATATGTGGTTTTGTGCAAATTTAAC
CTACCCTCCTGGGCCTGGAAACTACAATAGTTATGGGCCATCACAGGGCCCAAATTATGGACAACCTCAG
TATCCGCAGTCTGCACCTCCACAGAACTATGGGCCTGGTTATGGTGATCCTAGATACAATGCTCCAGCAC
CAAACCAGCAGTACTATGGACAGCCTCCAGCGGGTCCACAGCAAGGCTACCCTCCACAGCAAGATCCCTA
CGCTAGGCCTTATGGTGGACCTGGGACATGGGCACCCAGAGGTGCACCAGCCGGAGATGGCACTTACCAG
GCGCCACCACCTACATCTTATGGCCCACCATCTCAGCAGCCTCCTGCTTATGGTCAGACATATGGGCCAA
CGACTGGACCTTGATGGGGATTTTCAGCAAAAGTTCCCCCCAGCAAAGTGCCCAAGCGCCAACAACAATA
TGGTCAGAGTGCCCCACCAGGGCCAGGGTATGTTCAACAAGGCGCACAGCAAGGGGGTTATGCACAGTAT
CTTCAATCCCAACCAGCATATGGTGATCAAGCAGCTCAAAACAATGCAAACTACGGCTACCAGGGTGCTC
CAGCAGATCCCAACTATGGAAATGCCTACCCACAGGCAGGATACGGTTCTACTCCGGCTAGTGGCCAGGC
TGGATATGCTGCTGCACCGGCTGCTGGCCAGCCAGGGTACGGTCAGCCAGGATACACTCAGCCACCTACA
AATCCACCAGCTTATGATCAGTCTGCCCAGCCACCAGCTCAGAGTGGCTATGCTGCACCTCCTGCAAACC
CACAGCCTGCTGTTGCAAAGGGGGTGTCACCGCAGCCTGCTGGATATGGTGGACAATGGACCGCTTGAGG
TTTGTCCCTCATTATTGACAGCAATGATCTAGTTGAAGACTATGTTTTGCCTCATGATGCTGCCGCTTAT
ATGAAGTAGGCGGTTGAATCCCCTTGGGATGTTCATTCAGTAAGCGGTAGACTTTTGATATGCCTATAAG
GGATGTAACCCCTTGCCTCTCCAGTTGTTATACCGGATCTCTGTAGTAGTTAGTAGTTTGTTAAGATGAC
ATAAAACCTCCTGTTTAGTTTAAAAGTGAACCGAATTATGTGTTATTCTGCAGCATGTCGACTGATGTTT
GGATGCTTAGTCCTAAAAAAAAAAG

>CT827962.1 Oryza sativa (indica cultivar-group) cDNA clone:OSIGCSA036O11, full insert sequence
TAATCTGGAGGCCGTATTTCATGAATACGAGAGGGAGAGTTACAATAAGCTGATTGCCGACATCGAAGCA
CATCCGAACAAAGCAGTTCAGAATGTATTGAAATCCTTCCTGCACAAGATCTACAAGAGGCAGAAGTAGA
GCTAAGCTCATGGAGAAGCTGTTTCATGTTTGCTTGGTAACTAGAGTCGTGGGGACAAATAACTGGTAAC
TAGAGTCATGGGGACAAATAACTGTTCCCTGATGTTGTGTGTATTATGGTTATGTTTGTACCGTGTAGTA
CAGCGTGCTACTCCGTAAAATAATGAAGCATGGTGCTATTTATGCGTGCGTGAACTGCTTGTGTCATT

>CT827963.1 Oryza sativa (indica cultivar-group) cDNA clone:OSIGCSN016D10, full insert sequence
ATCCATATTCCGTCCGTCAGCTACTGCTAGTGGTAGGCTAGATCATCGATGAACGCCATGGATGAGGAGG
AGGAGCAAGAGCAGCCTCCCCAGCGCTACTGGTTCCCGTACTGGACCAGCCCTCCACCGCCTCCGCCCTC
CAGCTCCAGGTACAGGCCGCCGTCACCTCCCTCATCGCGCCATCCCCACCCAACCATCCCAGCTGCCCGC
GCCGCACCACCGCTCGGGCCAACCAACCGCCGCTTGCATCAGCAGCCGCCGCCACCAGCAAGCAGAGATG
GTCGTCACGAGCCTCCTCCCAAGCCCAAGGACGTCGTCGTCATCCCCACCGACACCGTACTGCATCACAA
ACAACCACCACCCACGCATCATCATCAGCACAAGGTGAAAGATCAGGAGGAGAAGAAGGGCGACCTGCGC
AAGGACCTCAAGGCGGGGCTCGCCGGCATGCTCAGCGCCGCCTCCCACGGCCAGCAAGGGACAAGCATCA
TCACGCTGGCCGGCGACAACAAGGGCGCATCCATGAAGATATCCTCCCCCGCCCCAGGCAGCAAGGGCGC
CGGCGACGACAAGAGAAGCAAGGGGGGCGTGAAGGCGATGATCAACAGCAACGTGCAGTCCATCAACAAC
TCGCTGCTTCTCCACAGCTCCTGCAGCGGCGGCGACCTCGGGGTGCACCTCAAGCTCAAGCTCTCCTCAA
ACTCCAAGTCCAAGTCCAAGACCAAGAGCAAGGAGAAGCAGCAGCATAATGTCGTCGCCGATACCAGCAA
CAAGGAGAAGAAGCCCGATAGCAGCCAGGAGAAGAAGGAGGCTGGTGCCAGCGCCGCCAAACCCAACAAG
CCATCCGCCGCTGCCAAAGGCAACAAGCCCGCCGGTGCAGCTAACAAGTGATTCTGCAGACATACTAATG
TATGTATGTGCTTTGTACTGATCTGATTGCCTTCGCCTCATCATAATGATAATCGAATTAAATTTGCGGT
GT