Question: Confusing header after mapping w/ STAR using Ensembl refgenome
0
gravatar for umn_bist
3.3 years ago by
umn_bist320
umn_bist320 wrote:

After a very (very) fast alignment with STAR (2-pass mode) for my RNA-seq, I viewed the header using samtools to make sure everything was sorted, aligned correctly. I used Gencode/Ensembl's lastest reference genome build (GrCh38.p5).

Here is my STAR input:

${STAR} --runMode alignReads --twopassMode Basic --runThreadN 24 --outSAMtype BAM SortedByCoordinate --outSAMattributes All --outFileNamePrefix "${file1%_1.fastq}_tsta" --outSAMmapqUnique 255 --sjdbGTFfile "${sjdb}" --genomeDir "${STAR_index}" --readFilesIn "${file7}" "${file8}"

Here is my 'samtools view -H' output:

@SQ    SN:chr15    LN:101991189
@SQ    SN:chr16    LN:90338345
@SQ    SN:chr17    LN:83257441
@SQ    SN:chr18    LN:80373285
@SQ    SN:chr19    LN:58617616
@SQ    SN:chr20    LN:64444167
@SQ    SN:chr21    LN:46709983
@SQ    SN:chr22    LN:50818468
@SQ    SN:chrX    LN:156040895
@SQ    SN:chrY    LN:57227415
@SQ    SN:chrM    LN:16569
@SQ    SN:GL000008.2    LN:209709
@SQ    SN:GL000009.2    LN:201709
@SQ    SN:GL000194.1    LN:191469
@SQ    SN:GL000195.1    LN:182896
@SQ    SN:GL000205.2    LN:185591
@SQ    SN:GL000208.1    LN:92689
@SQ    SN:GL000213.1    LN:164239
@SQ    SN:GL000214.1    LN:137718
@SQ    SN:GL000216.2    LN:176608
@SQ    SN:GL000218.1    LN:161147
@SQ    SN:GL000219.1    LN:179198
@SQ    SN:GL000220.1    LN:161802
@SQ    SN:GL000221.1    LN:155397
@SQ    SN:GL000224.1    LN:179693
@SQ    SN:GL000225.1    LN:211173
@SQ    SN:GL000226.1    LN:15008
@SQ    SN:KN538364.1    LN:415308
@SQ    SN:KQ031383.1    LN:467143
@SQ    SN:KN538369.1    LN:541038
@SQ    SN:JH159136.1    LN:200998
@SQ    SN:JH159137.1    LN:191409
@SQ    SN:KQ031387.1    LN:320750
@SQ    SN:KN538360.1    LN:460100
@SQ    SN:KN196484.1    LN:370917
@SQ    SN:KN196476.1    LN:305979
@SQ    SN:KN196479.1    LN:330164
@SQ    SN:KN196473.1    LN:166200
@SQ    SN:KN196487.1    LN:101150
@SQ    SN:KN196475.1    LN:451168
@SQ    SN:KQ090016.1    LN:245716
@SQ    SN:KN538361.1    LN:305542
@SQ    SN:KN196474.1    LN:122022
@SQ    SN:KQ090022.1    LN:181958
@SQ    SN:KN196478.1    LN:268330
@SQ    SN:KN196480.1    LN:277797
@SQ    SN:KQ090028.1    LN:407387
@SQ    SN:KN196483.1    LN:35455
@SQ    SN:KN196481.1    LN:108875
@SQ    SN:KN538363.1    LN:365499
@SQ    SN:KN538362.1    LN:208149
@SQ    SN:KQ031385.1    LN:373699
@SQ    SN:KQ031386.1    LN:165718
@SQ    SN:KQ031388.1    LN:179932
@SQ    SN:KN538365.1    LN:14347
@SQ    SN:KN538366.1    LN:85284
@SQ    SN:KN538367.1    LN:420164
@SQ    SN:KN538370.1    LN:86533
@SQ    SN:KN538373.1    LN:148762
@SQ    SN:KN538371.1    LN:206320
@SQ    SN:KQ031384.1    LN:481245
@SQ    SN:KN538372.1    LN:356766
@SQ    SN:KQ090021.1    LN:264545
@SQ    SN:KN196482.1    LN:211377
@SQ    SN:KQ458386.1    LN:405389
@SQ    SN:KN196472.1    LN:186494
@SQ    SN:GL383545.1    LN:179254
@SQ    SN:GL383546.1    LN:309802
@SQ    SN:KI270824.1    LN:181496
@SQ    SN:KI270825.1    LN:188315
@SQ    SN:KQ090020.1    LN:185507
@SQ    SN:GL383547.1    LN:154407
@SQ    SN:KN538368.1    LN:203552
@SQ    SN:KI270826.1    LN:186169
@SQ    SN:KI270827.1    LN:67707
@SQ    SN:KI270829.1    LN:204059
@SQ    SN:KI270830.1    LN:177092
@SQ    SN:KI270831.1    LN:296895
@SQ    SN:KI270832.1    LN:210133
@SQ    SN:KI270902.1    LN:106711
@SQ    SN:KI270903.1    LN:214625
@SQ    SN:KI270927.1    LN:218612
@SQ    SN:GL877875.1    LN:167313
@SQ    SN:GL383549.1    LN:120804
@SQ    SN:GL383550.2    LN:169178
@SQ    SN:KQ090023.1    LN:109323
@SQ    SN:GL877876.1    LN:408271
@SQ    SN:GL383552.1    LN:138655
@SQ    SN:KI270904.1    LN:572349
@SQ    SN:GL383553.2    LN:152874
@SQ    SN:KI270835.1    LN:238139
@SQ    SN:GL383551.1    LN:184319
@SQ    SN:KI270837.1    LN:40090
@SQ    SN:KI270833.1    LN:76061
@SQ    SN:KI270834.1    LN:119498
@SQ    SN:KI270836.1    LN:56134
@SQ    SN:KI270838.1    LN:306913
@SQ    SN:KI270839.1    LN:180306
@SQ    SN:KI270840.1    LN:191684
@SQ    SN:KI270841.1    LN:169134
@SQ    SN:KI270842.1    LN:37287
@SQ    SN:KI270843.1    LN:103832
@SQ    SN:KQ090024.1    LN:168146
@SQ    SN:KQ090025.1    LN:123480
@SQ    SN:KI270844.1    LN:322166
@SQ    SN:KI270845.1    LN:180703
@SQ    SN:KI270846.1    LN:1351393
@SQ    SN:KI270847.1    LN:1511111
@SQ    SN:KI270852.1    LN:478999
@SQ    SN:KI270848.1    LN:327382
@SQ    SN:GL383554.1    LN:296527
@SQ    SN:KI270906.1    LN:196384
@SQ    SN:GL383555.2    LN:388773
@SQ    SN:KI270851.1    LN:263054
@SQ    SN:KI270849.1    LN:244917
@SQ    SN:KI270905.1    LN:5161414
@SQ    SN:KI270850.1    LN:430880
@SQ    SN:KQ031389.1    LN:2365364
@SQ    SN:KI270853.1    LN:2659700
@SQ    SN:GL383556.1    LN:192462
@SQ    SN:GL383557.1    LN:89672
@SQ    SN:KI270855.1    LN:232857
@SQ    SN:KQ031390.1    LN:169136
@SQ    SN:KI270856.1    LN:63982
@SQ    SN:KQ090027.1    LN:267463
@SQ    SN:KQ090026.1    LN:59016
@SQ    SN:KI270854.1    LN:134193
@SQ    SN:KI270909.1    LN:325800
@SQ    SN:GL383563.3    LN:375691
@SQ    SN:KI270861.1    LN:196688
@SQ    SN:GL383564.2    LN:133151
@SQ    SN:GL000258.2    LN:1821992
@SQ    SN:KI270860.1    LN:178921
@SQ    SN:KI270907.1    LN:137721
@SQ    SN:KI270862.1    LN:391357
@SQ    SN:GL383565.1    LN:223995
@SQ    SN:KI270908.1    LN:1423190
@SQ    SN:KI270910.1    LN:157099
@SQ    SN:GL383566.1    LN:90219
@SQ    SN:JH159146.1    LN:278131
@SQ    SN:JH159147.1    LN:70345
@SQ    SN:JH159148.1    LN:88070
@SQ    SN:KI270857.1    LN:2877074
@SQ    SN:KI270858.1    LN:235827
@SQ    SN:KI270859.1    LN:108763
@SQ    SN:GL383567.1    LN:289831
@SQ    SN:GL383568.1    LN:104552
@SQ    SN:GL383569.1    LN:167950
@SQ    SN:GL383570.1    LN:164789
@SQ    SN:GL383571.1    LN:198278
@SQ    SN:GL383572.1    LN:159547
@SQ    SN:KI270863.1    LN:167999
@SQ    SN:KI270864.1    LN:111737
...
...
...

I'm going to assume that this was done correctly and the notations represent (mostly) unplaced contigs, but I did not expect chr1-chr14 to be missing. I'm wondering if I can continue on using this bam file (after sorting, adding RG) for GATK variant calling workflow (snpEff, MuTect2).

I omitted some of the header to meet character limit.

ADD COMMENTlink modified 3.3 years ago • written 3.3 years ago by umn_bist320

if you samtools view -H | grep "chr14", does it return anything?

ADD REPLYlink written 3.3 years ago by h.mon25k
Please log in to add an answer.

Help
Access

Use of this site constitutes acceptance of our User Agreement and Privacy Policy.
Powered by Biostar version 2.3.0
Traffic: 1799 users visited in the last hour