Confusing header after mapping w/ STAR using Ensembl refgenome
0
0
Entering edit mode
8.2 years ago
umn_bist ▴ 390

After a very (very) fast alignment with STAR (2-pass mode) for my RNA-seq, I viewed the header using samtools to make sure everything was sorted, aligned correctly. I used Gencode/Ensembl's lastest reference genome build (GrCh38.p5).

Here is my STAR input:

${STAR} --runMode alignReads --twopassMode Basic --runThreadN 24 --outSAMtype BAM SortedByCoordinate --outSAMattributes All --outFileNamePrefix "${file1%_1.fastq}_tsta" --outSAMmapqUnique 255 --sjdbGTFfile "${sjdb}" --genomeDir "${STAR_index}" --readFilesIn "${file7}" "${file8}"

Here is my 'samtools view -H' output:

@SQ    SN:chr15    LN:101991189
@SQ    SN:chr16    LN:90338345
@SQ    SN:chr17    LN:83257441
@SQ    SN:chr18    LN:80373285
@SQ    SN:chr19    LN:58617616
@SQ    SN:chr20    LN:64444167
@SQ    SN:chr21    LN:46709983
@SQ    SN:chr22    LN:50818468
@SQ    SN:chrX    LN:156040895
@SQ    SN:chrY    LN:57227415
@SQ    SN:chrM    LN:16569
@SQ    SN:GL000008.2    LN:209709
@SQ    SN:GL000009.2    LN:201709
@SQ    SN:GL000194.1    LN:191469
@SQ    SN:GL000195.1    LN:182896
@SQ    SN:GL000205.2    LN:185591
@SQ    SN:GL000208.1    LN:92689
@SQ    SN:GL000213.1    LN:164239
@SQ    SN:GL000214.1    LN:137718
@SQ    SN:GL000216.2    LN:176608
@SQ    SN:GL000218.1    LN:161147
@SQ    SN:GL000219.1    LN:179198
@SQ    SN:GL000220.1    LN:161802
@SQ    SN:GL000221.1    LN:155397
@SQ    SN:GL000224.1    LN:179693
@SQ    SN:GL000225.1    LN:211173
@SQ    SN:GL000226.1    LN:15008
@SQ    SN:KN538364.1    LN:415308
@SQ    SN:KQ031383.1    LN:467143
@SQ    SN:KN538369.1    LN:541038
@SQ    SN:JH159136.1    LN:200998
@SQ    SN:JH159137.1    LN:191409
@SQ    SN:KQ031387.1    LN:320750
@SQ    SN:KN538360.1    LN:460100
@SQ    SN:KN196484.1    LN:370917
@SQ    SN:KN196476.1    LN:305979
@SQ    SN:KN196479.1    LN:330164
@SQ    SN:KN196473.1    LN:166200
@SQ    SN:KN196487.1    LN:101150
@SQ    SN:KN196475.1    LN:451168
@SQ    SN:KQ090016.1    LN:245716
@SQ    SN:KN538361.1    LN:305542
@SQ    SN:KN196474.1    LN:122022
@SQ    SN:KQ090022.1    LN:181958
@SQ    SN:KN196478.1    LN:268330
@SQ    SN:KN196480.1    LN:277797
@SQ    SN:KQ090028.1    LN:407387
@SQ    SN:KN196483.1    LN:35455
@SQ    SN:KN196481.1    LN:108875
@SQ    SN:KN538363.1    LN:365499
@SQ    SN:KN538362.1    LN:208149
@SQ    SN:KQ031385.1    LN:373699
@SQ    SN:KQ031386.1    LN:165718
@SQ    SN:KQ031388.1    LN:179932
@SQ    SN:KN538365.1    LN:14347
@SQ    SN:KN538366.1    LN:85284
@SQ    SN:KN538367.1    LN:420164
@SQ    SN:KN538370.1    LN:86533
@SQ    SN:KN538373.1    LN:148762
@SQ    SN:KN538371.1    LN:206320
@SQ    SN:KQ031384.1    LN:481245
@SQ    SN:KN538372.1    LN:356766
@SQ    SN:KQ090021.1    LN:264545
@SQ    SN:KN196482.1    LN:211377
@SQ    SN:KQ458386.1    LN:405389
@SQ    SN:KN196472.1    LN:186494
@SQ    SN:GL383545.1    LN:179254
@SQ    SN:GL383546.1    LN:309802
@SQ    SN:KI270824.1    LN:181496
@SQ    SN:KI270825.1    LN:188315
@SQ    SN:KQ090020.1    LN:185507
@SQ    SN:GL383547.1    LN:154407
@SQ    SN:KN538368.1    LN:203552
@SQ    SN:KI270826.1    LN:186169
@SQ    SN:KI270827.1    LN:67707
@SQ    SN:KI270829.1    LN:204059
@SQ    SN:KI270830.1    LN:177092
@SQ    SN:KI270831.1    LN:296895
@SQ    SN:KI270832.1    LN:210133
@SQ    SN:KI270902.1    LN:106711
@SQ    SN:KI270903.1    LN:214625
@SQ    SN:KI270927.1    LN:218612
@SQ    SN:GL877875.1    LN:167313
@SQ    SN:GL383549.1    LN:120804
@SQ    SN:GL383550.2    LN:169178
@SQ    SN:KQ090023.1    LN:109323
@SQ    SN:GL877876.1    LN:408271
@SQ    SN:GL383552.1    LN:138655
@SQ    SN:KI270904.1    LN:572349
@SQ    SN:GL383553.2    LN:152874
@SQ    SN:KI270835.1    LN:238139
@SQ    SN:GL383551.1    LN:184319
@SQ    SN:KI270837.1    LN:40090
@SQ    SN:KI270833.1    LN:76061
@SQ    SN:KI270834.1    LN:119498
@SQ    SN:KI270836.1    LN:56134
@SQ    SN:KI270838.1    LN:306913
@SQ    SN:KI270839.1    LN:180306
@SQ    SN:KI270840.1    LN:191684
@SQ    SN:KI270841.1    LN:169134
@SQ    SN:KI270842.1    LN:37287
@SQ    SN:KI270843.1    LN:103832
@SQ    SN:KQ090024.1    LN:168146
@SQ    SN:KQ090025.1    LN:123480
@SQ    SN:KI270844.1    LN:322166
@SQ    SN:KI270845.1    LN:180703
@SQ    SN:KI270846.1    LN:1351393
@SQ    SN:KI270847.1    LN:1511111
@SQ    SN:KI270852.1    LN:478999
@SQ    SN:KI270848.1    LN:327382
@SQ    SN:GL383554.1    LN:296527
@SQ    SN:KI270906.1    LN:196384
@SQ    SN:GL383555.2    LN:388773
@SQ    SN:KI270851.1    LN:263054
@SQ    SN:KI270849.1    LN:244917
@SQ    SN:KI270905.1    LN:5161414
@SQ    SN:KI270850.1    LN:430880
@SQ    SN:KQ031389.1    LN:2365364
@SQ    SN:KI270853.1    LN:2659700
@SQ    SN:GL383556.1    LN:192462
@SQ    SN:GL383557.1    LN:89672
@SQ    SN:KI270855.1    LN:232857
@SQ    SN:KQ031390.1    LN:169136
@SQ    SN:KI270856.1    LN:63982
@SQ    SN:KQ090027.1    LN:267463
@SQ    SN:KQ090026.1    LN:59016
@SQ    SN:KI270854.1    LN:134193
@SQ    SN:KI270909.1    LN:325800
@SQ    SN:GL383563.3    LN:375691
@SQ    SN:KI270861.1    LN:196688
@SQ    SN:GL383564.2    LN:133151
@SQ    SN:GL000258.2    LN:1821992
@SQ    SN:KI270860.1    LN:178921
@SQ    SN:KI270907.1    LN:137721
@SQ    SN:KI270862.1    LN:391357
@SQ    SN:GL383565.1    LN:223995
@SQ    SN:KI270908.1    LN:1423190
@SQ    SN:KI270910.1    LN:157099
@SQ    SN:GL383566.1    LN:90219
@SQ    SN:JH159146.1    LN:278131
@SQ    SN:JH159147.1    LN:70345
@SQ    SN:JH159148.1    LN:88070
@SQ    SN:KI270857.1    LN:2877074
@SQ    SN:KI270858.1    LN:235827
@SQ    SN:KI270859.1    LN:108763
@SQ    SN:GL383567.1    LN:289831
@SQ    SN:GL383568.1    LN:104552
@SQ    SN:GL383569.1    LN:167950
@SQ    SN:GL383570.1    LN:164789
@SQ    SN:GL383571.1    LN:198278
@SQ    SN:GL383572.1    LN:159547
@SQ    SN:KI270863.1    LN:167999
@SQ    SN:KI270864.1    LN:111737
...
...
...

I'm going to assume that this was done correctly and the notations represent (mostly) unplaced contigs, but I did not expect chr1-chr14 to be missing. I'm wondering if I can continue on using this bam file (after sorting, adding RG) for GATK variant calling workflow (snpEff, MuTect2).

I omitted some of the header to meet character limit.

RNA-Seq STAR samtools Ensembl GrCh38.p5 • 2.5k views
ADD COMMENT
0
Entering edit mode

If you samtools view -H | grep "``chr14", does it return anything?

ADD REPLY

Login before adding your answer.

Traffic: 1742 users visited in the last hour
Help About
FAQ
Access RSS
API
Stats

Use of this site constitutes acceptance of our User Agreement and Privacy Policy.

Powered by the version 2.3.6