Question

very high maximum-likelihood dS values from PAML

0

Entering edit mode

6.4 years ago

glarue ▴ 70

I have a set of putative paralogous transcript pairs (identified via reciprocal BLASTing) that I've aligned at the protein level and backtranslated. I would like to calculate dS for each pair.

I have run the alignments through PAML (nucleotide), but am getting very high (>60) dS values for many of the pairs using the maximum-likelihood (ML) approach. Under the Nei & Gojobori (NG) method, however, the values are much more reasonable (most are under 2, a few are as high as 8).

Does anyone have any insight into what might cause PAML to produce such high (and, as far as I can tell, uninformative) dS values? As an example, here is a pair of sequences with an ML dS of ~75 (but NG dS of only 2.8):

>36a
------------------------------------------------------------------------------------------------------------------------------------------------------------GCGCTTGGAACCCTTCTTCCGCTTATTCTCTATCTCGCAAACATGAAGCAAATCATCCTCATTGCCGTGGTGCTAGGCTTGGCACTTGCGTACACAGATGAGGAGTACCAAAATTCCTATGCCACCTGGATGCACAAATTCGACAAAGCATACACCTCTGAGGAGTTCCAGGCACGTTTCACCATCTTCAAGCAGAACATGGATTACGTGAGAGATTGGAATGCCGCTGGATCAAGCACT---GTCCTCGGATTGACTGCCTTTGCTGATCTGACCAACGAGGAATACAGACGTGTCTACTTGGGCACTCACTTTGATGGCACTGAGAGATTGAAGAATGCTGTTCCT---TTCACCCTCGAGGCACCTCTTGCTGACACCGTCAACTGGGTGAACAAGGGAGCAGTTACTCCTATCAAGAACCAAGGCCAATGTGGAAGTTGCTGGTCCTTCTCTACCACTGGTAGCACTGAAGGAGCTCACTTCCTCAAGACTGGCAACTTAGTAAGCCTCTCTGAGCAAAACCTCATGGACTGCTCCAAGAAAGAAGGAAACAACGGATGCAACGGTGGAGTCATGGACTATGCCTTCAAGTACATCATCGAAAACAACGGAATTGATACCGAGTCCTCATACCCTTACACTGCTTCCACCAACTTCGATTGCAAGTACAAGGCTGCCAATTCTGGTGCTACCCTTGCCAGCTACAAGGACGTGAACTCTGGCTCCGAGACCGCCTTGGCTACCGCTTCCAAAGATATTGGACCTATCTCTGTTGCCATTGATGCAAGCCACAACTCCTTCCAATTGTACTCCTCTGGTGTGTACTACGAGCCCGAGTGCTCCGCTACACAGTTGGACCACGGAGTGTTGGTCGTTGGCTACGGCACTGACAGTGGTTCTGATTATTGGATTGTTAAGAATTCGTGGGGAACTGATTGGGGAATGTCTGGCTACATTTGGATGTCTCGCAATAGGGACAACAACTGCGGTATTGCGGTACGTGTCTACATTTCTTTTTCACTTTCTCCCCCCCTTTTTTTATATTTTGTTTGGGGTTGGGTACCCTCCCCCTCCCCC
>36b
ATGCAAGCGTTGTACATATGGTTTCATGTTAAGATTATATTGATAAACAAATTTGTAGCTATTATAAAGTTAAGCTCTCCTGTTCCCCGAACCGCATTAATCCATTCAATTTATTCCACTGATTTTTCTCTTACAACTCCTGTCAACAAAAAAGAGTTCCCCGGCTCGTTATTGTCATTTGTA------ACACCAACCATGAAGTACATCCTTGCTCTGTTGCTCCTCGTCGGAGTTGTTAGTTGCTTTACTGAATCAGAGTATCAGGGTGCTTTCTCCAAGTGGATTCAGGAGAGACAAAAGGCATATTCCACGATTGAATTCCAAGCCAGATATGACATCTTCAAGAAAAATATGGACTTTGTGCAGAAGTGGAATGCTGACCCCTCTCACACCCACACTGTTGCTCTGAATGACTTTGCGGACCTCAGCAACGAGGAATACCAAAAGATCTACCTCGGGACGCGCATCGATGGCACCCAGAGATTGGCCAACGCCGGGCCCCTCATCAATGTGCCAAAGCCCCTTGATGACGTAGTCAACTGGGCTAACAAGGGCGCTGTCACTCCTATCAAGAATCAGGGACAATGTGGATCTTGCTGGTCGTTCTCCACCACTGGCTCTGTTGAGGCCTTGAACCAAATTTACACTGGAAACTTGAATAGCTTGTCAGAGCAAAACCTTATGGACTGCTCCCAATCCTACGGAAACAATGGATGCAATGGAGGATCCATGGACCAAGCTTTCAAATACATCATTGCTAACAATGGAATCGATTTAGAGGCTGACTATCCCTACCAAGCCGCTGTCGGC---CCTTGCCGTTTCCAAGCTTCATGGACCGGAGCTTCCATGAAGAGTTATTCCGATGTCCAATCAGGAAATGAGGCTGCGCTC---ACTTCCACCATCAACAACCAACCCGTGTCCGTCGCTATTGACGCTTCTCACCAATCTTTCCAATTGTATTCCAGCGGAATCTACAATGAACCCGATTGCTCTACCACATCTCTGGACCACGGTGTTTTGGCGATTGGATATGGATCC---CAAGGTGGTGACTATTACATTGTCAAAAACTCCTGGGGAACATCGTGGGGAATGCAAGGATACATCTGGATGTCCAGAAACAACGGAAACCAGTGCGGCATTGCGACCGCTGCATCTGTTCCTCTTGCGCAGTAA---------------------------------------------------

dN/dS PAML alignment • 2.1k views

ADD COMMENT • link updated 5.1 years ago by Biostar 20 • written 6.4 years ago by glarue ▴ 70

score 0 · Answer 1 · 2017-11-27

0

Entering edit mode

6.4 years ago

Hussain Ather ▴ 990

It's possible your transcripts are too different from one another.

ADD COMMENT • link 6.4 years ago by Hussain Ather ▴ 990

score 0 · Answer 2 · 2018-08-01

I posted a similar question to the PAML Google Group and received a response from the author:

this is a common problem and also commonly discussed. basically your sequences are too divergent, and synonymous changes are saturated. below i have copied a paragraph from my book. ziheng

A common problem in comparative analysis of genomes to estimate dS and dN is that the time scale or sequence divergence may be inappropriate. Estimation of dS and dN requires a time window in which the sequences are neither too similar nor too divergent. If the species are too distantly related or the genomes are too divergent, the synonymous substitutions may have reached saturation, so that it is impossible to obtain reliable estimates of dS. While any criterion is arbitrary, it appears prudent to treat estimates of dS greater than 3 with caution. It is virtually impossible to distinguish data with on average five changes per site from data with 50 changes per site, even though as estimates of dS, those values are very different. When the sequences are too divergent, one useful strategy may be to include other genomes and compare multiple species on a phylogenetic tree, thus breaking the large distance between species into many shorter branches. Such methods are discussed in Chapters 4 and 11.

While I understand this response to some degree, I am still unclear on why the two methods (NG and ML) are so different. At any rate, it seems that the (seemingly trivial) answer of "the sequences are too divergent" is, in this case, correct.