遺伝暗号が異なる生物を含む系統樹をアミノ酸配列に基いて推定する場合、遺伝暗号の違いにより、コドン使用頻度、アミノ酸頻度がOTU間で著しく異なります。本来はそんな状況で系統樹推定するのはマズいのですが、系統樹が必要なためにどうしてもやらざるを得ないことはあります。
そのような場合、そのまま既存のプログラムに与える場合もありますが、Dayhoff codingと言って、20種のアミノ酸のうち、性質の近いものをまとめて6種類に減らしてしまう方法がしばしば利用されます。情報量は減りますが、形質状態の頻度のOTU間での違いはずっと小さくなります。頻繁に起きる置換の情報は捨てられる形になりますので、大まかな樹形はこちらの結果を採用し、近縁なOTU間の系統樹はDayhoff codingせずにその近縁なOTU群だけで系統樹を推定するといいでしょう。
アミノ酸頻度がOTU間で異なることを許容するNonhomogeneous modelというものを当てはめて推定する方法もありますが、プログラムがLinux上でしか動作せず、計算も遅いのでおすすめしません。 |
|