長さの異なるデータセットはシミュレーションで作成したものですか?
同一のモデル系統樹と同一の置換モデルパラメータを用いて作成したシミュレーションデータの場合、モデル系統樹に樹形を固定して枝長を最尤推定してそのような傾向になると聞いたことはありません(ばらつきは当然変わります)。
ただし、モデルが著しく推定の難しい樹形・枝長・置換パラメータの場合(非対称型樹形だったり枝長が1を超えていたりサイト間の置換速度不均質性が高かったりサイト間の置換速度不均質性が枝によって異なっている場合)には樹形が正しく推定できずに枝長の推定も正しくできないことはあるでしょう。
実データを切り出しているだけなら、単に変異の量が異なるだけじゃないでしょうか。
樹形を固定して最節約樹長=系統樹上での総置換回数を比べてみてください。
ガンマシェイプパラメータの値(置換が一部のサイトに集中しているかどうかを表す)が異なる場合も枝長の推定値に影響があると思います。
配列の両端は短い配列を切り出すときに切り出される確率が低くなるので、ガンマシェイプパラメータが小さい=置換が一部のサイトに集中している場合、切り出す長さによって枝長の推定値に一定の傾向は出るはずです。 |
|