nf-co.re/rnaseq/3.6/docs/output#alignment-post-processing
ここでは重複解消のツールが紹介されています。
UMI-tools dedup
picard MarkDuplicates
www.biostars.org/p/55648/
原因その他を含めて議論があります。最初の回答者は関連質問のリンクを貼ってくれてます。
bioinformatics.stackexchange.com/questions/2959/duplicate-genes-with-rsem-counts-which-one-to-choose
EnsemblではTranscriptsに対してアセンブルを当てるので、同じ遺伝子からの違うTranscriptsであることがあります。Isoformとしてどう考えるかですが、Isoformが違う(場合によっては反対の)効果をもたらすときは要注意かもしれません。また転写活性を見れればいいとすると合わせてしまってもいいのかもしれませんが、その時は合わせた数値に基づいて全体的な統計処理が必要なのでは?と思います(厳密にそこまで必要でないと言われればそうかも知れません)。そういうことを考えればEnsemblのTranscript単位で見ていったほうがいいような気がします。比較するもの両方ともそのTranscript単位で比較するわけですからごっちゃになることもないですし。
ちなみにリンクに示された例でENSG00000214338 and ENSG00000255330がLociがちがう別個の遺伝子と言う認識で書いてますが、みた感じ3’にAdditional exonsをもった同じ遺伝子由来のものに見えます。でEnsemblのリンクをみると片方はNMDを受けるTranscriptと見れますので、そういうものを一緒にしないほうが良さげだと思いました。
ただしこういうのは何を見たいかによって変わるだろうから、それぞれの対応があってもいいのかもしれません。
データー処理を誰かにしてもらった(外注とか?)であればその人と相談してみるといいでしょう。改善の余地があればそういう方向になるかもしれませんし、違ったやり方を試してもらえるかもしれません。またどう捉えるべきかもアドバイスがあるかもしれませんので。
表面的なことしかわからないのでこれぐらいのことしか書けませんが、実際にデーターを処理している人の意見が上がってくれることを願ってます。 |
|