referenceのデーターベース次第だと思うので、それがタンパク質として存在することが明確な遺伝子なのか、ただのノンコーディングとかなのかによって機械的に除くのでいいと思います。
GSEAのhallmark gene setとかだとノンコーディングなどは特に考慮してないとおもうので、データに余計なものが含まれてることで結果が変わる可能性もあります。大体明確となっている遺伝子数でヒトやマウスだと2万ぐらいで、1つの細胞で十分に深くシーケンスしたとして明確な発現が見られる遺伝子ってせいぜい1万数千ぐらいだと思います。特にノンコーディングとかに注目したのではないのにDEG解析で全てのデータを使うと4万個ぐらいのリストになりますが、それだとよくわからないものが半分ぐらい含まれることにもなりますのでエンリッチ麺と解析などの結果が歪む可能性はあると思います。 |
|