1. Seqデータのばらつきの問題
RNAseqデータの場合リード数やサンプルの質によってもノイズの入り方は異なるので、本当は個別サンプルできちんとノイズを処理する必要があります。DEGで処理する場合はまずはcount dataを確認してみることで、countが極端に低いデータはノイズが入るのでバッググラウンド処理をするのが一般的です。しかし、これを結構機械的にやってるとサンプルのノイズを拾ってる場合も多いです。例えば、TPMやFPKMはノーマライズされてしまってるのでデータのノイズを判断するのに向きません。scatter plotでcountを軸にとってdata1/2で展開した場合、countが一定値以下だと明らかにばらつきが大きくなるレベルがわかります。そこがあなたのデータでのノイズです。RNAseqデータのノイズレベルはリード数や出発サンプルのRNA量にも依存します。微量RNAを用いる方法だとノイズも増える傾向にありますが、通常の1000万-2000万リードであれば確実なのは20カウント前後でしょうか? 特に低い値はFold changeにした時に差となって大きく現れやすいので、注意が必要です。
2. サンプルそのもののノイズ
個体サンプルだと、ageや腹違いとかで結構差が出ることがあります。floxでCreで飛ばしてる場合だと全く同じジェノタイプのマウスでもたまに飛び効率が悪いマウスがいたりもします。N=2の場合それは顕著でしょう。RNAseqのデータそのものでポジコンやデータ全体の傾向はきちんとでてるのかは確認すべき。
3. primerの問題
RNAseqで検出したリードと、使用してるprimerの設計箇所の違いによって、RNAseqで検出したデータとことなるものを検出してる可能性はあります。プライマーの位置がバリアンとに乗ってたり特殊なものでないかは確認すべきです。その分子にこだわるのであればRNAseqで検出した場所をマッピングしてみるのも手です。 |
|