統計処理上は問題ないです。ただ、よくわかってないレビューワーが文句を言ってきた時にどうするかは考える必要があります。また、厳密にうとその後の解析目的によっては統計上は一通り問題ない処理をしてても実際は”あまり意味のない”やり方をしてる可能性はあるのでそこは何をどういう根拠で処理するかが本質です。
そもそも歴史的にバイオ研究でP<0.01または0.05かつFCで1.5倍や2倍という値が使われてきた経緯は”ただなんとなくそのぐらい”という線引きをした以上のものではないです。NGSなどが出てきた時に多重処理をする必要が生じてFDRなどの考えが出てきましたがどうしてもBHなどで機械的に処理をするとノイズが多すぎるバイオ研究では条件が厳しすぎるのでほとんどの価値があるデータを失ってしまう。そこで、多重処理の条件を緩和しつつ意味のあるものを取るという意図で、上記の条件を使うことがゆるすぎず厳しすぎずという感じでハマったにすぎません。本質的には優位差検定において1.5倍とか2倍とかには全く根拠はなく、さらに言えばバイオロジーにおいても全ての遺伝子発現変化がそこに閾値があるという根拠もありません。
一方で、注意が必要なのは本来のP値やFDRというのは十分なデータがあってこ素適切に機能するというものです。せいぜいN=3-5程度しかないデータでFDRとかやってもデータのバイアスを引きずりやすくて当てにならないので、FDRでたまたま非常に差があっても例えば、1.1倍しか差がないデータを本当に変化と扱っていいのかという問題が発生します。これを解決するためにはやはり眼に見えるかたちの差1,5倍くらいの変動を意識した方が嘘が混じらないという経験則的(慣例)があるというのも真理です。
ここからは個人的な解釈もありますが、結論からしたらぶっちゃけ「統計的な作法とバイオロジカルに意味があるは必ずしも一致しない」ということは前提にすべきということです。それを踏まえて例えばFDRで切って変動遺伝子群(DEG)を何奴も定義するとかの用途であれば嘘が多少混じっていても全体の傾向を見たいので意味がありそうです。一方で、個別の重要遺伝子リストと抽出して着目するものに絞る場合1.1倍を含めるのは上記理由からリスキーなやり方と思います。バリデーションが必要でしょう。
本質的なことを述べると、edgeRのTMMなどの解析もFold Changeの補正は、「全体のばらつきの中心を合わせた時に大きく変動差が残るもの」がDEGだからという主旨で若干圧縮がかかります。つまり1.1倍とか微妙な差はそもそもデータ処理の仕方でも変わるとも言い換えれます。当たり前ですが、何を持って値が変動したとみなすかというのは結局絶対的な正解ないのです。 |
|