BioTechnicalフォーラム [遺伝子リストのランク/分布の偏りの解析]

遺伝子リストのランク/分布の偏りの解析

No.4978-TOPIC - 2016/04/09 (土) 02:02:56 - SC

皆様

遺伝子リストの解析について非常に基本的な質問なのですが、例えば下記の様に各遺伝子（geneA-E）が複数回出現可能な遺伝子リスト（例えば3回ずつ/遺伝子）を得た場合に

geneA geneA geneA geneB geneC geneD geneB geneC geneD geneB geneC geneD geneE geneE geneE

geneAとgeneEは分布/ランクに偏りが有ると思われますが（それぞれ上位/左端、下位/右端）、geneB-Dは確率的に有意な分布/ランクの偏りは無いものと思われます。これをgeneA-Eについてそれぞれp値などで現すにはどの様にすれば良いでしょうか。

これはgene set enrichment analysis (GSEA)に近いと思いますが、外部の遺伝子リストを用いずに、上記の遺伝子リストのみからgeneAとgeneEは有意に分布/ランクに偏りがある事を知るのが目的です。恐らくKolmogorov–Smirnov法とpermutation等を組み合わせるのが妥当だと思うのですが、これらを簡便に行うためのRスクリプトやソフトウェアは有るでしょうか。宜しく御願いします。
　

- このトピックにメッセージを投稿する -

全10件 ( 1 ～ 10 )　前 | 次　1/ 1. /1

(無題)

削除/引用

No.4978-10 - 2016/04/14 (木) 18:21:52 - 橘

「点数が最もゼロに近くなるよう最適化」
は、よく考えたら不要でした。どの組み合わせで計算しても同じ点数になるはずです。

Re:遺伝子リストのランク/分布の偏りの解析

削除/引用

No.4978-9 - 2016/04/12 (火) 21:14:56 - SC

皆様

引き続き貴重な回答やコメント有難う御座います。

> 橘様
帰無仮説は「順位の分布は無作為である」で考えて居ます。御指摘頂いた方法を実際に是非試してみたいのですが、「点数が最もゼロに近くなるよう最適化」の部分をどうするのが適切か少々悩んでいます。無作為に順位を並べ替えた後に、元の順位と比較して、なるべく順位が近い者同士でスコアを計算するのだと思いますが、もし何か確立された計算手順が有りましたら、御教示頂けますと幸いです。

＞おお様
御指摘の通り、KSですと分布の形が違えば差が出ると思われます。今回検出したい順位の上下への偏りは、two-sidedではなくone-sidedで調べる事で解る様に思うのですが、拙いでしょうか。Rで書いてしまい済みません。本当は計算式をちゃんと書けると良いと思うのですが、勉強が追い付かず御恥ずかしい限りです。

(無題)

削除/引用

No.4978-8 - 2016/04/11 (月) 21:07:22 - おお

RはグラフィックRでしたっけ、、、コマンド書かなくてもできるやつ使ってますのでなんともいえませんけど、、、多重検定扱いになるとは思いますので、bonferroni、HolmやSidakなどで補正すればいいかと思います。

ksは分布の違いは言えそうですが、例えば正規分布で平均値が一緒でも分散が違うと有意差が出るんじゃなかったかなと思ったのですがどうでしょう。

(無題)

削除/引用

No.4978-7 - 2016/04/11 (月) 17:24:32 - 橘

帰無仮説は
「順位の分布は無作為である」
で合ってますか。仮にそうだとして続きを書きます。

私ならこうやるという例ですが、

1) 順位を無作為に並び替える
2) 元の順位と無作為化後の順位を下記の要領で比べて点数を算出
　a) 元の順位と同じ=プラマイゼロ
　b) 元の順位より高い=+1
　c) 元の順位より低い=-1
(ただし、点数が最もゼロに近くなるよう最適化すること)
3) 1～2を数万回繰り返す
4a) 点数の分布の95%区間にゼロが入るなら帰無仮説は棄却されない
4b) 点数の分布の両端2.5%部分かさらに外側にゼロが入るなら帰無仮説は棄却される

あとは多重比較をBH法で補正。

Re:遺伝子リストのランク/分布の偏りの解析

削除/引用

No.4978-6 - 2016/04/09 (土) 23:46:36 - SC

皆様

貴重な回答やコメント有難う御座います。Mann&Whitney U、Wilcoxon signed-rank、Fisher exact、kai square、Steel-Dwass、Steelなどが有効との事参考になります。私は確率統計はほぼ素人なのですが、一群で検定が可能なKolmogorov&Smirnovで下記の様なRスクリプトを作ってみました（Rもほぼ素人なので下記は非効率な部分が有ると思われます）。

x <- c("geneA", "geneA", "geneA", "geneB", "geneC", "geneD","geneB", "geneC", "geneD", "geneB", "geneC", "geneD", "geneE", "geneE", "geneE")

> my_function <- function (x) {
genelist <- x
unique_genelist <- unique(genelist)

for (i in 1:length(unique_genelist)) {
ks_result <- ks.test(grep(unique_genelist[i], genelist), punif, min=1, max=length(genelist))
cat(unique_genelist[i], ks_result$p.value, "\n")
}
}

> my_function(x)
geneA 0.005830904
geneB 0.7133139
geneC 0.9190152
geneD 0.7133139
geneE 0.005830904

上記の様に、一応geneA-Eでp値が出ますが、これはやはり多重検定が問題となるでしょうか。実際の遺伝子リストは遺伝子数は数百から数千、リスト長は数千から数万を想定しているので、nは充分だと思うのですが、そもそもこの様な単純な考え方で問題が無いかどうか確信が有りません。皆様の知恵を拝借したい次第です。

(無題)

削除/引用

No.4978-5 - 2016/04/09 (土) 22:52:37 - おお

加えますがノンパラが主体となると思いますが、nが多くいるのも事実です。

(無題)

削除/引用

No.4978-4 - 2016/04/09 (土) 18:06:36 - AP

多重比較の順位和検定で
Steel-Dwass法　(すべての群間（遺伝子間）での比較）か
Steel法（コントロール群（例えばgene A）と各群それぞれとの比較）
かなあ。

http://imnstir.blogspot.jp/2012/03/tukeysteel-dwass.html

(無題)

削除/引用

No.4978-3 - 2016/04/09 (土) 05:23:49 - おお

または真ん中とかで分けて高い方で出現する数、低い方で出現する数をカウントすることによりfisher exactとかkai squareのようなテストにもちこむとかも得たい結論によってはできるかと思います。

分布とか実際は順位で数値でないのでそういう解析はできないんじゃないでしょうか。。。