Bio Technical フォーラム

  • バイオ関連の実験をする上での、試薬、機器、プロトコールなどの情報交換の場です。
  • 新しいテーマで話を始める場合、質問をする場合は「新しいトピックを作る」から書き込みをしてください。
  • 質問に対して解答できる方は是非、書き込んで下さい。
  • このフォーラムにふさわしくないと管理人が判断した投稿は予告なく削除します。

新しいトピックを作る | トピック一覧 | 研究留学ネットに戻る

ひとつ前のフォーラム(readのみ)

このスレッドをはてなブックマークに追加このスレッドをはてなブックマークに追加

PCA 主成分解析のグラフの読み方について トピック削除
No.2088-TOPIC - 2013/06/11 (火) 22:52:20 - PCA
私の稚拙な疑問について、教えていただけませんでしょうか。

現在、腸内細菌叢の論文を読んでいますが、多くの論文でPCA解析を行い、腸内細菌叢を比較しています。

グラフを作成するための原理は理解できたのですが、PC1(6.7 %)だとか、PC2(3.6%)という数字について理解できていません。

この数字はPC1またはPC2の軸を100%とした時に、表示しているのが全体の6.7%または3.6%だと言うことだと思うのですが、この場合100%は何を意味しているのでしょうか?

あるいは、全くfigureの見方が間違っていましたら大変恐縮ですが、ご教示いただけませんでしょうか。稚拙な質問で恐縮ですが、どうぞよろしくお願い致します。
 
- このトピックにメッセージを投稿する -



10件 ( 1 〜 10 )  前 | 次  1/ 1. /1


(無題) 削除/引用
No.2088-11 - 2013/06/14 (金) 00:11:53 - 直輝
説明力が足りなくてすみませんね。

>cDNA様から教えていただいた野球に例えたPCA分析の結果では、PC1をバッターボックスでの打撃能力と定義付けていたので、なぜ論文ではその大事な定義が書かれてないんだろうと思っていました。

大事なことなのでもう一度言いますが、PC1をバッターボックスでの打撃能力と「定義付けて」はいません。ホームページには「著者の考えで解釈してみましょう。」と書いてあります。

PC1が打撃能力というのは同意しますが、PC2が選手のタイプ(コツコツ、大振りで結果が残せない)というのには同意できますか?私は少々無理があると思います。

HPにも「このように主成分の解釈は、解析対象の専門知識が必要であり、解析者の主観が大きいのです。」と書いてあります。要は「コジツケ」なんです。PC1やPC2が何を表すかということにこだわらない事が普通です。

>意味を理解せずに論文を読み進めることに何か大事なことを見逃している気がしてソワソワしていました。

普通のグラフは軸の意味が分からないと理解できませんが、主成分分析の場合はグラフの軸の意味はどうでもよいです。ドット間の距離がデータの類似度を表現しているということが分かっていればOKです。

(無題) 削除/引用
No.2088-10 - 2013/06/13 (木) 22:56:33 - PCA
cDNA様 直輝様

再びコメントいただき大変感謝しておりますm(_ _)m

cDNA様
すごく分かりやすい解説ありがとうございました。cDNA様のコメントはすーっと頭に入ってきました。おぼろげですが理解できたようです。

また、
>今、注目されているグラフがメタゲノムデータなのか16Sを使ったものなのかで中身が違ってきますが。

ここは自分が勘違いをしていたようです。メタゲノムデータ=16S rRNAを読んでいるとばかり思っていました。そのため現在混乱しています。不勉強故、知識が乏しく大変恐縮しております。もう一度データを読み直してみます。

直輝様
cDNA様から教えていただいた野球に例えたPCA分析の結果では、PC1をバッターボックスでの打撃能力と定義付けていたので、なぜ論文ではその大事な定義が書かれてないんだろうと思っていました。
確かにPCAのグラフ上である集団の分布が違えば異なる細菌叢だ、と言われればそうなんだなと思いますが、意味を理解せずに論文を読み進めることに何か大事なことを見逃している気がしてソワソワしていました。

直輝様はそこの重要なことをご指摘されているのだと思うのですが、自分の知識の乏しさ故にきちんと理解するのに時間が必要なようです。何度か読まさせてください。

勉強する機会をいただき、本当にありがとうございますm(_ _)m

(無題) 削除/引用
No.2088-9 - 2013/06/13 (木) 01:45:19 - 直輝
PC1、PC2の意味なんですが、定義するんじゃなくて、「意味を解釈する」ことになります。解釈できた方が図を見る時に分かりやすいですが、解釈できない時の方が多いです。

そもそも主成分分析の目的は、どのサンプルが似ているかというのを判断するためなので、PC1やPC2の意味が解釈できなくても差し支えはないのです。
PCAの図で、野生型ー普通食と遺伝子欠損ー普通食のドットが近くにあり、野生型ー普通食と野生型ー高脂肪食のドットが離れていれば、腸内細菌叢には遺伝子欠損よりも高脂肪食の方が影響が大きいんだなということが分かります。とりあえず、これで目的達成です。

それでなおかつ、PC1のマイナス側に普通食のマウス、PC1のプラス側に高脂肪食マウス、PC2のマイナス側に野生型マウス、PC2マウスのプラス側に遺伝子欠損マウスがいれば、PC1が食餌の影響、PC2が遺伝子の影響を表すという風に「解釈」できますが、そういう図になるかもしれないし、ならないかもしれない。

あるいは、○○属の細菌が多かったマウスはPC1のプラス側に分布しており、△△属の細菌が多かったマウスはPC2のプラス側に分布していたら、そういう風な考察ができるかもしれません。

純粋に数学的に導かれたPC1とPC2なので、うまく解釈できることの方が少ないです。解析者ならPC1やPC2の意味について考察を試みると思うので、面白い解釈が出来ていれば、論文のどこかにディスカッションされているかもしれませんね。

PC1、PC2の意味を解釈する作業については、cDNAさんご紹介の
ttp://www5.ocn.ne.jp/~shinya91/csm/331csm_multi.html
の(STEP3)を参考にしてみてください。すごく丁寧に書かれていると思います。
野球選手の名前をマウスの種類に、打率うんぬんを細菌の種類に読みかえて、考えてみてください。

長文失礼いたしました。

(無題) 削除/引用
No.2088-8 - 2013/06/13 (木) 01:19:20 - 直輝
細菌の16S RNAの保存領域にプライマーを設計してPCRする。高速シーケンサーで配列を読んで、各マウスの腸内細菌の種類の相対的な存在量を解析。
ttp://www.roche-biochem.jp/prima/20130307.pdf
こういう感じの研究でしょうか?

>野生型マウスとある遺伝子欠損マウスの腸内細菌叢と、高脂肪食を与えた際の腸内細菌叢の2パターンで調べる際、このPCA解析が本領を発揮するのだと思いますが、この場合のPC1、およびPC2の定義はなんなのでしょうか。

冗長な説明になりますが、私なりに書いてみます。

(1)まず、細菌が2種類しかいなかったと仮定します。この場合、横軸に細菌Aの数、縦軸に細菌Bの数をとって、散布図中のドットで各マウス(野生型ー普通食、野生型ー高脂肪食、遺伝子欠損ー普通食、遺伝子欠損ー高脂肪食)を示せば、遺伝子欠損および高脂肪食が腸内細菌叢に与える影響を図示できます。
(2)次に、細菌が3種類の場合で考えて下さい。X軸に細菌A、Y軸に細菌B、Z軸に細菌Cをとって三次元のグラフを描けば、(多少見にくいかもしれないけれど)同じことができます。
(3)じゃあ、細菌が4種類以上の場合はどうでしょうか?グラフが4次元以上になってしまうので図示は不可能ですね。こういう場合に、主成分分析を使って、一番見やすい平面を切りとって図示するのです。

「主成分分析を使って、一番見やすい平面を切りとって図示する」というのはどういうことかを説明します。
とりあえず、このホームページの図を見てください。
ttp://yuriyuri321.blog.fc2.com/blog-entry-49.html
3次元空間にドットが散らばっています。そこに、新たにPC1(オレンジの軸)とPC2(グリーンの軸)を設定して、ドットの散らばりが一番みやすい2次元平面を切りとっています。オレンジとグリーンの軸からなる平面を想像してください。これが「主成分分析を使って、一番見やすい平面を切りとって図示する」という意味です。その平面上に全てのドットが乗るわけではないので、その平面に乗らなかったドットについては、ドットからその平面に垂線を下ろした点をプロットします。

だいたいイメージは分かったでしょうか?
要するに、細菌が百種類いたら、百次元のグラフを描いて各マウスをドットでプロットしたいところなんですが、主成分分析で一番見やすい平面を見つけて、そこに各ドットから垂線を下ろして点をプロットして図を描くんです。
本当はすごーく離れている点なのに、平面に垂線を下ろした点をプロットしたら偶然近くに来ちゃったなんてこともあり得ますが、最もそういうことが起こらない平面を数学的に選ぶのが主成分分析だと思ってください。

長くなったので、「PC1やPC2は具体的に何を示すのか書かれていないのはなぜなんでしょうか。」については次のレスで書きます。

(無題) 削除/引用
No.2088-7 - 2013/06/13 (木) 00:22:06 - cDNA
私が答えると正確性が低いかもしれませんが、とりあえず。

主成分分析はあくまで数学的な手法です。PC1とPC2の実態が何であるかはとりあえず議論しません。先に定義するものではなくて計算から出てくる主成分の寄与率が高いものから順番にPC1、PC2、PC3と名付けて行きます。
(PC1の中身はこんなの、という風に数式で表現出来るものです)

今、注目されているグラフがメタゲノムデータなのか16Sを使ったものなのかで中身が違ってきますが。

もし16Sだとするとそれぞれのマウスについて16Sから同定した菌について、A菌a%、B菌b%、C菌c%、、、というデータを基にしていると思います。

マウスが10匹で点が10個ならそれぞれの点がマウスに対応します。なので、このグラフ上のどの位置に集まるかによって分類できることになります。

大量の遺伝子を読んだメタゲノムデータであれば元のデータは遺伝子Aがa個検出、遺伝子Bをb個検出、、、、雑な説明ですが、こんな感じです。

どちらの場合でもPC1がなにを意味するか、PC2が何を意味するかは議論しません。今はPC1とPC2の二次元のグラフのようですが、これにPC3の軸を加えて3次元にしてもいいのです。対象を分類することが目的だと思うので、分類できるための特徴を与えられればいいのです。2次元で分離が不十分なら3次元に、と増やしていくかは状況しだいです。

(無題) 削除/引用
No.2088-6 - 2013/06/12 (水) 23:41:33 - PCA
直輝様

コメントいただきありがとうございます。
ご指摘の通り、腸内細菌叢のメタゲノム解析の論文を読んでいます。この手法に明るい方からコメントいただくことができ、大変感謝しております。

> 累積寄与率が10%程度であるのを大きいと思うか小さいと思うかは元のデータの次元数によります。メタゲノムの論文であれば、"遺伝子の数"が"元の次元数"でしょうし、10.3%はごく普通の値だと思い増す。10.3%の情報量でも、可視化によってデータの分布の特徴が掴めればそれで良いのです。

なるほど、データの分布の特徴がつかめれば、とのコメントに心から納得した次第です。

いくつか論文を読みましたが、主成分についての定義といいますか、definitionが書いていない論文を多くみかけます。なので、

> 累積寄与率が10%程度であるのを大きいと思うか小さいと思うかは元のデータの次元数によります。メタゲノムの論文であれば、"遺伝子の数"が"元の次元数"でしょうし、

このご指摘をよく理解せねばと思っています。
ご指摘いただいた '遺伝子の数' というのはこの場合、具体的には個々の細菌特異的な16S rRNAプローブで増幅されるアンプリコンの種類(即ち調査の対象とする細菌の種類の数)ということでよろしいでしょうか?

例えば、野生型マウスとある遺伝子欠損マウスの腸内細菌叢(例えば10種見るとして)を比較するならば、PC1を野生型マウスの腸内細菌叢、PC2を遺伝子欠損マウスの腸内細菌叢として、散布図中の10のドットは各腸内細菌を意味しているのだと思います。ただ、この場合、多変量解析ではないので主成分解析とはいわないのだと思います。

そこで、野生型マウスとある遺伝子欠損マウスの腸内細菌叢と、高脂肪食を与えた際の腸内細菌叢の2パターンで調べる際、このPCA解析が本領を発揮するのだと思いますが、この場合のPC1、およびPC2の定義はなんなのでしょうか。論文の中で主成分の定義、PC1やPC2は具体的に何を示すのか書かれていないのはなぜなんでしょうか。

コメントをいただいたところに更に質問で返してしまい大変恐縮ですがご教授いただけませんでしょうか。どうかよろしくお願い致します。

(無題) 削除/引用
No.2088-5 - 2013/06/12 (水) 23:18:02 - PCA
cDNAさま

大変有意義なコメントをいただき感謝しております。

>[Re:2] cDNAさんは書きました :
> グラフを作製するための原理は理解したとのことですが、主成分分析を理解しておられますか?

ご紹介いただいたサイトを見て、恥ずかしながら、全く理解していない、誤った解釈をしていたことがわかりました。このサイトは本当に分かりやすく、PCA解析の意義から専門的なタームまで知ることができました。自分の理解度が足りていませんでした。

ご紹介いただき本当にありがとうございました。
おかげさまで、エクセルデータをASCIIファイルに変換するなども学びました。
ありがとうございました。

(無題) 削除/引用
No.2088-4 - 2013/06/12 (水) 00:16:03 - 直輝
腸内細菌叢というとメタゲノムの論文でしょうか。

PCAというのは、多次元データの次元を落として可視化するためのツールであることは理解されていると思います。
しかしながら、次元を落とせばいくらか情報は失われます。
PCAはなるべく情報を失わないようにしながら、次元を落とすための数学的手法なのです。

PC1(6.7%)の括弧内の数字は「寄与率」と呼ばれるもので、元々のデータ(つまり次元削減前)の情報量を100%とした場合、PC1で6.7%の情報が表現できているという意味です。

なので、PC1(6.7%)、PC2(3.6%)という図が描かれていた場合、そのグラフは元々のデータの情報量のうち、6.7+3.6=10.3%を表現できていることになります。ちなみに、個々の寄与率を足したものを「累積寄与率」と言います。

累積寄与率が10%程度であるのを大きいと思うか小さいと思うかは元のデータの次元数によります。メタゲノムの論文であれば、"遺伝子の数"が"元の次元数"でしょうし、10.3%はごく普通の値だと思い増す。10.3%の情報量でも、可視化によってデータの分布の特徴が掴めればそれで良いのです。

(無題) 削除/引用
No.2088-2 - 2013/06/11 (火) 23:26:31 - cDNA
グラフを作製するための原理は理解したとのことですが、主成分分析を理解しておられますか?
PC1(6.7%)と言われるとやたら低いな、と思うのですが、括弧の中は寄与率と呼ばれる数値です。低い、というのは私の主観なのであまり気にしないでください。

ちなみに私は自分で多変量解析が出来る人間ではありません。かつて講義で習った程度です。なのでここで100%が何かを説明できる技量はありません。

今、軽くネットで調べたら、下のサイトの説明で論文をなんとなく理解できる程度には分かるのではないかと思いました。

ttp://www5.ocn.ne.jp/~shinya91/csm/331csm_multi.html

PCA 主成分解析のグラフの読み方について 削除/引用
No.2088-1 - 2013/06/11 (火) 22:52:20 - PCA
私の稚拙な疑問について、教えていただけませんでしょうか。

現在、腸内細菌叢の論文を読んでいますが、多くの論文でPCA解析を行い、腸内細菌叢を比較しています。

グラフを作成するための原理は理解できたのですが、PC1(6.7 %)だとか、PC2(3.6%)という数字について理解できていません。

この数字はPC1またはPC2の軸を100%とした時に、表示しているのが全体の6.7%または3.6%だと言うことだと思うのですが、この場合100%は何を意味しているのでしょうか?

あるいは、全くfigureの見方が間違っていましたら大変恐縮ですが、ご教示いただけませんでしょうか。稚拙な質問で恐縮ですが、どうぞよろしくお願い致します。

10件 ( 1 〜 10 )  前 | 次  1/ 1. /1


パスワードを入力してチェックした記事を チェックした記事を

このトピックにメッセージを投稿する
名前 
メール   アドレス非公開
   タイトル 
本文      
設定  クッキーを保存(次回の入力の手間を省けます)
上に上げない(トピックの一覧で一番上に移動させません)
解決(問題が解決した際にチェックしてください)
暗証  半角英数字8-12文字の暗証番号を入れると、あとで削除、修正ができます。
送信 

〔使い方〕
  • 「アドレス非公開」をチェックすれば、自分のメールアドレスを公開しないで他の方からメールを受け取れます。
  • 問題が解決した際には、解決ボタンをチェックして解決した旨のコメントをつけてください。これは、初めにトピックを作った人と管理人のみが可能です。
  • 半角カタカナ、機種依存文字(全角ローマ数字、○の中の数字等)は文字化けの原因となりますので使わないでください。