Bio Technical フォーラム

  • 書き込みがかなり増えてしまいサーバーの負荷が大きくなったので、新しいBioTechnicalフォーラムに移行してください。
  • 新しいトピックは新フォーラムでのみ立ち上げ可能です。レスは2009年2月15日までつけられますが、その後は、つけられません。

トピック一覧 | 研究留学ネットに戻る

最新のフォーラム | このフォーラム(readのみ) | ひとつ前のフォーラム(readのみ)

このスレッドをはてなブックマークに追加このスレッドをはてなブックマークに追加

Error bars in experimental biology トピック削除
No.2025-TOPIC - 2008/09/28 (日) 11:43:27 - おお
http://www.jcb.org/cgi/reprint/177/1/7
Error bars in experimental biology、vol 177(1) 7-11

http://www.kenkyuu.net/cgi-biotech2/biotechforum.cgi?mode=view;Code=1992

上記論文は以前あるとぴで引用されたSD/SE/CIについてのJCBのサジェスチョンです。その中の一部を抜粋して下に示します。

Similarly, a number of replicate cell cultures can be made by pipetting the same volume of cells from the same stock culture into adjacent wells of a tissue culture plate, and subsequently treating them identically. Although it would be possible to assay the plate and determine the means and errors of the replicate wells, the errors would reflect the accuracy of pipetting, not the reproduciblity of the differences between the experimental cells and the control cells. For replicates, n = 1, and it is therefore inappropriate to show error bars or statistics.

さて、この論文中での彼らの主張は、細胞を数枚のディシュにまいて、それぞれのディッシュからサンプリングし、データーをとっても(たとえ3枚のディシュから独立して3つのデーターをえても)n=1であるという主張です。どうもこの影響のせいか、そういう場合は何がなんでもn=1だからSD/SD/CIをつけるのは間違っているとはなから否定しているひとがここでも見受けられます。

この辺について実際の実験などに基づいたやりかたや、反対、賛成意見のロジック、その他意見をうかがいたいと思います。
 
- このトピックにメッセージを投稿する -



45件 ( 1 〜 20 )  前 |  1/ 1. 2. 3. /3


(無題) 削除/引用
No.2025-45 - 2008/11/06 (木) 19:31:28 - mom-a
>で、n=3は不適切か、不適切だとしたらそれはどういう理由かという問題、JCBの記事も読んでみましたが理解できませんでした。

JCB(1つ前でJBCと書いてしまったことに今気がつきました)の記事では確かに”n=3が使われていることが多いが、もっと大きい方が望ましい”とありますが、だからといってn=3が不適切、と言い切っているわけではないと思います。その方が推定精度が高いでしょ、というだけで。

サンプルサイズをいくつにすべきか、という問題は「検出したい(できなければならないはずの)差の大きさ」と「データのばらつき」から決められるもので、実際に事前に例数設計する場合は、この2つの値と目標とする検出力(一般的には80%?)から計算されます。ですから、n=3が不適切かどうかは一概にはいえず、n=3でも結果が出るときもあれば、n=15でも足りないこともあり。

JCBの論文は別としてn=3が不適切という意見が出る理由のひとつに、ここでも出ましたが正規性や等分散性の仮定が成り立たない、というものがあります。これについては、仮定が成り立たなくても良いようにノンパラメトリック検定や不等分散を前提とした検定を使うという方針もありえます。ノンパラでn=3は確かに現実味が薄いですが、Welchの検定ならば十分使えるでしょう。また、連続データであれば、正規性の検定なしにパラメトリック検定を使うことは決して稀ではないと思います。近似が悪い危険性を承知して使うというのも、それはそれでひとつの方針だと思います。

>JCBに出ていたエキスパートの論文だからという理由だけで、それが正しくてそれに従うべきだとは考えたくない天邪鬼です。

JCBも統計学の雑誌ではないですし、丸呑みする必要はないと思います。経時測定データを出してきたわりには多重性には触れていませんが(本論でないいということかもしれませんが)、この辺はむしろ丸呑みすると場合によっては危険かも。あえて多重性を考慮しない、ならそれはそれで一つの意見だと思いますが。まぁ、私が不勉強で著者がどんな研究を専門にしているのかを知らないから、こんなことが言えるのかもしれませんけど。

(無題) 削除/引用
No.2025-44 - 2008/11/06 (木) 18:15:44 - AP
このトピ、P値に関する姉妹トピを通じて、自分自身が、統計について何を理解できていて、何が理解できていないかを見つめ直すよい機会になりました。

結局、統計は研究していく上でのツールとして必須であるけれど、統計の専門家でもないかぎり、エッジまで突き詰めた理解はできないのだろうなと思いました。紙と鉛筆と、せいぜい計算尺や手回し計算機で計算していたころならいざ知らず、現在ではコンピュータを使うのが当たり前で、より高度な検定方法などはそれなしにはできなくらいで、統計計算はますますブラックボックスになっています。

だとしても、わけはわからないけれどとにかくソフトウェアにデータをつっこんで、出力された値を書いておきましたというのでは困ります。有意差やP値の意味や、推測統計が標本データから母集団の統計量を予測する方法だというような基本的なところすら理解していなかったり意識していないで使っている人が身の回りにも少なからず見受けられます。
やはり、科学者の端くれとしては自分が何をしようとしているのか、何をしているのか、出てきた値がなにを示しているのかくらいはきっちり理解したいものです。理解できていないところは、理解できたようなふりをしないでせめて「申し訳ない、本当はよくわかっていないけれど、こういう方法でやってみました」と自覚するべきだろうと思いました。

で、n=3は不適切か、不適切だとしたらそれはどういう理由かという問題、JCBの記事も読んでみましたが理解できませんでした。ネズミの尻尾の長さの平均を出す場合のアナロジーとして、培養細胞でn=3は不適切(というかそれはn=1と同じである)というロジックになっていたと思いますが、それが適切かどうかが判断できない、というか読んだ限りではアナロジーに無理があるように思いました。皆さんのコメントや解説を読んでもついに理解するにいたりませんでした。理解するには、書いた本人か、それを読んでもっともだと納得した人とじっくり話をしてみなければ無理かもしれません。少なくとも、JCBに出ていたエキスパートの論文だからという理由だけで、それが正しくてそれに従うべきだとは考えたくない天邪鬼です。

後日、また。 削除/引用
No.2025-43 - 2008/11/06 (木) 13:52:39 - mom-a
>おおさん(済になった後で申し訳ありません)

トピを立ち上げて下さってありがとうございました。参加できて有意義でした。勉強不足も痛感しました…おっしゃるとおりギブアップ状態。

例数については、下記(2025-40)のあだむやんさんのご意見あたりが実験家の共感を得らる感じかな、と思います。

>1株よりは5株、5株よりは10株のほうがよりその結果を信頼しやすい、ということだと思います。JCBの論文の言いたいところはそこじゃなかと思います。じゃあ1株からは何もいえないかというと、そうも思いませんが、そこにはたった1株からの結果だというlimitationがありますよ、ということを知っておかないといけないし、論文にはそれを明記するようにしたらいいのかな、という気もしてきました。

それはそれとして、n=3で3回実験したデータの解析法の件、JBCの方法(実験ごとに平均値を求めてn=3としてStudentのt検定)がベストとは言えないのでは…という気もしていて、いずれ話をそちらに戻そうかと画策していたのですが、ちょっと勉強して改めて出直してこようと思います。その節はまたよろしくお願いします。

(無題) 解決済み 削除/引用
No.2025-42 - 2008/11/06 (木) 12:58:18 - おお
あ、すみマークわすれてました。

(無題) 削除/引用
No.2025-41 - 2008/11/06 (木) 12:52:41 - おお
いまさらですが、皆様の真剣な議論ゆえに、成果あるとピになりました事を感謝いたします。
私の興味、好奇心に熱心に調べて、答えていただいた人もかなりいて、大変幸せなおもいです。
よく回答してくださるmom-aさまがギブアップすんぜんと言う事でしたので、しばらく様子を
みていましたが、ここは落ち着いたものの、ほかの新たな統計のとピも見受けられますので
とにかくはスミにいたします。

皆様ありがとうございます。また機会があればと思いますが、私ももっと勉強した方が
いいですね、ちょっと人任せスギを反省しています。

連投すいません。 削除/引用
No.2025-40 - 2008/10/28 (火) 00:57:37 - あだむやん
細かいことになりますが、何株使えば普遍といえるかに関しては、誰も答えられないと思います。が、1株よりは5株、5株よりは10株のほうがよりその結果を信頼しやすい、ということだと思います。JCBの論文の言いたいところはそこじゃなかと思います。じゃあ1株からは何もいえないかというと、そうも思いませんが、そこにはたった1株からの結果だというlimitationがありますよ、ということを知っておかないといけないし、論文にはそれを明記するようにしたらいいのかな、という気もしてきました。例えばどこそこから同じセルラインで違うロットを5つ買ってそれぞれ同じ実験した、とか。それで結果が一緒ならそれこそより確からしく思えます。

いづれにせよ、in situ様、mom-a様、AP様、おお様、きりん様と一度したいと思っていたけどなかなかできなかったdiscussionをこうやってできてとても感謝しております。自分の頭の中もだいぶ整理できたと思います。

誤解されませんように 削除/引用
No.2025-39 - 2008/10/28 (火) 00:56:27 - あだむやん
>[Re:33] mom-aさんは書きました :
> あだむやんさんの「p値が0.11だから差がないといえる」というのが、「同じだと証明できる」という意味で言っているわけではないことは承知しています。
差がないといえる、ではなくて有意差がないといえる、と最初から書いておけば誤解もなかったかと反省しております。これはあくまで極端な例、のつもりでした。不適切な例及び表現をお詫びいたします。が、いいたいことは伝わったかなと思っております。また、第1、2種過誤という用語ではなく偽陰性偽陽性という用語は一応理解しているつもりです。

自分は1000人規模の臨床研究を数年前までそれこそ自分が中心となって手がけておりましたので臨床研究や治験における細かい規定というか約束事に関してある程度承知しているつもりです。それこそ、母集団が2桁のものから5桁の超大規模なものまでいろいろありますが、多ければいいというわけでないことも、エビデンスレベルということについてもある程度承知しているつもりです。

自分が基礎実験の統計にこだわっている部分は、多くの方とそんなに変わらないと思っております。具体的には、昨年、ほぼ同じ時期に2つの論文が、1報はJCIにとあるラボから、もう一報も同じようなレベルのとこに東京大学のラボからpublishされました。どちらも動物を用いて同じ4つの群それぞれ20匹前後くらいのデータをとり、ほぼ同じような散布図が論文上作成されておりました。が、その結論が正反対だったのです。図だけをみれば片一方の見解が普通っぽくみえしたが、論文を読んでみるとそれぞれの結論を導くその統計的な解析部分には問題があるように思えなかった、というのが第1感でした。ただ、それでもどちらもいわゆるいい雑誌のpublicationです。なんでこんなことがおこりえたのでしょうか?統計的な解釈の限界をよく考えると’ありえる’ということも理解できますが、結局p値からすべてを語れるとは思っていません。したがって実験においてはまずは現象ありき、そしてそれを解釈するために統計的な後押しがあれば論理的には文句なし、と考えています。

5つの疑わしき=確からしい、という理屈も論文の世界では十二分にありえます。現象をとらえる、ということからそれも現状では世界に受け入れられているということも理解しています。
ただ、5つの疑わしき図を並べる、ということが僕にはできない、ということです。ひとつひとつの図をその実験の長所短所を知った上でしっかり確信を持ってこういう結論だ、といい、それを何段か重ねていくのが論理的な文章=論文の理想だと思っています。細胞などを使った基礎実験では、僕は最低n=5を心がけています(それで十分かどうかはケースバイケースですがn=3で母集団が等分散でかつ正規分布すると仮定してt検定をムリヤリ行うよりはずいぶんまし、と思っています)。動物実験では最低1群2桁、普通は20匹前後を心がけています。データの中にはずれ値があるほうがよりほんとらしいことも同感です。そうするとある程度nを増やすことで散布図をつくり現象を捉えるにもその後統計的な検討に関しても誤った解釈をする危険が減ると思うし、それこそ揚げ足をとられる可能性もぐっと減るからです。それでもなお、上述のようなことが起こりえるわけですので、その実験そのものや統計的な解釈のlimitationや例外もある程度理解していないといけないと思います。in situ様やおお様が繰り返しご指摘されているのはこのlimitationを考慮にいれよ、ということではないでしょうか。

(無題) 削除/引用
No.2025-38 - 2008/10/27 (月) 22:40:43 - in situ
mom-aさま

レスを踏まえて、考え直したところ、確かに中心極限定理を誤解していたようです。
ご指摘ありがとうございます。


今までの話の流れからすると、統計の誤用というより、統計に用いるデータの恣意的な選択によってバイアスが生まれている場合が多そうですね。

このスレで生物学における統計に対する捉え方がはっきりしてきました。
スレを立ててくれたおおさまおよび皆様ありがとうございます。

(無題) 削除/引用
No.2025-37 - 2008/10/27 (月) 19:53:27 - AP
mom-aさま

解説と参考書の引用ありがとうございます。
突き詰めていくと門外漢には手に負えなくなりそうですが、ざっくりとした理解と、それほど距離はなさそうなのでひとまず安心しました。私らがやっているような実験や観察は、「探索的試験」を越えることはないと言っていいので、あまり難しく考えなくても良さそうです。


実際には、生物現象の微妙な差異を明らかにするのが困難なのは観察技術や検出技術の限界のためで、同じ方法で例数を増やしていったとことで決定的な結論が導けるわけではないことが多いような気がします。同じ方法で例数を増やしたり検証的試験をすることより、別の方法、新しい方法を使って別の切り口で証明を加えることを考えますね。ここ数年を取ってみても、たとえば、それまでNorthernやDot blotで大まかに比較していた転写産物量でもreal-time PCRが出てきて、ずいぶん精度も感度もあがりました。
素粒子物理学で、既存の観測技術ではいくらやっても解決できないから、もっと大規模な加速器を作ろうとか、検出器の性能を上げ数を増やそうとかやっているのと似たようなもので。

2つのトピをフォローするのが難しくなってきました(汗) 削除/引用
No.2025-36 - 2008/10/27 (月) 17:39:30 - mom-a
APさん

> タイムリーに別トピで話題にしていたことなので教えてほしいのですが、
> 「そうでない」とされているのは、単に「業界ルール」でそうなっているのでしょうか。それとも、統計学上、数理上でも不適切な点があるのでしょうか。

別トピの話は承知していたのですが、上手く考えをまとめられず、本などできちんと調べてから…と思っていました。ご質問が出たので、まだ不十分なのですが、現時点で私が思うこと、という程度ですみません。

仮説検定はある仮説を「検証」するためのものなので、「探索的」な研究段階で用いるには上手く使えない場合がある、ということだと思います。「検証的試験」と「探索的試験」について、『臨床試験の統計的原則』から引用しておきます。

>しかし、検証的試験とは対照的に探索的試験の目的は、必ずしも事前に設定した仮説の単純な検定に帰着するわけではない。更に、探索的試験では、結果の蓄積に応じて変更が可能となるような、より柔軟な方法を必要とするときもある。
>その解析は探索的なデータ解析を伴ってもよい。すなわち仮説検定を行う場合、その仮説の選択は得られたデータに基づいて行うことが有り得る。

ということで、「探索的」な段階では例数追加も必ずしも間違っているとはいえないと思います(安易に足せというわけではありません)。
ただ、APさんが別のトピでおっしゃっていたように「どんなに小さな差異であろうとそれが生物の本質であれば意味があり、見逃すべきではない」という「ごくごく小さな差」といわれると、ちょっと微妙になってきます。が、これを上手く説明できる自信が…。

>「同じであることを証明することはできない」というのは、「検定で差が出るまで実験をくりかえしたり例数を追加すれば、いつかは有意差ありという結果が得られる」

というのを感覚的に納得していただければいいのですが。APさんの主張が無意味だとかいっているのではなく、そういう場合に仮説検定という手法は適さないのかも、という話です。上手く説明できなくてすみません。もう少し勉強してきます。

(無題) 削除/引用
No.2025-35 - 2008/10/27 (月) 01:52:27 - おお
>[Re:34] APさんは書きました :
> >mom-aさん
> >いつかは有意差ありという結果が得られる」ということです。臨床試験では、予め解析計画書で規定されている場合にはその条件下で例数追加ができますが、
>
> タイムリーに別トピで話題にしていたことなので教えてほしいのですが、
> 「そうでない」とされているのは、単に「業界ルール」でそうなっているのでしょうか。それとも、統計学上、数理上でも不適切な点があるのでしょうか。

統計学上、数理上でも不適切な点というわけではなさそうなきがします。
臨床試験ではフェーズが3つあります。1は健常人で安全性にかんしての評価です。
フェーズ2は探索的な試験を行うとあります。
フェーズ3は薬の有用性、毒性などを評価するかていです。

ですのでフェーズ2で得たデーターから、このデザインで何例、またはそれぐらいの症例があつまるであろういついつまで
の期間で、このような評価をして、有意さが出れば新しい薬としてメリットがあるので採用するという約束事
を最初にするので、最初のデザインの変更が不正になったり、するのだと思います。

それと、ある程度探索的な試験は許されるはずですが(特にフェーズ2)
治験は動物実験ではありません。人を好き勝手にモルモットのように、これがダメならこうしたらいいのでは
と言うのは、倫理的に受け入れがたくなるので、とくにフェーズ3では国民の有益性のバランスを
配慮した形で最初にデザインした形で終わらせるのが基本かとおもいます。


>
> >動物での薬効試験でも、むやみに例数が多かったり何回も試験をしたりしていると、「有意差が出すために追加したのではないのか」と医薬品審査機構から質問されたりします。
>
> 例数を多くしなければ有意差がでないということは、薬効がきわめて低いということの裏返しだと思いますが、実際、そういうレベルの薬も審査に上がることがあるのでしょうか。

この辺は単純化できないですね。薬効と同時に毒性、薬のユニークな点すべて考慮に入りますから。
単純に効果を期待して、例数を増やすのはそういう指摘もあるでしょうけど、非常に慢性毒性が低くて
慢性の病気に対して、長期投与が可能であるとかなにかメリットがあるようでしたら、そういう
やり方もあるかもしれません。

薬の評価もバリエーションがあり、既成品との比較であったりします。例えば現状非常に効果がある
薬があり、その程度の薬がほかにない場合、同等程度でバリエーションがある事に重きをおいて、
帰無仮説を対照の薬にたいして、同等未満として、同等以上であることを示し、承認された
薬もあると思います。または既成品と同等の効果の新薬であっても、製剤の工夫で使用しやすさに重き
をおいて承認を申請する場合もあるようです。

ニーズによる事がしばしばなので、単純にいえるのかなとおもいます。

(無題) 削除/引用
No.2025-34 - 2008/10/26 (日) 19:17:33 - AP
>mom-aさん
>いつかは有意差ありという結果が得られる」ということです。臨床試験では、予め解析計画書で規定されている場合にはその条件下で例数追加ができますが、それ以外には例数追加はできません。例数を増やせば、より正確な推定が出来るのだから良いのでは?とお思いかもしれませんが、そうではないのです。

タイムリーに別トピで話題にしていたことなので教えてほしいのですが、
「そうでない」とされているのは、単に「業界ルール」でそうなっているのでしょうか。それとも、統計学上、数理上でも不適切な点があるのでしょうか。

>動物での薬効試験でも、むやみに例数が多かったり何回も試験をしたりしていると、「有意差が出すために追加したのではないのか」と医薬品審査機構から質問されたりします。

例数を多くしなければ有意差がでないということは、薬効がきわめて低いということの裏返しだと思いますが、実際、そういうレベルの薬も審査に上がることがあるのでしょうか。

追加です 削除/引用
No.2025-33 - 2008/10/26 (日) 18:48:18 - mom-a
あだむやんさんの「p値が0.11だから差がないといえる」というのが、「同じだと証明できる」という意味で言っているわけではないことは承知しています。先ほどの私の書き込みは揚げ足とりのようにみえるかもしれません。しかし、検定で差がないことを「同じである」とみなしてしまう間違いは、しばしば統計家に指摘されることでもあります。「厳密に」という言葉を使っていらっしゃいましたから、あえて小うるさく指摘しました。

また、「同じであることを証明することはできない」というのは、「検定で差が出るまで実験をくりかえしたり例数を追加すれば、いつかは有意差ありという結果が得られる」ということです。臨床試験では、予め解析計画書で規定されている場合にはその条件下で例数追加ができますが、それ以外には例数追加はできません。例数を増やせば、より正確な推定が出来るのだから良いのでは?とお思いかもしれませんが、そうではないのです。動物での薬効試験でも、むやみに例数が多かったり何回も試験をしたりしていると、「有意差が出すために追加したのではないのか」と医薬品審査機構から質問されたりします。

念のためにいっておきますが、in vitroの基礎実験で、決して繰り返し実験や例数追加をしてはいけない、というつもりはありません。そもそも、例数設計するための参考となる事前情報がないわけですから、そんなのは無茶です。例数を増やせばよいかというと、場合によっては、そうではないという例です。

>あだむやんさん

自分の立てた理論が100年経ってもひっくり返されない真実だと言い切るには、結局のところ、100年待つしかないでしょう。

>あと、データーを早めに公開するというのは、いろんな可能性を拡大することに>もなります。地球温暖化の解決になりそうなものは早めに公開して、いろんな角>度、分野からの検証を含めた展開をした方がいいとおもいませんか。

>一つの実験の厳密性は上げられたら上げるに越したことはありませんが、それよ>り、異なる角度から仮説を立証することの方が重要だと思います。

おおさんやin situさんの上記の意見に私も賛成です。どの程度厳密である必要があるか、というのは場合によって異なりますから、粗雑であることを推奨しているわけではありません。ただ、自分が公表した論文が科学の進歩に貢献したのであれば、例えその過程で自分の仮説が修正されたり否定されたりしたとしても、決して恥じることはないと思います。

(無題) 削除/引用
No.2025-32 - 2008/10/26 (日) 13:47:32 - mom-a
大賑わいになっていまして、レスを読み落としていたら申し訳ありません…。
きりんさんには失礼をいたしました。すみません。

>あだむやんさん
>ある事象に対してなんらかの方法で可視的にあきらかに差があるデータがでたとします。
n=3で、統計学的にある方法で検討したらp=0.11だったとします。この場合、
1)p値が0.11だから差がないといえる

統計学を厳密に考えると1)の結論は間違いです。
仮説検定の帰無仮説は「2群の平均値の差=0」です。有意水準を予め5%に設定してあれば(通常は5%でしょうが、例外もありますのでしつこく書きました)p<0.05ならば帰無仮説を棄却し、「2群の平均値は有意」ということになります。しかし、帰無仮説が棄却されなかった場合の結論は、あくまでも「2群の平均値の差は有意とはいえない」だけで、積極的に「差がない」とはいえません。検定の第一種の過誤、第二種の過誤についてはご存知ですか?是非、復習してください。

仮説検定を厳密に正しく使うためには、「検出したい差の大きさ」と「検出力(「差がある」ものを「差がない」と間違って判定する確率をβとしたとき、(1-β)を検出力)」を予め設定し、この条件を満たすのに必要なサンプルサイズを計算し、その数以上(計算方法は概算なので、余裕を持つように少し多めに設定することが多い)用いて実験することが必要です。実験にあたっても、ランダム割付など色々と制限があります。それでも、「有意差がある」ことはいえても「有意差がない」ことはいえないのです。「同等である」ことを示すためには、平均値の差の検定ではなく、信頼区間法などを用いて2群の差が予め設定した範囲内であることを示すことしかできません。

>in situさん
>1.中心極限定理により、標本数が増えるとほとんどの分布は正規分布に近似できるようになる

私は引用された本をまだ確認していないのですが、「平均値の分布」ではなかったですか?

>この帰無仮説が真だとすると、A群とB群は同一の値を持つ対象に無数の実験を繰り返して得られるデータ群の中から無作為にn個ずつデータを取り出したとみなせます。
しかるに、A群とB群の母集団の分布は当然同じであり、等分散も仮定できますし、母集団は無数に実験を行ったときのデータ群なので正規分布で近似できると考えられます。

A群とB群の母集団は平均値が等しいと仮定しても、異なる母集団なので、(この段階で)同じ分布を仮定するわけにはいきません。後半は中心極限定理を誤解していらっしゃるのだと思いますが…。標本の分布を近似することはよく行われますが、母集団を近似してはまずいと思います。

in situさんのおっしゃるように、in vitroの試験ではt検定の頑健性に頼って利用してきたのだろうと思います。in vitroの実験は探索的な、トライ&エラーの段階であることも多く、私が先に述べたような厳密な検定ができる場面は少ないと思います。結果の解釈についても、それを考慮する必要があるということだと思います。

>おおさん
あと、統計的手法はプラクティカル果たして完ぺきなのだろうかというのも疑わないといけないと思います。実は個人的にはかなりあラがあると思ってます。

検定法にはもちろん限界があるのに、むやみと不適切な使い方をしておいて結果がおかしい、と怒るのは統計学に対して失礼だそうです。モデルのあてはめとか、他にも効果を推定するのに使える手法はあるのに、時代遅れだそうです。統計学も学問ですから、日進月歩で最先端はすごいんだろうなぁと思うのですが、我々は辺境の住民なのでしょうね(苦笑)。

(無題) 削除/引用
No.2025-31 - 2008/10/25 (土) 23:59:51 - in situ
連投になり、申し訳ありません。

UCさまの
>Welch(あるいはStudentのt検定)ではP=0.07だったけど、Paired t-testをしたら、P=0.04になったから、これを採用しようというのは、個人的には考えられませんし

という一節に関してなのですが、そもそもPaired t-testを行うことができる状況はデータ間に対応がある場合に限定されています。
もし、対応がないのに、無理やり対応をつけてPaired t-testを行ったというのであれば問題です。
しかし、もともと対応があるデータに対して、対応を無視してstudentのt検定を行ってみたが、有意差はでず、改めて対応を考慮してPaired t-testを行ったところ有意差は出た、という場合は問題ないと思うのですが…

統計手法は、第一に頑健性、第二に検出力を考えて用いられるべきものであり、この二つに関して問題がない統計手法であれば、有意差がでるものを用いても問題が無いと考えます。

(無題) 削除/引用
No.2025-30 - 2008/10/25 (土) 23:47:34 - in situ
おおさまの指摘を受けまして、自分の中でも煮え切らない部分が確かにあるなと感じましたので、t検定についての再考察です。

通常のstudentのt検定をする場合に話を絞ります。
ある実験を行って得られた値、A群とB群の平均値に差があるかどうかをstudentのt検定で検定したいとします。

この場合帰無仮説としては
「A群(n個)とB群(n個)の平均値は等しい」
というものに、なります。

この帰無仮説が真だとすると、A群とB群は同一の値を持つ対象に無数の実験を繰り返して得られるデータ群の中から無作為にn個ずつデータを取り出したとみなせます。
しかるに、A群とB群の母集団の分布は当然同じであり、等分散も仮定できますし、母集団は無数に実験を行ったときのデータ群なので正規分布で近似できると考えられます。

以上の考察から、通常の実験で得られたデータに対してノンパラメトリック検定や、Welchのt検定を必要は無く、studentのt検定で問題ないと考えられます。


論理的に考察してみたところ、自分でもちょっと驚く結論が出てしまいました…
ご指摘などあれば、是非。

(無題) 削除/引用
No.2025-29 - 2008/10/25 (土) 15:28:00 - おお
みなさまのコメント、大変うれしくおもいます。本題からそれていますが、私が興味本位でのらりくらりとやってきたので、仕方ないですが、有意義に議論ができてるかなとおもいます。話題は今までの焼直し的なところかもと思いましたがそれ以上の物を得ているような気がしています。細かくコメントにレスできないところもありましたが、ご容赦ください。

議論してきたなかで、なん点か再認識しないといけない(認識されている方もいると思いますが)点があるのではないかとおもいます。統計は物事の白黒をつけるものではないという認識がすこし薄れているようにおもいました。p値についても、5%より小さいなら生物学的な意義を考えるに値するというのが一般的に浸透しています。逆手に取ると20回に1回の割合ではずれを引く確率になります。あるラボがそのハズレを引いて、ほかのラボで再現性が取れないっていうことも5%ならこの長い歴史の中可也あっても不思議ではありません。逆に統計的にしっかりやってnも十分でp=0.049で5%未満で有意義だし間違えないなんていう方がちょっと危険かもという気もします。非常にいい感度でやってるだけにp値も可也信用できるなら、1/20の確率というのに信憑性がありますから。
例えばビルとかで、震度5で倒壊するかどうかを力学的に計算してp値0.049で、倒壊すると言う仮説が否定されたとしても、ちょっと怖くないですか?20個に1この同じようなビルは倒壊するかもしれないという暗示でもあります。5%はどこから来たんでしょうね。

あと、統計的手法はプラクティカル果たして完ぺきなのだろうかというのも疑わないといけないと思います。実は個人的にはかなりあラがあると思ってます。

すべて数値化して**検定になるから無理があるような気がします。例えばAがBよりいつも高値をしめすことがいいたいなら、5回やってAがBよりいつも高値なら、それが偶然である確率は1/(2^5)ですからp=0.03125でAがBよりいつも高値を示す可能性がしてきできます。でも世の中そういう手法は取らないですよね、、、、個人的にはn=5を推奨したくなってきました。

なんか言いたい事がうまくまとまらないというかまったく文にならないのですが、引き続き感想などあればうれしいです。

(無題) 削除/引用
No.2025-28 - 2008/10/25 (土) 14:28:51 - おお
>[Re:22] UCさんは書きました :
> Welch(あるいはStudentのt検定)ではP=0.07だったけど、Paired t-testをしたら、P=0.04になったから、これを採用しようというのは、個人的には考えられませんし、「有意差が出やすい方の検定を採用」というのは気持ち悪くて出来ません。

これはやるべきことではないですね。最近水が痴呆の原因となるという結論を統計的に導いて、統計の誤用、乱用を呼び掛けていると言った事があったそうですが、、、、

(無題) 削除/引用
No.2025-27 - 2008/10/25 (土) 14:22:28 - おお
>[Re:24] in situさんは書きました :
> おおさまの発言を受けてちょっと調べてみました。
>
> 正規分布であることの仮定に関してですが、『自然科学の統計学』(東京大学出版)によると、
>
> 1.中心極限定理により、標本数が増えるとほとんどの分布は正規分布に近似できるようになる
> 2.正規分布でないのに、正規分布と仮定してt検定を行った場合でも、第一種の過誤はそれほど大きくならない(誤って有意であるという結論を出すことはほとんどない)
>
> という、二種類の理由で、正規分布かどうかわからない場合のt検定を容認する記述がありました。

ありがとうごさいます。T検定を使うことに対して、サポートする統計的根拠がいちおうあるのですね。これが一般的にT検定を使う理由として考えられているのなら、われわれは重要な事を見逃して、喧喧諤諤とやってた事になります。
1はどう何でしょうね、、どんな時にでも当てはまるとは思えないようなきもしますが、、、、


> n=3の扱い方に関してですが、自分としてはmom-aさまに近い考えで
>
> >基礎研究の論文では、たった1つの試験で何かを結論づけることはまずないと思います。複数の実験結果から結論を導いているはずなので、あまり1つの実験の検定にコダワリすぎるのもどうかと思います(ずさんで良いという意味ではありません)。
>
> という考えに賛同します。


わたしも、この姿勢は大事と思えます。

(無題) 削除/引用
No.2025-26 - 2008/10/25 (土) 13:43:51 - おお
>[Re:21] あだむやんさんは書きました :

> 時間?お金?科学とはあまり関係ないように思います。

いや、大いに関係があるとおもいます。
2年かかる実験で、その実験結果をえて、統計的にもっとしっかりしたデーターを取るのにあと4年かかるとわかればどうしますか?
たぶん2年で完ぺきとはいえないが、可能性を示唆するデーターとして発表するとおもいます。この事は重要です。同じような実験をする時のデザインのの仕方を考える材料を提供するという意味もありますし。新しいことだとなおさら重要です。

お金。そうでしょうか、結構昔マイクロアレーのソフトを開発の関係の人が、1枚50万する(当時)アレイで統計てきにしっかりしたデーターを出すのに何枚必要か統計の詳しい人に聞くと1サンプル10枚という答えが帰ってきたそうです。コントロールとテスト合計20枚、マイクロアレーだけで1000万かかってしまいます。サンプルが3つあったらどうしますか。いまでさえこの数はきびしいですよ。

あと、データーを早めに公開するというのは、いろんな可能性を拡大することにもなります。地球温暖化の解決になりそうなものは早めに公開して、いろんな角度、分野からの検証を含めた展開をした方がいいとおもいませんか。いきなりエコ持ち出しましたけどこう言うのも科学ですし、1研究室のできることって、ただがしれているともいえますね。

> 1)p値が0.11だから差がないといえる
> 1)は、統計学というものを厳密に考えると妥当です。

いや、p値が0.11だけどこの検出感度を考えると仕方がないとか、統計的に正しくないというのもあるのでは、、

> 2)可視的に明らかに差があるのだから、nが足りないのか、使う検定方法を変えて、有意差がでる検定方法を採用する

可視的に明らかに差があるのだから統計は必用ないという選択肢もあると思います。

> 到底、n=3のFigureだけで構成されている、特にIn vitroの論文は...あやしい、うそだ、と言われているというのがだいたいのおちだと思います。

これについては以下のコメントも考慮に入れるべきだと思います。

>基礎研究の論文では、たった1つの試験で何かを結論づけることはまずないと思います。複数の実験結果から結論を導いているはずなので、あまり1つの実験の検定にコダワリすぎるのもどうかと思います(ずさんで良いという意味ではありません)。

こう言うのが見れないと科学者として問題があると思いますし、見れるとその実験の結果の解釈の仕方が分かってくると思います。場合によってはその論文の著者以上の解釈可能せいを考えられたりするかもしれません。

> いつもデータの取捨選択をして都合のいいデータを作ろうとする、うそくさい人でした。

データーって都合の悪いところが出てきた方がホントっぽいですし、そこから展開させるって言うのも結構楽しいと思うのですが、
せっかくだから、サイエンスをエンジョイしてください。

45件 ( 1 〜 20 )  前 |  1/ 1. 2. 3. /3


パスワードを入力してチェックした記事を チェックした記事を