Bio Technical フォーラム

  • バイオ関連の実験をする上での、試薬、機器、プロトコールなどの情報交換の場です。
  • 新しいテーマで話を始める場合、質問をする場合は「新しいトピックを作る」から書き込みをしてください。
  • 質問に対して解答できる方は是非、書き込んで下さい。
  • このフォーラムにふさわしくないと管理人が判断した投稿は予告なく削除します。

新しいトピックを作る | トピック一覧 | 研究留学ネットに戻る

ひとつ前のフォーラム(readのみ)

このスレッドをはてなブックマークに追加このスレッドをはてなブックマークに追加

t検定の多重性の問題 トピック削除
No.9563-TOPIC - 2021/03/08 (月) 20:53:20 - ttest
CNSや姉妹紙をはじめとするトップジャーナルでは統計検定でt検定を頻繁に使われているようで、多重性の問題が無視されているように思えるのですが、皆様どのような感想をお持ちでしょうか?
例えば、WTマウスとKOマウスでグルコーストレランステストを行い、各タイムポイントでt検定をp<0.05で使うような場合、ある刺激ありなしに対してWTとKOで比較する場合などです。
この場合は2way-ANOVAを行うかBonferroni補正で有意水準を調整するものかと思っていました。
ご意見よろしくお願い致します。
 
- このトピックにメッセージを投稿する -



22件 ( 1 〜 20 )  前 |  1/ 1. 2. /2


(無題) 削除/引用
No.9563-23 - 2021/03/15 (月) 10:17:47 - s
神経生理学の稠密な時系列/空間データ(数千点とかそれ以上!)でも基本的には各点ごとの推定統計量によって検定する(クラスターを考慮したり、いろいろ工夫されているけど)と言うことを知り、やはりt検定+多重検定補正で十分なのではという気がしてきました。

モデルを仮定すると、そこで汲みとられない各点ごとの情報が抜け落ちてしまうという問題が当然起きます。そもそも検定にあたって、帰無仮説が異なる訳ですが。もちろん、薬剤に対する反応でシグモイドを仮定するとか放射線に対する生存率で標的理論を仮定するとかのように、標準的なモデルが確立されている場合はモデルベースの方法のほうが妥当性は高いと思います。

(無題) 削除/引用
No.9563-22 - 2021/03/12 (金) 15:05:43 - AA
なんらかの検定をすると効果量も算出されますが、その大小の生物学的意義についてはあまり議論されない気もします。議論すること自体が難しいとは思いますが。

(無題) 削除/引用
No.9563-21 - 2021/03/11 (木) 19:12:11 - おお
そういうことでなくって、例えばコントロールが5プラスマイナス2でテストが100プラスマイナス15だった場合、差があるけどその差が1.3倍なのか200倍なのかわからないってことはないでしょってこと。

(無題) 削除/引用
No.9563-20 - 2021/03/11 (木) 18:19:57 - モルカーいいよね
>統計学的な平均値の意味を考えてください。またSDやSEMも値のらしさを示すものですよ。

論旨が違う気がします。(念のため確認ですが、t-testはそもそも標本の不変標準偏差を用いて計算しています)

確かにそれぞれ概念としては値のらしさを示していますが、[SD(エラーバー)がこのくらいちっちゃいから信頼性のあるデータだ!]というのはあくまで主観的・感覚的な理解ですよね。

現在、バイオ系の国際統一ルールとして統計解析(慣例的に0.05<pで有意差あり)を使うが、これはあくまでn数〇、×検定等々で群間に差がないという帰無仮説を棄却しているだけ。
つまり、誇張のない表現で述べると[今回の計算方法だと、群間に差がないとは言えない]という事しか担保していない。


(スレ主様の疑問はそもそもトップジャーナルでも統計間違ってるけどどうなの、って事なので)

スレの本旨とズレてきているので私の返信はこれで最後にさせてください、すみません。

(無題) 削除/引用
No.9563-19 - 2021/03/11 (木) 18:17:21 - s
同じようなことかな、とも思いますが、

> ただ、0.05という数字に根拠がない、多群検定も諸手法(Tukey等)あるがどれも"完璧に"多群の補正をできるものではない等とそもそも絶対的に正しい判断手法が現在(今後も)ない点はこの方式の限界でしょうね。

完璧とか絶対的に正しいというのがちょっとわからないです。結局はαとβのトレードオフをどの程度で妥協するかという話だと思います。サンプルサイズが小さかったり多重比較だったりすると、トレードオフの度合いが大きいというだけで。もちろん母分布が歪んでいれば、αをコントロールしていると思っていて実はコントロールできてなかった、なんてこともあるでしょう。

素粒子物理だと5σとかよく聞きますが、あの場合は発見が重要なので検出力が幾ら下がっても気にしない、ということなんだろうと想像しています。(あるいはサンプルサイズや効果量が大きいのか)

> また、筆者の主張の正当性の担保、についてもあくまで頻度主義統計が担保するのは[○○群間に差がないとは言えない(=差がある)]という事で、差の定量性については担保していないですよね。
> 例えば[薬剤処理群で遺伝子発現量が10倍有意に増加した]は処理群とコントロールに差がある事は統計的に有意だが、10倍という数字の正当性を保証するものではないはずです。


別に「頻度主義」統計の制約ではないですよね。効果量を示すことは可能ですし。ネイマン-ピアソン流の統計的仮説検定の枠組に入っていないだけでは。

# 頻度主義という言葉を使うと怒られる界隈があるらしいです。

(無題) 削除/引用
No.9563-18 - 2021/03/11 (木) 17:10:13 - おお
>例えば[薬剤処理群で遺伝子発現量が10倍有意に増加した]は処理群とコントロールに差がある事は統計的に有意だが、10倍という数字の正当性を保証するものではないはずです。

統計学的な平均値の意味を考えてください。またSDやSEMも値のらしさを示すものですよ。

(無題) 削除/引用
No.9563-17 - 2021/03/11 (木) 12:37:51 - モルカーいいよね
スレ主様
>私が疑問に感じたのは、筆者の主張の正当性を客観的に担保するのは何かということ

これについてはいくつか話が散見されていますが、現状は[頻度主義的統計検定で0.05<Pで有意に差がある]という国際的な慣例がルールという事になっているのだと思います。
ただ、0.05という数字に根拠がない、多群検定も諸手法(Tukey等)あるがどれも"完璧に"多群の補正をできるものではない等とそもそも絶対的に正しい判断手法が現在(今後も)ない点はこの方式の限界でしょうね。

また、筆者の主張の正当性の担保、についてもあくまで頻度主義統計が担保するのは[○○群間に差がないとは言えない(=差がある)]という事で、差の定量性については担保していないですよね。
例えば[薬剤処理群で遺伝子発現量が10倍有意に増加した]は処理群とコントロールに差がある事は統計的に有意だが、10倍という数字の正当性を保証するものではないはずです。

なので、書いていて思ったのですが恐らく統計手法は筆者の主張の正当性を担保するのに向いていないという事で、そこまで重視されないのかもしれません。一方、最近CNS関連誌は生データの提出や複数回の再現試験を義務付けているようですしデータの信憑性の担保に力は入っている傾向ですよね。
つまり、主張の信頼性はその信頼性の高いデータを見た読者達が判断する、というのが現状一番妥当なのかと。

(無題) 削除/引用
No.9563-16 - 2021/03/10 (水) 15:21:25 - s
>有意差付くまで(それでも見かけで1.3倍くらいの差)ひたすらnを増やすよう指導されたらしい。

典型的なp-hackingの事例ですね。
そんな異常なデータのとり方した論文を掲載する雑誌があったというのも不思議。

(無題) 削除/引用
No.9563-14 - 2021/03/10 (水) 14:58:00 -  βんkl;
適切なサンプルサイズは重要ですね。知ってる教室の院生の論文で、ごくありきたりな細胞抽出液のウェスタンでn=30(もう少し多かったかも)/groupとかあって引いた。有意差付くまで(それでも見かけで1.3倍くらいの差)ひたすらnを増やすよう指導されたらしい。本人は研究の厳しさを実感したと感慨深そうに苦労話していたけど、いやいや頑張る方向が違うし、と思った。

(無題) 削除/引用
No.9563-13 - 2021/03/10 (水) 12:59:59 - ttest
疫学や臨床研究となると話が変わってくるので、生物系の実験研究に限った話でお願いします。

(無題) 削除/引用
No.9563-12 - 2021/03/10 (水) 12:57:30 - ttest
私が疑問に感じたのは、筆者の主張の正当性を客観的に担保するのは何かということです。
差があるかどうかについて客観性を担保するために統計手法を使用しているというのが現状かと思います。
そして、その結果を基に筆者の主張が導かれるというのが論文かと思います。
今回私が読んだ論文では、統計手法が正しくなく、誤った判定で1つのデータが出たところで、他のたくさんのデータから推察すると筆者の主張は正しいという判断がなされたのかと思います。(私の推測です)
統計手法についてはこのスレッドでも意見が分かれるようですし、生物学系の研究の場合、統計学的な正しさよりも他の状況証拠などから判断されるということが多いように思えます。
実際私も論文を読んでいて、1つのパラメーターが有意差があって、他の関連するパラメーターに明らかに差がない場合、筆者の主張は正しくないのではないか?(誤差?)と思ったりします。

(無題) 削除/引用
No.9563-11 - 2021/03/10 (水) 12:22:24 - モルカーいいよね
>これは、信じれないほど増やすと、ごく僅かな違いを検出できるようになるということで、サンプルサイズが100未満の私たちが考慮する必要のないことです。
それももちろん正しいのですが、そもそもt検定のt値算出式はn数が大きくなるほどt値が大きくなる(有意差が出やすくなる)式なので、100未満でもサンプル数を増やすほど有意差が出やすくなっていくのは変わらないはずです(本筋からずれてすみません)。


ちなみに↓みたいな動きもあったんですね。

「“統計的に有意差なし”もうやめませんか」 Natureに科学者800人超が署名して投稿
https://www.itmedia.co.jp/news/articles/1903/26/news112.html

(無題) 削除/引用
No.9563-10 - 2021/03/10 (水) 11:39:39 - qq
>(逆にt-testなんかはn数を増やすほど有意差が出やすくなります。)
これは、信じれないほど増やすと、ごく僅かな違いを検出できるようになるということで、サンプルサイズが100未満の私たちが考慮する必要のないことです。

n=3の実験でp=0.04だとしても、同様の独立した後二回の実験で同じ有意差が確認された、ので問題ないということだと思います。
だとすると、最初からサンプルサイズを9にすれば同じなのかというと、それは何となく違う気がする。(詳しい人教えて)
結局、p値よりも、同様の実験を三回行って同じ結果がでたよ(自己申告だけど)のほうが、重要なのだろうと思います。

time-courseやdose-responseの各データポイントに有意差を付けてある図が少なくないのだけど、それは何か間違っているような気がします。モデルとしてのカーブの正当性とモデルの正当性、そしてカーブが二つあるときに、それぞれのパラメータが有意に異なることを示す必要はあっても、データポイントに有意差を付けるのは統計学的な誤解と被害妄想ではないかな?

(無題) 削除/引用
No.9563-9 - 2021/03/09 (火) 23:34:23 - モルカーいいよね
>そもそもの疑問点は明らかに問題のある統計手法がトップジャーナルで使われているのか?
これやっぱり気になりますよね。先ほどのタイムコースとかは議論が分かれるにしても、学部生に指導するような明らかな統計手法の基本的な誤りも散見されますから。(トップジャーナルの)オーサー、エディター、レビュワー3重チェックをすり抜けるのが不思議です。

>うちらのはサンプルサイズが極端に小さいので、そもそも真面目に統計解析する対象としてみてもらえなず、スルーされてるのかもしれません。
疫学と実験の統計は趣が異なりますよね。ただそもそも実験屋の行う頻度手技的統計は、限られたサンプルサイズから母集団を推定するという理念なのでサンプルサイズが小さい事を徒に卑下する必要もないかもしれません。(逆にt-testなんかはn数を増やすほど有意差が出やすくなります。)
どちらかというとサンプルサイズが小さい際に気にするのは実験屋としてのデータ自体の信憑性・再現性な気がします。

(無題) 削除/引用
No.9563-8 - 2021/03/09 (火) 22:43:32 - J
レビュアーもエディターも統計の専門家ではないので、よく分かってない人は少なくないと思います。トップジャーナルとかは関係ないです。またある程度勉強してる人で、この検定は適切でないのではと思っても、じゃあどういう解析すればいいのですか、と聞かれた時、具体的に自信持って答えられないので、あまり強く指摘できないのかもしれません。臨床研究とか疫学調査とかだと統計は研究の最終的な結論そのものをを左右するので、レビュアーに統計の専門家を入れると思いますが、普段N>100とかのサンプルサイズを扱ってる人から見たら、うちらのはサンプルサイズが極端に小さいので、そもそも真面目に統計解析する対象としてみてもらえなず、スルーされてるのかもしれません。
要は、客観性を担保するための他に適当な方法がないので、無理やりやってるだけのように思います。

(無題) 削除/引用
No.9563-7 - 2021/03/09 (火) 21:04:06 - ttest
皆様

回答ありがとうございました。
そもそもの疑問点は明らかに問題のある統計手法がトップジャーナルで使われているのか?、何か理由があるのか?ということでした。
様々な角度から検討を行っているため、間違った統計手法だからという理由で論文の結論を否定するわけではありません。(nを増やせばいいじゃないかとは思いましたが、、、)
確かに生物系の研究ではケースバイケースということで確固たる統計手法はないように思えます。
有意水準5%もたしか、深い理由がなかったと思いますし、生物系の研究だと再現性やストーリーが重視されるのかもしれませんね。
だからといって自分の研究でt検定を多用するのは避けたいところですが、、、

(無題) 削除/引用
No.9563-6 - 2021/03/09 (火) 16:53:23 - モルカーいいよね
タイムポイントの検定はやっている人が多い(生物系の研究では必須な)わりに統計手法の正解はあまり決まっていない印象ですよね
http://scienceandtechnology.jp/archives/32814


そもそもの議題のCNSでも統計間違ってるんじゃないか問題については、自分もCNS掲載論文で単なる4群間の検定にt-testを使っているのを見た事があるので、案外トップジャーナルでも間違った統計手法が査読をパスするのかもしれません。

(無題) 削除/引用
No.9563-5 - 2021/03/09 (火) 11:33:19 - s
これとか。

https://togetter.com/li/939366

深い、、。まあ、実験生物学者にとっては、趣味の領域かも。

(無題) 削除/引用
No.9563-4 - 2021/03/09 (火) 11:30:47 - s
独立にt検定して多重検定補正するのでは、わざわざサンプルサイズを小さくしてから基準を厳しくしていることになり、おおさんの指摘があるように検出力はすごく下がると思う。その意味では2-way ANOVAのほうが適切。

ただし、各タイムポイントは独立ではないので(時間相関は0ではないので)、タイムポイントをカテゴリカル変数でなく、順序尺度以上として扱う方法があれば(言い換えると時間変化について何らかのモデルを仮定できれば)、よりよいと思う。

(無題) 削除/引用
No.9563-3 - 2021/03/09 (火) 10:28:46 - ど素人
様々な考え方が可能だと思いますが、第1種の過誤の確率(α)をどの範囲で制御するかの問題であり、統計手法の利用者が正しく理解しているならばそれでいいといえるのではないでしょうか。

たとえば、N個の time point をとれば N回の検定をします。そのN回の検定のなかで過誤の確率をαに抑えなければならないのであれば、有意水準に補正が必要になります。これが ttest 様の考え方になります。

一方で、N個の time point をとってもその各1回ずつの検定につき、それぞれの過誤の確率をαに抑えるという考え方は可能であるかもしれません。その方針が明確であれば、トータルで1回以上の過誤が発生する確率がαを超えたとしても、そのことによりデータ全体が否定されることはないかもしれません。

自分で論文を書くときも、どちらが絶対に正しいということではなく、自分の考え方を明確にし、目的に合致した手法を選択することが肝要であるのだと思います。

22件 ( 1 〜 20 )  前 |  1/ 1. 2. /2


パスワードを入力してチェックした記事を チェックした記事を

このトピックにメッセージを投稿する
名前 
メール   アドレス非公開
   タイトル 
本文      
設定  クッキーを保存(次回の入力の手間を省けます)
上に上げない(トピックの一覧で一番上に移動させません)
解決(問題が解決した際にチェックしてください)
暗証  半角英数字8-12文字の暗証番号を入れると、あとで削除、修正ができます。
送信 

〔使い方〕
  • 「アドレス非公開」をチェックすれば、自分のメールアドレスを公開しないで他の方からメールを受け取れます。
  • 問題が解決した際には、解決ボタンをチェックして解決した旨のコメントをつけてください。これは、初めにトピックを作った人と管理人のみが可能です。
  • 半角カタカナ、機種依存文字(全角ローマ数字、○の中の数字等)は文字化けの原因となりますので使わないでください。