Bio Technical フォーラム

  • バイオ関連の実験をする上での、試薬、機器、プロトコールなどの情報交換の場です。
  • 新しいテーマで話を始める場合、質問をする場合は「新しいトピックを作る」から書き込みをしてください。
  • 質問に対して解答できる方は是非、書き込んで下さい。
  • このフォーラムにふさわしくないと管理人が判断した投稿は予告なく削除します。

新しいトピックを作る | トピック一覧 | 研究留学ネットに戻る

ひとつ前のフォーラム(readのみ)

このスレッドをはてなブックマークに追加このスレッドをはてなブックマークに追加

統計解析の方法 トピック削除
No.9488-TOPIC - 2021/02/06 (土) 23:35:53 - 統計
お世話になります。
私はマウスや培養細胞を用いた実験をしています。
統計解析はstudent T testしか使ったことがありませんが、その際にはexcelを用いています。

そのことを隣国の友人と話したところ、分布が正常ではない(?)のでexcelではだめだ、冗談でしょとまで言われてしまいました。

分布が正常ではないというのは、生データが正規分布に従うかどうかが一般に数が少なくて言えない、と言いたいのかもしれません。

その友人曰く、SPSSを使うといいと言われました。
皆様も同様のご意見でしょうか?
よろしくお願いします。
 
- このトピックにメッセージを投稿する -



21件 ( 1 〜 20 )  前 |  1/ 1. 2. /2


(無題) 削除/引用
No.9488-25 - 2021/02/12 (金) 09:24:57 - たろー
> 根本的なところを指摘すると、まず本来の統計の使い方をしているわけではないです。

おっしゃる通り、事前に適切なn数を決めていないうえにn=3とか4の統計なんてあんまり意味ないんですよね。逆にnが数百くらいの細胞数で、かなり微妙な差をp<0.05だから有意差ありとしてくる論文もあって、そういう使い方ならp値なんか出さないほうがいいのではと時々思います。生物の結果は事前に予想が難しく、最初から統計方法を固定するわけにもいかず難しいところです。


> 再現性をしめす一つの目安として、統計を代用しているだけです。3回やってほぼ同じ結果になってますということを示すツールです。

それくらいの位置づけならよいのですが、実際にはやけにp値の値にこだわってくるレビューアーは時々いますし、p値は再現性ではなく、その事象が有意かどうかの指標として扱われることが多いのではないかと思います。とはいえ様々な出版社が指針を出したりして少しずつ良くなっている印象はあります。


二峰性分布のデータでもt検定をやってみると有意になったりもするのですが、そもそも統計手法として適切ではないのではと思っておりました。

色々書きましたが別にp値が悪いわけではなく、扱えるデータが膨大になった現在、統計自体の重要性は増していると思うので、適切に扱えるように勉強していきたいと思います。もともとのトピ主ではありませんが、横からのコメントにお答えいただきありがとうございました。

(無題) 削除/引用
No.9488-24 - 2021/02/08 (月) 09:52:04 - s
>[Re:20] medpfさんは書きました :
> 後学のため、そのようなシミュレーションを示しているネットのサイトを教えて頂けませんでしょうか? 

例えば、

http://aoki2.si.gunma-u.ac.jp/lecture/BF/index.html
https://oku.edu.mie-u.ac.jp/~okumura/stat/ttest.html

など。なお、ここでシミュレーションと言っているのは、帰無分布からの無作為抽出データから計算したp値が一様分布するかどうかを確認したものがほとんどです。

身もふたもない話で恐縮ですが、二峰性分布でどうなるかなどの個々の疑問について納得できる答えを得るには、自分でコードを書くのが一番です。上の例のなかにも、Rのコードが載っているものがあるので、それを適宜変更すればそれほど難しくないはずです。同じコードで、適当に対立仮説の分布を仮定すれば、検出力のシミュレーションも可能だと思います。

(無題) 削除/引用
No.9488-22 - 2021/02/08 (月) 03:38:56 - おお
根本的なところを指摘すると、まず本来の統計の使い方をしているわけではないです。

実際の統計手法は、パワーアナリシスなどをした後にデザインを決めてデザイン通りの実験後計画していた統計手法によって結論をだす。

これをしていないのだから、統計的につめる意味をなしません。で統計手法は使うけど何が目的かというと、再現性をしめす一つの目安として、統計を代用しているだけです。3回やってほぼ同じ結果になってますということを示すツールです。ですから各実験のデーター値をプロットするのがわかりやすいし、その場合統計の意味はますます無に近くなってきます。

(無題) 削除/引用
No.9488-21 - 2021/02/08 (月) 03:23:47 - たろー
> Welchで良いという事は、小さなNでの等分散仮定はダメだけと、正規性の仮定はOKという事なのでしょうか? 何か矛盾するというか、ダブルスタンダードのような気がして、しっくりきません。

すみません、Welch’s t-testがいいと書いたのですか、あくまでstudent tよりはベターという意味で、正規性の仮定の問題はクリアできていません。偉そうなことを書いたにもかかわらず恐縮ですが、私がWelch’s t-testを使っているというのも、あくまで妥協の結果です。

実験系にもよるとは思いますが、細胞に薬剤添加した後などは二峰性のピークに分かれるなど、どう考えても正規分布ではないケースが多いと思います。このようなケースなどでt検定の頑健性のシミュレーションをしている文献などありましたら、ご教示いただけると嬉しいです。



> Nが小さい場合、全てのデータポイントを図にプロットし、生データの添付も求められるようになってきた昨今、ノンパラメトリックが意味をなさない程少ないN数での統計処理に何の意味があるのか、ちょっと考えてしまいます。測定された標本の分布をそのまま見て、違いがあるかどうか読者や査読者が判断(統計処理なしで)しても良い気もします(暴論でしょうか?)。

個人的にもそう思って一度統計処理をかけずに全データのプロットのみで投稿してみたこともありますが、結局レビューアーに統計処理をしろと言われて処理をして返しました。レビューアーの意見に反論するほど強い信念もなく、中途半端な意見ですみません。人間の目だけで判断するよりは、多少おかしくても少ないnでも統計を出すほうがいいという意見がまだ多いような印象です。


結局のところ、n数の少ない場合の統計の問題については、nを増やすしか根本的な解決方法はないのではないかと思っております。これまで、コストや労力の問題で統計のために不必要にnを増やすのは生産的ではないとの意見が多かった気もしますが、全体的にはn自体を増やそうという流れになってきてるのではないかなと個人的には思っております。

(無題) 削除/引用
No.9488-20 - 2021/02/07 (日) 22:42:39 - medpf
> 正規性や等分散性からのずれにどの程度頑強かは、ネット上にもシミュレーション
後学のため、そのようなシミュレーションを示しているネットのサイトを教えて頂けませんでしょうか? ずっと気になっているのですが、自分の中できちんと解決できていないので、、、

Welchで良いという事は、小さなNでの等分散仮定はダメだけと、正規性の仮定はOKという事なのでしょうか? 何か矛盾するというか、ダブルスタンダードのような気がして、しっくりきません。「実験で得られる分布」が、母集団の分布を反映するかどうかわからないですし。と言いつつ、自分で論文書くときには、少ないNでWelchのP値を使ってたりするので、物が言えたぎりではないのですが、、、

Nが小さい場合、全てのデータポイントを図にプロットし、生データの添付も求められるようになってきた昨今、ノンパラメトリックが意味をなさない程少ないN数での統計処理に何の意味があるのか、ちょっと考えてしまいます。測定された標本の分布をそのまま見て、違いがあるかどうか読者や査読者が判断(統計処理なしで)しても良い気もします(暴論でしょうか?)。95%CIにしろ、P値にしろ、FDRにしろ、ある程度の確率で母集団を推定し損なうリスクを含んでいるわけで、それが5%未満だからといっても0%になるわけでもありませんし。どうなんでしょう?

(無題) 削除/引用
No.9488-19 - 2021/02/07 (日) 20:13:25 - たろー
> 皆様

コメントいただきありがとうございます。私もWelch’s t-testを使うべきと思っておりますが、生物系の論文のmethodsを見ているとstudent tでやっているケースが圧倒的に多いように思います。釈然としない思いはありながらも、まあ十分差があるならいいかと流してしまっています。

u検定でn=6以上である必要があるというのもおっしゃる通りだと思います。


>No.9488-12
一通りのコメントを拝見させていただきました。ただ、少数のnでの統計というのは、ご自身で書かれているように妥協の産物であり、それは生物学における問題点であると私は理解しております。効果量が十分大きければという意見もありますが、検出力の検定もせずにとりあえずn=3でという論文が圧倒的に多いのではないかなと思います。JBC当たりはずっと前から95%CIの併記を推奨していますが、あまり普及していないかなという印象です。

ただ最近は重要なデータでは差がそれなりにあっても、reviewerに最低でも6~7のnを要求されることも増えました。特に動物を使った実験ではこれくらいのnを用意するのは非常に大変なのですが、データと統計の信頼性を考えると必要な流れかなとは思っております。

(無題) 削除/引用
No.9488-17 - 2021/02/07 (日) 15:13:24 - s
>[Re:16] komさんは書きました :
> ExcelのT.TESTはStudent T testとWelch’s t-testのどちらかと言ったら前者なんですか?

どちらもできます。

片方しかできない統計ソフト(の関数)を知らないです。

(無題) 削除/引用
No.9488-16 - 2021/02/07 (日) 10:25:06 - kom
ExcelのT.TESTはStudent T testとWelch’s t-testのどちらかと言ったら前者なんですか?

統計解析の正当性 削除/引用
No.9488-15 - 2021/02/07 (日) 10:22:04 - FDR
ちょっとはずれた話になるかもしれませんが、今投稿しようとしているジャーナルの投稿規定に、研究結果に対して行った統計解析が正しいことを統計解析の専門家に見てもらって、証明書をもらってくださいという一言がありました。

昔はT-test(エクセル)を使っていまして、最近は私は持っていませんが、ANOVAソフトでデータの統計処理をしていますが、他の研究者からFDRを出したらと言われたりもします。

皆さんは投稿する時こういう投稿規定を守っておられるのでしょうか?

教えていただければ幸いです。よろしくお願いいたします。

(無題) 削除/引用
No.9488-14 - 2021/02/07 (日) 09:55:05 - qq
No.9488-7
>正規分布でなくてもNが小さい状況でtype 1 errorが出にくいからです。

そんな話を聞くのだけど、これはなにかの冗談(か、私の完全な誤解?)だろうと思います。
Nが小さいと1)自由度をn-1としても、推定される母分散が真の母分散よりも小さく算定され、2)代表値は真の代表値から外れやすいので、有意差のないところに有意差を見つけがちです。やってみれば分かります。
N=3を使わないわけではないのですが、安心できる気はしない。

(無題) 削除/引用
No.9488-12 - 2021/02/07 (日) 09:22:49 - おお
>n数が少なくてもできるかとか、そもそも正規分布を仮定していいのかといった問題は生物学分野全体で共有している大きな問題だ

No.9488-7のわたしのコメントを確認してください。問題ではなくて妥協点です。

(無題) 削除/引用
No.9488-11 - 2021/02/07 (日) 09:19:09 - おお
>student Tは正規分布だけでなく等分散を仮定するものですから

>Welch’s t-testを使えば十分です。

わたしもWelch’s t-testでいいとおもいます。また、各群のサンプルサイズが大きいときもStudent T testは向いていませんのでWelch’s t-testを使うほうがいいです。そういう理由からなんだと思いますが、ソフトによってはそれがデフォルトになっているといううわさを聞いたことがありますが。

(無題) 削除/引用
No.9488-10 - 2021/02/07 (日) 07:35:58 - s
nが大きくなくては、というのは検出力の問題を言っているのであって、別にn=2でもt検定はできます。効果量が十分大きければいいわけです。

正規性や等分散性からのずれにどの程度頑強かは、ネット上にもシミュレーション結果がたくさんころがっています。結論として、実験で得られるような大抵の分布にたいしてはWelch’s t-testを使えば十分です。

u検定(ノンパラメトリック)では理論上p値が飛び飛びの値になるので、0.05より小さくするためにはnは2群合わせて6以上である必要があります。

(無題) 削除/引用
No.9488-9 - 2021/02/07 (日) 05:48:40 - たろー
t検定するのに統計ソフトは何使ってもほぼ一緒(たまに自由度の計算法とかが少し違ったりする)というのは同意するのですが、生物学でよく用いられている実験系(摂動の有無で比較)において、student T testをそもまま使用してよいかについては疑問があります。

摂動に対する応答は通常細胞間で不均一なのですから、摂動の有無で分散の形状は異なると考えるのが自然かと思います。
であるならば、student Tは正規分布だけでなく等分散を仮定するものですから、こうした系に使うのは不適切であり、t検定を行うにしても等分散を仮定しない検定で行うべきではないかと考えております。F検定を使うのも多重検定の問題などもあり、適切ではないと聞いたこともあります。皆様どうしておられますでしょうか。

n数が少なくてもできるかとか、そもそも正規分布を仮定していいのかといった問題は生物学分野全体で共有している大きな問題だと思うので半ば諦めています。
zsxd様の言う通りノンパラメトリックでやればいいという考えもあるかもしれませんが、それでも統計の教科書では結構なn数が必要と書かれていて判断に悩むところです。

(無題) 削除/引用
No.9488-7 - 2021/02/07 (日) 03:36:10 - おお
Nが一桁、場合によっては3とかの場合で、正規分布かどうか判断できなくてもT testを使うのは理由があります。正規分布でなくてもNが小さい状況でtype 1 errorが出にくいからです。数が少ないならSPSSでも正規分布を見ることはできないしT testの計算もSPSSでは分布を考慮しているわけでもないです。

昔はExcelは統計の関数に不備があるので使うなという話はありましたが、まあその頃でもT testぐらいは機能していたはずです。私はその頃にExcelで統計をするなと口が酸っぱくなるぐらい言われたので、Stat Plusというソフトを買いました当時アカデミック価格は1万円ほど(100ドル)でしたが今みてもそれぐらいです。学生は60ドルになってますね。

https://www.analystsoft.com/en/products/statplus/buy.phtml

その頃他のソフトは10万円をゆうに超えてたような印象があります。

ま、Excelでも今は構わないと思いますがラボで何をつかって統計処理をするのか決めておいて、Licenseの問題で1台のコンピューターにしかいれることができないなら、統計処理用コンピューターを一台ラボに置くとか、施設によっては施設でライセンスをとっているところもあろうから、そういうのが無いか聞いてきたりするのもいいだろう。論文で統計処理の概要をマテメソに書くこともあろうから。

そういえばかんたんな統計はPrism Graphpadという有名な統計ソフトのWEB SiteでCalculatorを公開していて、そこにいって打ち込めば計算してくれる。

TTest関連なら

https://www.graphpad.com/quickcalcs/contMenu/

(無題) 削除/引用
No.9488-6 - 2021/02/07 (日) 01:49:53 - zsxd
かなり昔の一時期、色々批判されるようなところもあったと聞いたことはありますが、もう長いことそういう話は聞きません、普通にエクセル統計ソフトで計算してます。薬の治験とか多施設ワイドの臨床研究とか多くの因子が絡む大規模調査とかならともかく実験室レベルの基礎研究でのデータ処理で、そんなに立派な高額の統計ソフトが必要になるような場面はまずほとんどないと思うので、別にそんな大層なソフトでなくてもいいと思います。大学生協で新学期に安売りしてたどっかの大学の先生が作った2万円前後の医学生物学用の統計ソフトをインストールしてエクセルで計算しています。最近は医学生物学統計の解説書に付録で、研究で汎用する統計処理(基本的な統計処理と多重比較や生存曲線作成などが中心)のエクセル計算用のCDがついてるものもありますのでそれをインストールして使ってる方もいます。統計に詳しい人の話だとかなり高度な処理までできるものもあるようです。

正規分布に従うかどうかは、そのサンプル自体が正規分布どうかということでなくて、サンプルを抽出してきたその背後にある仮想の母集団が正規分布をなすと言えるものかどうかと習いました。
サンプルについて正規分布かどうかを統計計算で判定こともできますが、(基礎研究者的にはとても)大きなサンプルサイズが前提になりますので(正しい正規性判定には手元にある生物統計の解説書ではn=30以上は必要とあります)、一般的な実験室レベルの実験に適用するのは現実的でないと思います。なので母集団が正規分しないという具体的な要因が思いつかないならばパラメトリックでいいと思うし、よくわからないけどそういう要因の介入があるかもしれない具体的な疑念があるならばノンパラメトリックで行えば良いと思います。どの方法を使うかは研究者の裁量にも依存しており、(使えない条件なのに強引にある統計処理方法を適用するとか)明らかな誤りを除いてはこれが正解で他は全部ダメと一概に割り切れるものでもないのですし、統計処理の方法は論文に書くわけですから、あとはレビュアーや読者の判断に委ねれば良いと思います。

(無題) 削除/引用
No.9488-5 - 2021/02/07 (日) 00:50:34 - 統計
ありがとうございます!
そうだったんですね!
私は何も考えず言われた通りにExcelを使っていただけなので、驚いてトピックを立ててしまいました。
Excelを使わずSRSSやRを使う人もいるかと思いますが、その方々がどういった理由でそれらを使うのかを調べれば自ずと真の答えが見つかるかもしれませんね。
ありがとうござました。

(無題) 削除/引用
No.9488-4 - 2021/02/07 (日) 00:30:09 - s
なお、10年以上前の酷かった時代のexcelについては、奥村先生のページに少し記述があります。

https://oku.edu.mie-u.ac.jp/~okumura/stat/

ただこの時代でも、t.test関数の与えるp値が大きく間違っていたとは思えないですけど。

(無題) 削除/引用
No.9488-3 - 2021/02/07 (日) 00:11:46 - そば
正しい検定手法を選択できればソフトがなんであれ関係ないと思います。最近のエクセルはt-test以外にも色んな統計検定ができるみたいですし。
エクセルでできないものに関してはフリーのRで十分です。

(無題) 削除/引用
No.9488-2 - 2021/02/06 (土) 23:54:04 - s
excelを使おうがSPSSを使おうがRを使おうが同じです。同一のデータで比較してみてください。

21件 ( 1 〜 20 )  前 |  1/ 1. 2. /2


パスワードを入力してチェックした記事を チェックした記事を

このトピックにメッセージを投稿する
名前 
メール   アドレス非公開
   タイトル 
本文      
設定  クッキーを保存(次回の入力の手間を省けます)
上に上げない(トピックの一覧で一番上に移動させません)
解決(問題が解決した際にチェックしてください)
暗証  半角英数字8-12文字の暗証番号を入れると、あとで削除、修正ができます。
送信 

〔使い方〕
  • 「アドレス非公開」をチェックすれば、自分のメールアドレスを公開しないで他の方からメールを受け取れます。
  • 問題が解決した際には、解決ボタンをチェックして解決した旨のコメントをつけてください。これは、初めにトピックを作った人と管理人のみが可能です。
  • 半角カタカナ、機種依存文字(全角ローマ数字、○の中の数字等)は文字化けの原因となりますので使わないでください。