Bio Technical フォーラム

  • 書き込みがかなり増えてしまいサーバーの負荷が大きくなったので、新しいBioTechnicalフォーラムに移行してください。
  • 新しいトピックは新フォーラムでのみ立ち上げ可能です。レスは2009年2月15日までつけられますが、その後は、つけられません。

トピック一覧 | 研究留学ネットに戻る

最新のフォーラム | このフォーラム(readのみ) | ひとつ前のフォーラム(readのみ)

このスレッドをはてなブックマークに追加このスレッドをはてなブックマークに追加

カットオフ値 トピック削除
No.2778-TOPIC - 2009/02/02 (月) 21:51:49 - なお
テクニック的な質問というよりどちらかというと統計学的な質問であることをお許しください。

ある論文でコントロールの検体の測定値(対数変換した値)をもとに、ヒストグラムを作成しカットオフ値を定めていました。
p(k)=(k-1/3)/(n+1/3)の式を用いて、p値が0.995のところで設定したと記載されているのですが、式の意味が全くわかりません。
99.5パーセンタイルのところで定めていると自分では思っているのですが、何故p値が0.995のところなのか、また上述の式との関係、nやkに対する記載もなく、統計初心者の私には理解に苦しんでいます。
基本的なことかもしれないのですが、どなたか初心者の私にでもわかるようにご教授いただけないものでしょうか?

お手数ですが、宜しくお願い致します。
 
- このトピックにメッセージを投稿する -



8件 ( 1 〜 8 )  前 | 次  1/ 1. /1


カットオフ値 解決済み 削除/引用
No.2778-8 - 2009/02/03 (火) 21:19:34 - なお
UC様、mom-a様

大変、貴重なアドバイスをいただき、誠にありがとうございます。
非常に助かりました。
もう少し、他の事例も調べながら自分で勉強をしてみます。
本当にありがとうございました。

(無題) 削除/引用
No.2778-7 - 2009/02/03 (火) 19:48:47 - mom-a
>95パーセンタイルや99パーセンタイルではダメなのか

有意差検定の場合は有意水準(第一種の過誤の確率)5%が一般化しています。健康診断などの正常値も健康な人(?)の95%が含まれる範囲とかだったでしょうか。おっしゃるように、厳しいんだな、と思いました。しかし、分野によっては±3S.D.を基準にする場合もあるようですから何ともいえません。

>ただ、UC様もおっしゃいますようにtype 8のp(k)=(k-1/3)/(n+1/3)が、Hyndman and Fan (1996) のお奨めということで特にこれでなくてもいいのかなと(普通にエクセルでpercentileでいいのかなと。もちろんアルゴリズムが違うので、多少の計算結果は異なるかもしれないですが、どの方法も数が多くなればそんなに変わらないのかなと)今はそんなふうに考えています

どの方法もサンプルサイズが大きければほとんど差はないだろうというお考えは正しいです。どれが間違いというわけではなく、補正の仕方に一長一短あるということでしょうから、エクセルのpercentileが間違いというわけではありません。エクセルで計算するというのもアリだと思います。

2つの段落が「ただ、〜」とつながっているのがちょっと気になりますが、パーセンタイルの計算式の意味とカットオフを何パーセントに設定するかというのは別の話です、蛇足ですが付け加えておきます。(そんなことは当然、といわれるでしょうが。)分布の形とか、明らかに外れているとか、数値がどのくらい変化するとどういう現象がおきるとか、そういうことの方が問題になるのではないでしょうか。分野固有的な基準値がある場合がありますから、他の事例などを参考になさってはいかがでしょう。

Re: 削除/引用
No.2778-6 - 2009/02/03 (火) 19:37:17 - UC
 実験系が分からないので多くは言えませんが、確かにカットオフが0.005って随分と厳しい値だなとは思いました。検体数が1万とか10万とか、そういう分野での話なのかなぁとか。
 先に挙げたWikipediaによれば、MS ExcelのPERCENTILE関数は、重み付き平均を利用した方法のようです。以前、ExcelとRとで、微妙に四分位点の値が違っていたので、調べていておぼろげながらp(k)=(k-1/3)/(n+1/3)の式を覚えていました。
 いずれにせよ、どの方法でもpercentileの値が大きくずれることはないと思います。なおさんの仰るように、数が多ければなおさらです。

カットオフ値 削除/引用
No.2778-5 - 2009/02/03 (火) 18:54:08 - なお
mom-a様

ご返信いただき、ありがとうございます。
おぼろげながらではありますが、少しづつわかってきたような気がします。

>どこでお悩みなのかよくわからないのですが…おっしゃるとおり、99.5パーセンタイルですからp=0.995です。%ではなく確率(0≦p≦1)で表しているだけです。なぜ99.5%なのか?ということでしたら、その分野でおおむねこのくらい、という基準が(暗黙のうちに、かもしれませんが)決まっているのではないでしょうか。

同列に考えてはいけないのかもしれないですが、医学的には検定等でp<0.05やp<0.01を基本としていること、また外れ値等の除外もp=0.05(0.01)を基準にしているものをよくみかけるため、どうしてこんなに厳しくとる必要があるのか(95パーセンタイルや99パーセンタイルではダメなのか)と正直、考えていました。(と申しますのは自分のデータにこの方法を適用したときにp=0.995よりもp=0.95の方が望ましい結果が得られそうな気がしたためです。まだ、式の意味を理解できるに至ってはいないので、想像ですが・・・)

ただ、UC様もおっしゃいますようにtype 8のp(k)=(k-1/3)/(n+1/3)が、Hyndman and Fan (1996) のお奨めということで特にこれでなくてもいいのかなと(普通にエクセルでpercentileでいいのかなと。もちろんアルゴリズムが違うので、多少の計算結果は異なるかもしれないですが、どの方法も数が多くなればそんなに変わらないのかなと)今はそんなふうに考えています。

不正確だといけないんですが… 削除/引用
No.2778-4 - 2009/02/03 (火) 16:17:09 - mom-a
UCさんのおっしゃるとおり、その式はpercentileとかquantileを求める式です。補正の方法が数通りあるので、たとえば25%点を求めると、計算に用いたソフトによって(計算式が違うので)結果が違ったりします。

>99.5パーセンタイルのところで定めていると自分では思っているのですが、何故p値が0.995のところなのか、

どこでお悩みなのかよくわからないのですが…おっしゃるとおり、99.5パーセンタイルですからp=0.995です。%ではなく確率(0≦p≦1)で表しているだけです。なぜ99.5%なのか?ということでしたら、その分野でおおむねこのくらい、という基準が(暗黙のうちに、かもしれませんが)決まっているのではないでしょうか。

パーセンタイルはExcelでも計算できたと思います。ただし、Excelで使っている計算式がわからないので、論文の値とぴったり同じにはならないかもしれません。

カットオフ値 削除/引用
No.2778-3 - 2009/02/03 (火) 12:15:42 - なお
UC様

ご返信いただき、ありがとうございます。
いただいた情報をもとに少し勉強させていただきたいと思います。
ありがとうございます。

Re: 削除/引用
No.2778-2 - 2009/02/03 (火) 02:05:43 - UC
 こんにちは。自分も詳しくはないですが、ヒントにでもなれば。その式は、Quantile関数で出てきますね。Quantile関数に関しては、英語版Wikipediaの説明が詳しいです。http://en.wikipedia.org/wiki/Quantile
 で、そのページにもリンクがありますが、フリーの統計解析ソフトに「R」というのがあって、そのRでもQuantile関数を実装しています。Quantile関数は、思ったより奥が深くて、Rでは9種類ものQuantile関数を扱えます。微妙に定義が異なるのですが、Rのマニュアルを見るのが早いかと思います。
http://stat.ethz.ch/R-manual/R-patched/library/stats/html/quantile.html
ここにあるtype 8のやつがp(k)=(k-1/3)/(n+1/3)で、Hyndman and Fan (1996) のお奨めと書かれています。
 とりあえず参考になれば。

カットオフ値 削除/引用
No.2778-1 - 2009/02/02 (月) 21:51:49 - なお
テクニック的な質問というよりどちらかというと統計学的な質問であることをお許しください。

ある論文でコントロールの検体の測定値(対数変換した値)をもとに、ヒストグラムを作成しカットオフ値を定めていました。
p(k)=(k-1/3)/(n+1/3)の式を用いて、p値が0.995のところで設定したと記載されているのですが、式の意味が全くわかりません。
99.5パーセンタイルのところで定めていると自分では思っているのですが、何故p値が0.995のところなのか、また上述の式との関係、nやkに対する記載もなく、統計初心者の私には理解に苦しんでいます。
基本的なことかもしれないのですが、どなたか初心者の私にでもわかるようにご教授いただけないものでしょうか?

お手数ですが、宜しくお願い致します。

8件 ( 1 〜 8 )  前 | 次  1/ 1. /1


パスワードを入力してチェックした記事を チェックした記事を