FC2ブログ
2019
07.22

ノンパラGO

 統計の基本ですが、データの平均値をとるか中央値をとるか、解析はパラメトリックかノンパラメトリックか、という話題があります。正規性の分布であれば平均値・パラメトリック、そうでなければ中央値・ノンパラメトリックを、と言われていますね。自分は中央値LOVEでして、正規性と思えないデータで平均値を用いていたりt検定されていたりする論文を見ると、「あ~中央値を見たい!」という衝動に駆られますし、「何でこんな統計ガバガバ論文がアクセプトされて自分のは…」と恨みがましく思ってしまいます(こころが狭い)。この前の精神神経学会総会のポスター発表も、多くが平均値とt検定を採用していました。nが少ないし明らかに非正規分布なのに…。自分は意地悪なのでふたつの発表に対して「平均値を使ってパラメトリックにしたのは何か理由があったんですか?」と聞いてみたのですが、お返事は「中央値も考えたんですが…」とはっきりしないものでした。もはや "中央値おじさん" もしくは "ノンパラおじさん" と言われそうな勢いです…。発表する・論文にするのであれば、この統計を選んだ!という理由をビシッと述べられると良いですね。

 そんなこんなで自分は論文で中央値・ノンパラメトリック手法を用いたのですが、書く際に大学の統計の先生に確認してみたら


「nが30以上なら、平均値にするか中央値にするかは好みの問題」


 と言われてしまいました…。正規性の検定もあまり役に立たないそうで。しかし!しかしです。個人的には好みの問題とは思えず、原則として中央値を採用すべきだとは思っています。NEJMやNatureやScienceといった名だたる雑誌も「正規分布でなければノンパラメトリックにしようね」と言っています。「でもノンパラメトリックだと有意差が出にくいんじゃない?」と思われるかもしれませんが、決してそうとも言えないようです。新谷歩先生が講演で実例を示していましたね。

 というか、そもそも有意差を出すために統計を使うのではいけません。有意差が出るかどうかは分からないけれども、得られたデータが正規分布ならパラメトリックな手法(ノンパラメトリックでもO.K.)、非正規分布ならノンパラメトリックな手法を使うべきなのです。それが正しい姿勢。どっちもやってみて有意差が出る方を採用するなんていうのは、絶対にやってはいけないこと。そりゃあ、出たほうが格好もつくんですが…。

 そんな平均値と中央値、パラメトリックとノンパラメトリックですが、前者についてちょっと自分の論文の基本データを材料にしてみます。口腔顔面領域の非器質性疼痛に悩む患者さん48人。年齢と病悩期間を平均値と中央値のそれぞれで表してみましょう。

患者さんの年齢(平均値±2SD):62.5±24.6歳
患者さんの病悩期間(平均値±2SD):43.4±135.8ヶ月

患者さんの年齢(中央値 IQR):66.0歳 [53.8–70.0]
患者さんの病悩期間(中央値 IQR):21.0ヶ月 [11.0–37.0]

 なんと、年齢は3.5歳異なり、病悩期間に至っては22.4ヶ月、2年近くも異なるのです!!!

 これはですね、平均値は極端な値、特に外れ値に引っ張られてしまうという問題点があるのです。例えば、年齢でもめちゃくちゃ若い患者さんがちょっといたらそれだけで平均値は下がってしまいます。上では病悩期間が大きく異なりますが、これは数百ヶ月という、とてつもなく長い患者さんがいたため。これによって平均値がぐぐっと押し上げられてしまいました。特に病悩期間の43.4±135.8ヶ月なんて、データに歪みがあることを端的に示していますね(43.4-135.8はマイナスとなりあり得ないことになっています)。ニュースでも話題になる "日本人の平均年収" も、中央値よりも60-70万高くなっています。これはめっちゃくちゃ稼ぐ人がおり(やわらか銀行の孫さんとか、ユニ苦労の柳井さんとか)、正規分布になっていません。稼ぐ彼らの存在が平均値を上げてしまっているのです。中央値は外れ値の影響を受けづらく、より実情を示してくれます。


「じゃあさ、外れ値を除けばちょっとマシな形になるんじゃない?」


 というご意見もありますが、もうそれは「やってはいけないこと」と思いましょう。測定ミスをして「これは明らかに違うな」というデータなら弾いても良いのですが、そうだという確証がなければ、やっぱりそれは患者さんのデータです。それを弾くのはデータに手を加えることになるのです。

 自分の論文ではサイトカインを調べたのですが、サイトカインってほとんどの患者さんが低い値であるいっぽう、異様に高い値を示す患者さんがちらほらいるんです。でもそれも大事なデータ。やたら高い/低い値を示したからと言って弾いてしまうのは、いかがなものか。しかも、外れ値を見つける計算も1つではなく複数あり、それによって弾く弾かないが変わります。「これを弾けば良いデータになるのに…」という場合もあり、その時に魔が差して弾くのは、捏造です。特に論文の捏造に関しては "STAPありまぁす事件" 以降かなり厳しく見られます。きれいな正規分布でない場合、平均値だと外れ値の扱いについて疑義が残り、弾くことが恣意的だとも受け取られかねません。であれば、外れ値を弾かなくても良く、そしてその外れ値による影響を受けてデータが正確でなくなることも防げる中央値を用いるのがスジってもんでしょう。

 世の中の研究で、正規性を担保できるものってそうそうありません。非正規と考えるのが無難というか現実的。となると、解析もノンパラメトリックな手法の出番が多くなるでしょう。新谷歩先生は、正規分布でも中央値・ノンパラメトリックな手法を用いるそうです。

 ということで、中央値とノンパラメトリックの重要性のお話でした。この辺りの基本を知って、統計の一歩を踏み出したいものですね。
トラックバックURL
http://m03a076d.blog.fc2.com/tb.php/2265-f76f67e1
トラックバック
コメント
もなか先生、こんばんは。

ヒト相手の実験では、異常値には悩まされております。実験室実験でNが大きくできないケースが大部分ですので、尚更、異常値の影響は深刻です。その一方で検定は大概、t検定を使っております。(中心極限定理を信じて……)

先生が書いていらっしゃる、「何らかき基準を設けて、異常値として取り除いてしまう」誘惑にかられる事は、しばしばです。「ヒトが使う道具の設計等でも、5パーセンタイル値から95パーセンタイル値の範囲だけを考えることが多い」ことを言い訳に異常値を除去してよいのであれば、随分と幸せになれるのですが……

お邪魔いたしました。
元メイラックス減量中dot 2019.07.30 21:54 | 編集
>元メイラックス減量中さん

ありがとうございます。
本当に外れ値は弾きたくなります…。
そこをぐっとこらえて粛々とデータを見ていくのが研究には欠かせませんね。

m03a076ddot 2019.08.08 12:48 | 編集
管理者にだけ表示を許可する
 
back-to-top