| Top Page | Magnoloid Top Page |

Magnoloid Project 番外編

複雑回帰な対話

Updated on 16 May 2002


先日公開した, 「親枝と子枝の長さの関係をモデル化する(頂芽編)」 のページに, 久保拓弥さん (北海道大学)からコメントをいただきました. その後のメールのやりとりで, 変数変換(とくに割り算)をしてから回帰分析をすることの問題点について, いろいろと教えていただきました. たいへん勉強になりました. せっかくなのでメールの内容を整理・編集して公開します.


割り算で求めた指標を使った回帰について

(久保さん)  今回のメモで気になった点をひとつ.(親の長さ) → (子/親長さ比) という関係をみておられるわけですけれど,これは横軸・縦軸双方 に親の長さが入っているのであまりよい散布図ではありません.

この場合は「有意な負の相関がある」というようなハナシをしてる わけではないので,それほど致命的ではないのかもしれません.し かし,このような割り算によって得られた量を分母に使った量で 「回帰」する,というのはいろいろとまずいことがあると粕谷さん などは指摘されています.

(有意な負の相関あるかどうか,という問題と異なり) 縦軸を横軸 で割って回帰,というのがマズい理由はデータによるので,一般的 な解答はないと思います.

(竹中)  たとえば,どういう場合にどのようにマズくなるのでしょうか?  知らないままおっかなびっくり地雷原を歩くのは恐いのでご教示 ください.

(久保さん)  まず x 対 y/x のあいだの「相関」を調べるのがよろしくない理由 は,y が x とは無関係な量であっても x と y/x のあいだに「有 意な負の相関」がみえてしまう ためです.とうぜん x 対 y*x のあ いだにもニセの「有意な正の相関」ができたりするわけですが,生 態学者は割算ほどにはかけ算を好んでいないようなので,こちらの 問題はあまり生じないようです.

ここでいう「有意な」とは(相関を調べているので) 「相関ゼロで ある二次元正規分布から標本集団が得られた」という帰無仮説が 棄却された,という意味です.

ここまでは線形相関 (Pearson の相関) のハナシですが,おそらく 順位相関などノンパラメトリック検定を用いても同じ結果になるで しょう (これは原稿書くまでに数値例で実験してみます).

「回帰」の場合はこれとは微妙に異なります.それは (x, y) が二 次元正規分布ではなく,(x の分布はまぁどうでもよくて) y の値 だけが何かの確率分布 (たいていのヒトは等分散正規分布を仮定す るわけですが) にしたがう確率変数と考えているからです.

私が前のメイルで「回帰は場合によって」云々と書いていたのは, このときに y がどういう確率分布に従うか,つまり

によって x 対 y/x の回帰の「よろしくなさ」が変わるんでは,と いう意味でした.

一番単純な例では y が x とは無関係で分散一定の確率分布から得 られた標本集団だとします.このときに y/x を a x + b + error (error は平均ゼロ分散一定の正規分布にしたがう確率変数) で回 帰すると何がまずいか?

相関を調べている場合と同様に回帰でも y/x = ax + b + error に おいても a が「有意に」傾いているとかいないとかいうヘボい結 論を出したりするのも生態学の伝統芸能ですけれど (DBH 対 DBH の RGR とか),このへんに関しては相関の場合と同じ理由でまずい ということがわかるでしょう.

それ以前に,そもそも a だの b だのの推定量がアヤしい,という 問題があります.もともとのデータ y は分散一定であったのに, これを x で割ることによって x が小さいところでは分散大きく, x が大であれば分散小,というふうに「変換」されてしまうわけで す.

直線回帰に限らず,このテのパラメーター推定は分散の大なるとこ ろに sensitive です.推定計算プログラムはばらつきの大きなと ころに「合わせよう」とする …… つまり最尤法的に説明すると, そういう「はずれ」の多いところで失点を減らして尤度をかせごう とするわけです.

(竹中)  たとえば,

それぞれ,どのようにまずいでしょうか?

(久保さん)  いくつか例題をあげられているわけですが,これは対 象が何か,ということより上に述べたように「どういう確率分布な のか? ばらつきは x にどう依存してるのか?」によって,推定量の アヤしさが変わってくる,というのがわかっていただけたのではな いかと思います (理由: 推定プログラムはばらつきの大きなところ を重視).

まぁ,むりやり何か説明らしきものをつけると ……

シュートの長さと,長さあたり葉面積の場合:  相関の場合は (これは一般にいえることですが) ニセ相関を発見し てしまう,これにつきます. 回帰については …… うーむ,やはり確率分布しだい (例としては mean(A) = f(L), variance(A) = g(L) がどうなるか) ですねえ ……

ため池の容積Vとその中の窒素濃度Nの場合:  ここでは X ではなく N が直接測定可能な量なので,V と N の関 係を調べるのは問題ないでしょう (V と推定された量 X の関係を 調べるとニセ有意な正の相関が出たりする).

…… ということで,パラメーター推定は地雷埋設地帯を匍匐前進 するがごとし,ということのようです.私が最尤推定法によって単 純なモデルを採用している理由のひとつは (変数変換などによって 生じる) このあたりの危険を少しでも軽減するためです.

(竹中)  x と y が無関係のとき,x と y/x のあいだに「負の相関」が見えて しまうということはよく分かります. では,なぜ人はy/xを計算してしまうのか.これはy/xになんらかの生物学的 な意味を感じてしまう場合ですね.

(久保さん)  そのへんが生態学者が割算を重視してる理由なんでしょうねえ, ということは理解できます.

しかし,私が 「よくわからぬ仮定にもとづいて必要もない変数変換を…」 と書いた「よくわからぬ」というのは,こういう生物学的動機とい うのが統計学的手法のわくぐみの中ではよくわからない,というこ とになります.というのも,統計学的手法ってのはたんに確率変数 (何かの確率分布にしたがう変量) を取り扱う方法にすぎないんで.

スローガン的には 「統計学の世界に生物学的に動機づけられて計算 された指標を持ちこまない,直接に測定された量だけをもってくる」 ということでしょうか.

(竹中)  このスローガンは分かりやすいです.

で,なんで生物学的に動機づけられて計算された指標を統計学の世界に 持ち込んではいけないかというと,どのような確率分布をするのかよく 分からなくなるからだ,という理解でよいでしょうか(ここが一番肝心 なところのような気がする).

(久保さん)  そうなります.A も L も確率変数,さらに A と L の間に相関ア リ,このとき A/L の分布は? と聞かれましても …… ということ に.

ただしこういう指標の確率分布をモンテカルロシミュレイションで 生成して,何か検定とかに使ったりすることはあります.

(竹中)  たとえば,シュートの長さ L と総葉面積 A の場合について考えてみます. シュートの長さあたり,どれだけの葉をつけているのかは,茎と葉への 投資のバランスとか,葉同士の相互被陰の程度と関係します.だから,A/L という量に注目したくなる.

そして,長いシュートと短いシュートでは葉の混み合い度 (A/L)に違い があるだろうか,と疑問を持ったとすると,L と A/L の関係を調べ 始めることになります.

L と A が無関係だと A/L と Lのあいだには負の相関が見えるわけですが, L と A が無関係だと,長いシュートよりも短いシュートで葉が混み合うのは 確かです. それでも,A/L と Lのあいだの負の相関ははたしてニセモノと 呼ぶべきなのでしょうか?

(久保さん)  いろいろな説明のやりかたがあると思うんですが ……

なにか二つの変量 L と A が無関係な量であると判明している場合 において,「L と A/L とのあいだの(正または負の) 相関のあり」 を調べる,ということですね.相関の定義が線形相関であっても順 位相関であっても以下の説明でよいと思うのですが ……

この仮説の帰無仮説は「L と A/L は無相関」となります.これが 成立するためには A/L という量の中で,分子 A が分母 L の効果 を打ち消すような役割,つまり A = f(L) というような何らかの関 数関係が成立している必要があります.

ところがここではすでにして L と A が無関係な量とわかっている ので (A は L の関数ではない),この帰無仮説が棄却されない確率 はゼロです.つまり「L と A/L は無相関」という帰無仮説は必ず 棄却されるので検定する必要がありません.統計学的には無意味な 問題になりはてている,といいますか.

これに気づかないヒトたちは「p < 0.0000001 で有意」とか結論し たりするわけです.

(竹中)  つまり,L と A が無関係だということが分かったら,その時点で, 短いシュートでは葉が混んでるよ,と言えばよいわけですね.

(久保さん)  こちらのほうが簡単でわかりやすいですよね. 直接測定可能な量で ある L と A の関係を解明するのが統計学的道具の基本的な役割で, 生物学的にはそれで十分 なのです.

(竹中)  なるほど. 木の胸高直径(DBH)とそのその相対成長量(RGR)との関係を調べるかわりに, DBH と DBHの成長量そのもの(相対値にしない)との関係を調べれば十分だ, というわけですね.たしかにそうかも. (> 補足 )

でも,L と A とが無関係ではなく,ある程度の正の相関があるという結果に なったらどうでしょう.その相関が,長いシュートよりも短いシュートで葉が 混み合うという傾向を完全に打ち消すほどのものかどうかが問題になります. そこで,L と Aの定量的な関係にもとづいて検討する,ということになる んでしょうか.

(久保さん)  そういう場合は A = f(L) と推定して (という定式化がモデル選択 できるかどうかを統計学的に検討して),f(L)/L が L の減少関数 になるかどうかをみればよいのではないでしょうか.

そうすると「L が 3cm までは増加関数だけどそれより長くなると 減少関数」といった関係も見つかるかもしれません.最初から A/L = f(L) としてしまうと,こういった情報も失われることがありま す.

(竹中)  このアプローチでは, モデルをあてはめたり計算したりする前にじっくり 生の測定データを見ることを要求されます が,それが当然ですね.

まずは,モデル選択の妥当性を統計学的に検討する,というところが 勉強が必要なところのようです.目をつぶって割り算というやりかた では,まさにここのところに目をつぶってるわけか.

(久保さん)  「直線回帰可能な指標」造りの曲芸を避けて,非線型回帰だとか一 般化線形モデルだとか最尤推定法だとかノンパラメトリック回帰だ とか計算機集約的な統計学的手法を使う,というのが当世風という ことになりそうです.


ホオノキのモデル化に関して

(久保さん)  今回は不等分散・正規分布に帰着されてるわけですが,そういう難 しいことはやらないで,最初の図に合うような確率分布とそのパラ メーター (例えば平均・分散) を L の関数として書くほうが問題 がないと思います.

今回しめされた事例ですと,まず (複雑な変数変換を重ねたわりに は,というかそのせいで) データの特徴がうまく再現できていない, ということだろうと思います.

直線回帰に限らず,このテのパラメーター推定は分散の大なるとこ ろに sensitive です.推定計算プログラムはばらつきの大きなと ころに「合わせよう」とする …… つまり最尤法的に説明すると, そういう「はずれ」の多いところで失点を減らして尤度をかせごう とするわけです.

だったら (竹中さんがやったように) 「変換された量 y/x のばら つき具合を x の減少関数としてパラメーター推定」してやればい いか,というと ……まぁ,これは統計学的手法だけの問題という より「単純なモデルをつくる」という理念に反しているという言い かたができるのかもしれません.

本来 mean(y) = f(x) かつ variance(y) = g(x) と素直に表現でき るのに,わざわざ mean(y/x) = f'(x) かつvariance(y/x) = g'(x) としなければならない理由は何か? 前者のように書けるときには, 後者のより複雑な定式化が正当化できないので使う理由がないとい うことです.

直接に測定可能な量 y の傾向だのばらつきだのが x にどう依存し てるかをできるだけ簡単に説明するのが統計学的手法の役割であっ て,よくわからぬ仮定にもとづいて必要もない変数変換をするべき ではない (そのような操作を正当化できる理由がない),と説明す ればよいのでしょうか ……


RGRについての補足

上の, RGRを例に出しているところ についての補足です. RGR (Relative growth rate, 相対成長量)は,サイズ X の単位時間当たりの 成長量 (dX/dt) をサイズで割ったものです.

RGR = dX/dt * (1/X)

上のやりとりは,RGRがダメな指標だと主張しているのではありません. 統計的処理と生態学的な解析・思い入れとの分離が必要だ, ということです.RGRを使った議論の進め方としては,たとえば 木の胸高直径(DBH)の場合,

という論の進め方であれば,統計的にも文句はつかないし,生態学的な 問題意識に沿った解析もできます.

↑これにさらに久保さんからのコメントがありました.

(久保さん)  …DBH と 成長量に「関係がない」というためには統計学的検定は使えないので (「帰無仮説が棄却されなかったから帰無仮説は正しい」とするごまかし in 粕谷ピンク本),ここは「検定よりモデル選択を使うべき場面」と ゆーことなのでしょう.

つまり成長量 = f(DBH) いやいや 成長量 = constant とするモデル たちのうちどっちが良いか,を選択するというハナシになるわけです.

(参考)「粕谷ピンク本」については, BK1のページ を参照.
| Top Page | Magnoloid Top Page |