since 10 May 2002
Updated on 15 May 2002
(15 May 2002 追記)
このメモを公開したところ,さっそく久保拓弥さん(北海道大学)から
コメントをいただきました.
その後のやりとりを番外編としてまとめました
(>複雑回帰な対話).
このやりとりをもとに,このページのモデル化も再検討中です.
近日中に全面改訂されるでしょう.
親枝の頂芽が伸びてできた子枝の長さのモデル化を考えます (側枝の長さはまた別に検討します).
まず,子枝の長さと親枝の長さの関係をそのままプロットしてみました.
枝の次数によっても関係が違いそうなので,
一次枝だけ取り出して描いてあります.
親枝が長いほど,その子枝も長いという全体的な傾向があるようです.
ただ,ばらつきが大きくてそれ以上はよくわかりません..
次に,子枝の長さと親枝の長さの比率を計算して,親枝長に対してプロット
してみました.
右肩さがりのパターンが見えてきました.
つまり,親枝が長いほど,その子枝は親枝よりも短めということです.
また,親枝長を固定して考えたときの,子枝長と親枝長の比率のばらつき具合は,
どうも大きいほうに尾を引いた関係のように見えます.
ためしに,長さの比率の対数をとって見ると,このようになります.
この関係をモデル化の出発点にしてみました.
以下では,親枝の長さをL,子枝長と親枝長の比の対数をQと書くことにします.
上の図の特徴としては,まず,Lが大きいほど,Q の平均値(Qmean)が
小さいことがあげられます.それに加えて,Lが大きいほどQ のバラツキが小さい
ような気もします.
LとQmeanの関係を直線的だと仮定するのはどうも無理が
ありそうなので,パラメータの数が増えて面倒だけど,
Qmean(L) = c0 /(L + c1) - c2 …式(1)
で表現することにします.c0, c1, c2は定数です.
次に,Qのバラツキです.ばらつき方は,いちおう正規分布に従うということに
しておきます.この点についてはあとで少し吟味します.
Qのバラツキの標準偏差 Qsdは
Qsd(L) = c3 /(L + c4) …式(2)
で表現することにします.
式(1),(2)の5つのパラメータの値を,最尤法で推定することにします.
最尤法については
前のページ
で簡単に触れました.
5つのパラメータを動かしながら一番もっともらしい値の組みを探すのは
けっこう時間がかかります(私の書いたプログラムのアルゴリズムが
あまりに愚直なもんで)が,ともかくお茶を(うんとゆっくり)飲んで待ってれば
結果が出てくる程度の時間で済みました.
パラメータの値は以下のようになりました.
c0 | 2.83e+001 |
c1 | 2.04e+001 |
c2 | 1.21e+000 |
c3 | 2.18e+002 |
c4 | 5.36e+002 |
これらのパラメータを使って,子枝の長さを求めてみます. 最初に示したデータセットの親枝の長さを入力として与え, 対応する子枝の長さを計算します. log(子枝長/親枝長)の平均値は式(1)で決まります. あとは,式(2)で計算した標準偏差をもとに,乱数を使って log(親枝長/子枝長)を決め,子枝の長さを計算します. そうやって求めた親枝長と子枝長の関係の一例を示します.
測定データ と比べると,おおよその雰囲気はよさそうですが,親枝に対して極端に 長い子枝が生じるところは表現できてません.また,親枝が短いところで 子枝長のバラツキが大きめに見えています. この原因としては,
式(1)が log(子枝長/親枝長) の親長依存性を表現するのにかならずしも ピッタリではないだろうから,1の理由は多かれ少なかれありそうです.
2の可能性を検討するために,もとのデータについて期待値からのずれ具合の分布を 見てみます.(親枝長,子枝長)の対のデータそれぞれについて, 親枝長をもとに式(1)でlog(子枝長/親枝長)の期待値を求めます. これと,測定データから計算した log(子枝長/親枝長)の値との差を求めます. さらに,この差を式(2)で求めた標準偏差で割ります. こうして正規化したずれ具合のヒストグラムを書いてみます. さて,当初の仮定通りに正規分布と見てよいでしょうか?
ぱっと見た形としてはとてもそれらしいのですが,ピークが0よりもやや大きく, 分布の裾はマイナス側がやや大きめです(きちんと検定はしてませんが). 平均値からのずれが正規分布ではない,という要素もいくらかはありそうです.
でも,樹形の再構成のためにはこんな程度できっと充分でしょう. まずはよしとしておきます.