記号の乖離 量的形質とは

20090412alpus_002

血統理論と遺伝学の乖離からの続きです。競走馬の血統ないし血統理論は文献学的事実を纏めたもので科学的な事実で裏付けられたものでは殆どありません。文献学的な事実で構成された血統理論で、そもそも未来予測である競馬予想を行う事が出来ると考えてしまうリテラシー(物事を理論的にあるいは科学的ないし合理的に考え、その本質を理解する力)に問題があるのではと思います。しかしながら、私もNHKの風林火山、篤姫、天地人などの大河ドラマは欠かさず見てしまいます。元となっている歴史小説の作者は異口同音に文献的、歴史的事実を素材にしているが作り話・フィクションである事を強調していますが、ついつい引き込まれてしまいますね。血統理論もこれと同じ原則に沿っています。従って血統と言うフィクションに引き込まれて楽しむのは有りですね。

ですけれど、フィクションに酔いしれた頭で、お金を賭けるギャンブルである競馬の予想を行うのはどうでしょうか。一端冷静になって考えてみましょう。前にも書きましたように競走馬の速く走る能力は実体が何であれ”量的形質”となります。即ち多数の遺伝子によって決まります。また表現形(観察できる形質)は”環境因子”の影響を強く受けます。この点が”質的形質”とは違っています。例えば質的形質の代表的なものに血液型がありますが、表現形は全く環境因子の受けません。

一方、量的形質の代表的なものは人間の身長や体重ですが、栄養状態が極端に悪くなれば勿論体重は軽くなりますが、身長も低くなります。経済生物である牛や豚あるいは花卉などの植物であれば環境を有る程度までコントロールして表現形を観察できますが、競走馬では難しいと思われます。即ち、表現形としての競走馬の速く走る能力も環境に大きく左右されている訳です。さらにこの走る能力は多数の遺伝子の影響を受けていますので、例えば血統用語で血量で表せば50%に相当する親子であっても量的形質としての早く走る能力が伝わる確率は数百分の1から数千分の1となります。

血統理論を科学的なレベルまで持ち上げるには量的形質の遺伝に突き進んでいかないとなりませんが、ここで突如では有りませんが、必然的に現れるのが統計学と確率論です。多分、血統理論を真面目に考えれば、ここに至るとは思いますが、統計学と確率論は余りにも高い壁です、まともに取り込むのは大変な事です。そこで多くの血統思索者は物語を選んだ訳です。しかし、これでは袋小路ですね。そんな中、一条の光が差し込んできました。先を急ぐ人は量的形質の遺伝解析などを参考にしてください。

記号の乖離 血統理論と遺伝学の乖離→量的形質とは

sidare2_2

巷間に存在する血統理論が基本的に誤っているのは、競走馬の能力が量的形質である事が正確に理解されていない点にあると考えています。血統理論において遺伝学の知識はメンデルの法則が援用される等、生かされている部分があるのですが、馬の走る能力も血液型や毛色などの質的形質と同様に考えられ理論展開がされている点が問題になります。即ち、走る能力を決める特定された遺伝子(塩基配列)が代々引き継がれメンデルの法則により開花したりしなかったりするのではと考えられているのではと思います。

しかしながら、考えて見れば分かると思いますが、どんなに優れた心肺機能を持っていても、ポニー程度の体躯ではサラブレッドには勝てない(漫画の世界では勝ってしまう意外性の設定が受けていますが)訳です。少なくとも400Kg程度以上の体重とそれなりの脚の長さは必要です。

ところで、話が少し横道にそれますが、量的形質とは何かです。これと競走馬の血統理論に関してgoogleで検索して見ますと、トップページでは次の2つに関連したページしか引っかかりませんでした。一つはwikipediaの”競走馬の血統”もう一つは私が書いた”血統論がトンでもな理由”です。量的形質の遺伝に関してはgoogleで検索すれば学問としての統計遺伝学あるいは集団遺伝学の解説が読めます。ここで注意しなければならないのは巷間に流布している血統理論あるいは血統について書かれている書物の出版時期です。当時、既に量的形質の遺伝についての概念は出来上がっており、競走馬の走る能力は実体が何であれ科学的に突き詰めれば”量的形質”としてしか定義出来ない状況であった訳です。

量的形質とはに続く

記号の父父 サンデーサイレンスは父父馬としては現役です。

多重共線らしきものを調べていましたら、何となく数年前に比べて予想精度が落ちている原因が判って来ました。精度が落ちた一番の理由はやはりサンデーサイレンスがいなくなった事によるようです。数量化では種牡馬は重要と考えモデルに取り込んでいます。具体的には産駒出走数(サンプル数)の多い順番で種牡馬にダミー変数を100から200程度割り振り、サンプル数の少ない種牡馬は統合しています。種牡馬数は2004年以降では約900頭になっています。問題なのは、種牡馬の中でサンデーサイレンスの様に死亡した場合です。数量化演算の中でサンデーサイレンスの産駒データは他の因子の影響度を妥当なものにする為に非常に重要なのですが、サンデーサイレンス自身の影響度を充当すべき産駒が近年では老齢化して非常に少ない状況で、折角算出した影響度が役に立たない事態になっています。本当に欲しい新進の種牡馬はその他に統合されているか、サンプル数が少なく信頼がおけない状態になっています。今から4年前くらいでは、サンデーサイレンスが生きており毎年産駒が多数出走していました。この頃はサンデーサイレンス自身の影響度が有効に働き数量化予想も順調でした。即ち、現状ではサンプル数が多い種牡馬の予想因子ウエイトが効率的に利用されていない訳です。

そこで、考えたのが父の父馬の導入です。しかし父馬と父父馬との間に多重共線らしき現象が出現して上手く行きませんでした。上手く行かないのであれば父馬は出来るだけ数を抑えて父父馬を中心にしてみました。これで試行したバージョンでは馬連6点での回収率100%近く示しましたが、特徴的なのは的中率が40%近くに達した事です。来週からはこのシステムを採用します。考えて見れば父父馬としてのサンデーサイレンスはまだ十分現役ですので、このモデルは行けるのかなと考えています。