[儲からない競馬予想AI] Chapter 00 : はじめに

この連載を書く動機

私がニートになって、初めて手につけた事が競馬の予想AIです。これは2022年の事でした。

当時の私は研究者からニートになり時間を持て余していました。そこで、賭け事と機械学習について、有り余る時間で研究開発を始めたのです。

始めた当初は、競馬の予想は割とうまくいくと信じていました。

しかし、現実では半年間以上も毎日計算機をぶん回していたのにもかかわらず、利益を上げる予測器を作り出すことはできませんでした。

その後、競馬から競輪へ。競輪からサッカーくじへと、賭け事×機械学習を幾度も挑戦しましたが、結果は惨敗でした。

ですので、私の結論としては「賭け事の予想に機械学習を用いても、儲からない」ということとなりました。

この連載記事は、競馬の予測器について興味があり、情報を調べているという人へ向けた、「この本で扱った手法では、どのようにしても儲からない」ということを、実践する前に教えるためのものです。

もちろん、私の検証が不十分であるとか、違った儲かる手法を考えられるだとか、その様な要因が残っていますので、「賭け事の予測は儲からない」は、真実ではないのかもしれません。

この前書きでは、なぜ競馬×機械学習で儲けることが難しいのかを話します。

なぜ儲からないのか

最初に考えるべきは、「賭け事の結果がある程度の精度で予測できるとしたときに、本当に儲かるか」です。

私はこれを考えずに、とりあえず始めましたがすこし考えると、賭け事(特にオッズ変動型)の予測で儲けることは、かなり難しいことがわかります。

予測器に求められる精度

例えば、競馬の最高の還元率は、単勝や複勝の80%です。

仮にここでは、競馬をコイントスとして考えてみます。表か裏がでて、当たればお金が増え、はずれれば没収です。
そして、表と裏への投票数が拮抗していて、全員同じ金額を賭けているとしましょう。

\(x\)人が投票していて、総額が\(m\)円としたときには、一人あたりの掛け金は

$$
\frac{m}{x}
$$

であることは明白です。賭けられた総額の80%が還元されて、半分の人数にそのお金が分配されるのであれば、その配分される金額は

$$
\frac{0.8m}{0.5x}
$$
となり、これは

$$
\frac{0.8m}{0.5x} = 1.6 \frac{m}{x}
$$

です。つまり、オッズは1.6であり、賭けが金額の1.6倍が返ってくることになります。
コイントスは多くの場合、当たる確率は1/2であるため、オッズが2.0以上でないと儲かることはありません。

つまり、この賭け事に予測器を作成して儲かりたいのであれば、オッズの逆数の確率で当たる予測器が必要になります(この例だと、\(\frac{1}{1.6} = 0.625\)なので、62.5%の精度でコイントスの結果を当てる予測器が必要)

話は競馬に戻ります。
競馬の場合にはオッズが毎回変動しますし、掛け金も変えられます。ですから、今話したコイントスのように簡単な話ではありません。

しかし、とても単純に言うのであれば、オッズ1.2の単勝馬券があったときには、83.3%以上の精度を叩き出す予測器を作り出さなければ、儲からないということです。

これが、めちゃめちゃ難しいってことです。

最大の敵は公式

最初に考えたときには、まぁ1.2の馬券で83%くらいか。と考えていました。

しかし、実際に計算機をぶん回してわかるのは、これが如何に難しいかということだけです。
なぜかというと「投票者が全員、当たる馬券を予想して買っているから」です。

すごく単純に説明すると、

  1. 当たりやすい馬券がある
  2. 投票者がその馬券を買う
  3. その馬券のオッズが下がる
  4. オッズが下がった馬券に求められる精度が上がる

という現象が、当たり前ですが発生します。
その結果、「馬券に求められる精度」がそのオッズの逆数よりも下がってしまいます

つまり、当たりやすい馬券というものは、他の誰もが発見していない状況で、自分が発見しなければなりません。

ですが、御存知の通り、競馬予測には先駆者がたくさんいます。
その方々は当然、今から始める人よりも多くのデータと結果、経験を持っているため、当たりやすい馬券を、より早くより正確に見つけ出せます。

果たして、先駆者たちよりも高精度の予測器を作ることは、現実的に可能でしょうか。

さらに言えば、昨今では、多くの賭け事のHPやアプリでは、AI予想機能を搭載しています。
当然、これらの公式のAI予想器は、我々が入手するよりも多くのデータを持っています。
つまり、公式のAIは理論上かなり良い精度で馬券を当てられるということです。

果たして、公式のAIよりも正確な予測器をつくることは、現実的に可能なのでしょうか。

当たり前ですが、予測器の精度というものは、
「データ量」×「データの正確性」×「試行時間」×「アイディア」
です。前者の3つは、明らかに先駆者や公式が勝っていますし、勝つことはできません。

ただ単にデータ整形をして、XGBoostやLightGBM、CatBoostに突っ込むだけでは、儲からないのは明らかです。

残された賭け事で儲ける方法は、アイディアのみです。
まだ、誰も試したことのない手法を開発して、他者よりも正確に馬券を当てる。
これをやるしかないのです。

ネット上で見られる競馬予測

おそらく、この記事を目にしている方は他の競馬予測もご覧になったことがあると思います。
私が調べた限りでは、ネット上に落ちている記事、もしくは研究論文(卒業研究)において、利益がでているものにはいくつかの不明点がありました。

  1. 学習データおよびテストデータについて公開していない
  2. テストデータの期間が数日
  3. 任意のテストデータのみの検証をしている
  4. 小数のデータで学習している
  5. 学習モデルや特徴量の扱いを公開していない

何が言いたいかと言うと、「長期間に渡って多くのデータで検証していない」ということです。
一人の元研究者として見るのであれば、あまりにも不自然なデータ選択をしているといってもいいでしょう。

もちろんこれらには理由があって、例えば5番目の学習モデルや特徴量の扱いを公開しない理由は、上の方で述べた、他人に真似されないためです。他にも、アフィリエイトで広告を集めるためや、精密な検証をする気がない、卒業に追われて。など、多数の理由があると思います。

だからこそ、私は検証したくなったと言っても過言ではありません。
ですから、この本は私が検証した結果をまとめて、再現性を高くしたものだと思ってもらえれば幸いです。

タイトルとURLをコピーしました