人工知能時代をエンジョイするのか、人工知能のエジキになるのか: 統計的機械学習の数理100問(共立出版)

投稿者: | 2020年2月14日

2016年に、大阪大学理学部数学科の学生を対象に(統計的)機械学習に関する講義をはじめたことが、本書を執筆するきっかけになったと思います。当時、テキストとして適当なものがなく、2018年に日本語に翻訳された「Rによる統計的学習入門」”Introduction to Statistical Learning with Application in R”を参考に講義を組み立てました。説明が丁寧で、わかりやすく、非常に気に入り、日本語の翻訳をしてみたいと思うぐらいになりました(その時点で他の方が権利をすでに獲得していて、翻訳は実現はしませんでした)。本書の扱っている単元や、章立てもその著述と似ているのも、そうしたところによっています。

2017年に現在の所属、基礎工学部情報科学科数理科学コースに異動となりました。早速、3年生後期の計算数理Bという科目で、2016年と同様の内容の講義を試みました。数理科学コースは。2年生でR言語を習熟していて、当初は違和感なく首尾よく講義を行えました。しかし、よりどころとしていた「Rによる統計的学習入門」については、2018年, 2019年というように講義を重ねるごとに、問題意識を抱くようになりました。初学者の方が機械学習の概要を把握するのには、最適な書籍とは思われますが、

1. 本質的な理解というよりは、感覚的な理解だけで十分

2. R言語の処理のステップを見ないで、パッケージにデータを放り込めば十分

という姿勢には、どうしても合点がいきませんでした。

現在は、人工知能の時代と言われます。言うまでもありませんが、インターネットのおかげで、必要な情報を即座に得ることができ、職場の業務が効率化され、生活も豊かになりました。その一方で、人間が行ってきた業務の多くが人工知能に置き換えられるのではないかという危惧が生じています。私自身は、データサイエンスや機械学習の業務に携わる人との付き合いが多いのですが、「業務でどのような資質が求められますか」と聞くと、知識や経験というよりは、「ロジック」という答える人が多く。活躍している人ほどその傾向が強いように思われます。情報の真偽を吟味する、人が見えない本質やチャンスを見る、制約にとらわれない発想などが、「ロジック」の結果として生まれているという視点です。逆に、そういう「ロジック」が欠如していて、ヤマカンに頼るというのであれば、人工知能のエジキになる可能性が高くなるように思われます。

もっとも、そうした「ロジック」が、数学やプログラミングをやらないと身につかない、というのは真実ではないかもしれませんが、大学教員30年間の中で、多くの学生をみてきた経験からすると、それらには非常に強い相関があるように思われます。本書は、機械学習に関する知識も提供しますが、それと同時に、数学的に本質を理解して、プログラミングで処理を構成して、検証するという経験を通じて、読者の方々の「ロジック」を脳裏に構築することを、目標の1つに掲げています。

「Rによる統計的学習入門」は、講義を組み立てる上で大変参考にはなりましたが、人工知能時代をエンジョイするために不可欠な「ロジック」を構築するという視点が十分ではなく、どうしても本書を執筆せざるを得なかった、というのが私の正直な気持ちです。

また、数年前に日本語に翻訳された”Elements of Statistical Learning”「統計的学習の基礎」(共立出版)は、分量が多く、輪講して挫折したという話をよく聞きます。困ったときに参考にする百科事典として使う方が多いように思われます(私は頻繁に利用しています)。「統計的学習の基礎」を大学の講義半期に圧縮できたら、という気持ちも本書を執筆するきっかけとなりました。また、「統計的学習の基礎」は信頼できる知識を提供していますが、ソースコードをおいたり、読者が具体的にスキルを身につけるような誘導があってもよいように思いました。

本書の100問は、2017-2019の講義で学生に課した演習問題、特に「Rによる統計的学習入門」を漫然と読んでいる学生にツッコミを入れるために作成したものです。数式を正しく導出し、プログラムを組んで実行結果を見るなど、手を動かして自分のものにすべきと伝えました。ただ、問題だけをあたえても、優秀な学生以外は自力では解けないので、全員が課題を提出できるよう、講義で解答に限りない近い丁寧なヒントをあたえました。それが本書の本文です。問題1-100と本文で重複している記述が若干あるのは、そのためです。また、講義で提供している10-15分間の復習ビデオも提供しています。