「ベイジアンネットワーク入門」の第1章が無事終了

10月22日(木)の講義の前半で、第1章確率論の基礎の説明を終えた。

やはり数学科の学生である。講義に関しては、疑問点が無いし、わかるかどうかしつこく聞くと、「大丈夫です」とはっきり言ってくる。テキストに関していえば、理系1年次の微分積分と線形代数がわかれば理解できるという約束をしているので、可測性
[latex] g: \Omega\rightarrow {\mathbb R} [/latex] が $latex {\cal F}$上可測 [latex] {\Longleftrightarrow} \{\omega\in \Omega| g(w)\in D\}\in {\cal F}, D\in {\cal B}[/latex]
に関して、もう少し例をいれた説明があってもよかったと思う。測度論といっても、理解に時間がかかる(難しくはないが、なじむのに時間がかかる)のは可測性ぐらいである。講義のスライドでは、可測性の例と、ラドンニコディムの定理の適用例を入れている。

第1章には、特別な思いがある。統計をやっている人で、確率を知らないでやっている(本人は知っていると思っている)人が非常に多いと思う。
会話例1:
Q: 確率変数って、どんな写像ですか
A: ある分布にしたがってランダムな値をとる変数ですね。何で、確率変数が写像になるんですか。
会話例2:
Q: Kullback-Leibler情報量ってなんですか。
A: 連続では….となり、離散では、…です。
Q: それは2個の例ですね。一般的にはどうなるのですか。いつ存在しますか。
A: 連続、離散以外の分布ってあるんですか。K-L情報量が存在しないことってあるんですか。
このレベルの理解で確率的知識情報処理をやっている人が、プロの研究者でも多い。

しかし、まともな本を読もうとすると、1年くらいかかる。たとえば、伊藤清「確率論の基礎」はページ数は少ないが、「測度論のテキストを参照してください」という記述が頻繁に出てくる。Billingsleyの‘‘Probability & Measure”はやさしく書いてあるが、分量が多く、中心極限定理の証明や条件付確率の扱いなどが後半に書いてある。非専門家が、微分積分->測度->確率->情報処理　を1ヶ月程度の時間で、しかも本質がわかるようになるよな構成とはどんなものかを、私なりに考えた。

この1章をしっかり読めば、ほとんどの情報処理の確率に関する論文が読めるようになると思う。

第1章確率論の基礎: 1.1 集合

第1章確率論の基礎: 1.2 確率

第1章確率論の基礎: 1.3 分布関数

第1章確率論の基礎: 1.4 Kullback-Leibler情報量