TAMALOG

プログラミングがあれば遠いところへ行けます。プログラムと人の共生を記録します。

カイ二乗分布を描いてみる

カイ二乗分布を知っていたつもりだが、正規分布から簡単に生成できることを忘れていた。

カイ二乗分布は、独立に標準正規分布に従うk個の確率変数の二乗和が従う分布。

実際に、標準正規分布から10000個ずつ出して分布を出してみた。k = 10 くらいになると形状が正規分布に近くなる。

f:id:tamanobi:20180605013136p:plain

コード

近況報告

ここ数ヶ月の近況

  • 2年以上お世話になった先輩が退職。
  • 1年近く一緒に仕事していた先輩が退職。
  • Courseraで機械学習を基本から学び始めた
  • エンジニアが僕を含めてやっと3名になり、開発リーダーに近い立ち位置になった
  • NEMの簡単な説明をする講師をやった
  • 所属部署が変更になり、飲み会が増えた

直近の活動

二項分布について

70%の確率でアタリが出るくじを100回反復施行することを考える。

当然、100回のうち約70回はアタリを引くことができるはずだ。確率pでアタリのでるくじをN回反復試行したときのアタリの出る回数は二項分布に従うらしい。

実際にグラフを書いてみる。R Studioなら一瞬で図が書ける。

> plot(0:100, dbinom(0:100, 100, 0.7), type="h", lwd=2)

f:id:tamanobi:20180516005652p:plain

なんとなく60回以下の確率を計算してみると、2%と計算された。100回引く反復施行を、50回繰り返せば1度は60回以下になるらしい。直感的には多いように感じる。

> pbinom(q=60, size = 100, p=0.7)
[1] 0.02098858

データ解析のための統計モデリングについて調べている

仕事でやりたいことができたので、こちらのサイトの資料を読み続けている。

講義のーと : データ解析のための統計モデリング : HUSCAP

この講義資料は通称、緑本と呼ばれている本の前身です。

統計モデルについてよくまとまっている

久保先生のスライドはよく作られていて、概略をつかみやすい。モデリングの肝は、応答変数の確率分布なのかも?

Coursera の Machine Learning Courseを始めて5週目

Coursera の Machine Learning Courseを4月2日からお金を払って始めました。すでに5週目に突入です。

なぜ始めたか?

キャリアアップのために始めました。機械学習の基本的な知識が足りなくて不自由する機会が多くなってしまいました。

始めたきっかけ

始めるきっかけは、2つありました。自分の市場価値を上げたいと強く思い始めたのも影響しています。

  • 『仕事で始める機械学習』を読んで基礎がまったくなっていないことがわかったこと
  • 先輩から「ちゃんとやるなら土日の時間をフル活用しないと身につかないと思うよ」と指摘されたこと
  • ライブラリのアルゴリズムがわからず、結果を説明できなくて困ったこと
  • 機械学習の記事を読んだときに、単語の意味がわからないこと

www.coursera.org

取り組み方

現在は、平日の始業前と、土日の時間をフル活用して勉強しています。最近購入したiPadを使って出先の空いた時間でもアプリを使って学んでいます。

これまで取り組んで思ったこと

  • MOOCを始めて使ったが、問題が難しくかなり頭を使って良い
  • 機械学習ってどういうもの?と聞かれたときに概要をさくっと話せる
    • 場合によっては、数式を混じえて手法を説明できる
  • Octaveが使える
  • (副次的効果として)英語のreading/hearingスキル上達
  • 2週目以降ノートを使うようになりました。学生に戻った気分になる
  • お金を払っているから、真剣に取り組める
  • ロジスティック回帰やNeural Networkの基本的なところがわかっていなかった

抱負

2年以上数式や英語から離れていた身としては、かなり難しくて苦戦しています。でも昔からやりたかったものを勉強できてとても楽しいです。まだ1ヶ月程度ですがコース完走して絶対にサーティフィケーション取ります。