TAMALOG

プログラミングがあれば遠いところへ行けます。プログラムと人の共生を記録します。

データ解析のための統計モデリングについて調べている

仕事でやりたいことができたので、こちらのサイトの資料を読み続けている。

講義のーと : データ解析のための統計モデリング : HUSCAP

この講義資料は通称、緑本と呼ばれている本の前身です。

Coursera の Machine Learning Courseを始めて5週目

Coursera の Machine Learning Courseを4月2日からお金を払って始めました。すでに5週目に突入です。

なぜ始めたか?

キャリアアップのために始めました。機械学習の基本的な知識が足りなくて不自由する機会が多くなってしまいました。

始めたきっかけ

始めるきっかけは、2つありました。自分の市場価値を上げたいと強く思い始めたのも影響しています。

  • 『仕事で始める機械学習』を読んで基礎がまったくなっていないことがわかったこと
  • 先輩から「ちゃんとやるなら土日の時間をフル活用しないと身につかないと思うよ」と指摘されたこと
  • ライブラリのアルゴリズムがわからず、結果を説明できなくて困ったこと
  • 機械学習の記事を読んだときに、単語の意味がわからないこと

www.coursera.org

取り組み方

現在は、平日の始業前と、土日の時間をフル活用して勉強しています。最近購入したiPadを使って出先の空いた時間でもアプリを使って学んでいます。

これまで取り組んで思ったこと

  • MOOCを始めて使ったが、問題が難しくかなり頭を使って良い
  • 機械学習ってどういうもの?と聞かれたときに概要をさくっと話せる
    • 場合によっては、数式を混じえて手法を説明できる
  • Octaveが使える
  • (副次的効果として)英語のreading/hearingスキル上達
  • 2週目以降ノートを使うようになりました。学生に戻った気分になる
  • お金を払っているから、真剣に取り組める
  • ロジスティック回帰やNeural Networkの基本的なところがわかっていなかった

抱負

2年以上数式や英語から離れていた身としては、かなり難しくて苦戦しています。でも昔からやりたかったものを勉強できてとても楽しいです。まだ1ヶ月程度ですがコース完走して絶対にサーティフィケーション取ります。

二値分類器のAUC

機械学習で作成したモデルは、様々な計算方法で評価される。ここでは、ROC曲線とAUCについてまとめてみる。

二値分類器について考える。二値分類器は[0, 1]区間の実数値(以下、スコア)を出力するものとする。

データ番号 正解ラベル スコア
1 apple 0.1
2 non-apple 0.9
3 apple 0.2
4 apple 0.4
5 non-apple 0.4
6 non-apple 0.7
7 non-apple 0.8
8 non-apple 0.5
9 apple 0.4

学習した二値分類器が上記のようなスコアを出力した。この表で正解ラベル列はまだ気にしなくても良い。 このスコアにしきい値を設けることで、二値分類ができる。例えば、0.5未満をappleと判断すると仮定する。分類結果の列を追加して表を更新する。

データ番号 正解ラベル スコア 分類結果
1 apple 0.1 apple
2 non-apple 0.9 non-apple
3 apple 0.2 apple
4 apple 0.4 apple
5 non-apple 0.4 apple
6 non-apple 0.7 non-apple
7 non-apple 0.8 non-apple
8 non-apple 0.5 non-apple
9 apple 0.4 apple

このときの混同行列は、以下のようになる。

apple(予測) non-apple(予測)
apple(真値) 4 0
non-apple(真値) 1 4

真陽性率は、4/4 = 1。偽陽性率は、1/(1 + 4) = 0.2となる。この閾値を0.1ずつ変化させて、偽陽性と真陽性を計算してみると以下の表が作成できる。

しきい値 偽陽性 真陽性
0.1 0 0
0.2 0 0.25
0.3 0 0.5
0.4 0 0.5
0.5 0.2 1
0.6 0.4 1
0.7 0.4 1
0.8 0.6 1
0.9 0.8 1

偽陽性を横軸に、真陽性を縦軸にプロットした点を結んだ曲線をROC曲線と呼ぶ。そしてROC曲線の下部面積をAUCと呼ぶ。AUCは[0, 1]の範囲を取る。その値が高いとき、分類器の判別能が高い。つまり、2つのクラスを異なるものとして識別する能力が高い。AUCが低いとき、判別能が十分ではなく間違えやすい。

f:id:tamanobi:20180401172709p:plain

ビュールレ・コレクションを見に行った。

国立新美術館で、印象派の展覧会があったので行ってきた。ビュールレ・コレクションは近いうちにチューリヒ美術館に寄贈されるらしく、日本これだけの作品を見られるのはこの機会だけらしい。

僕は絵画が好きなだけなので、あまり歴史には詳しくない。美術館へ行くたびに自分の好きな絵画を探している。今回気に入った作品が以下。興味が出た人はぜひ。

カミーユ・ピサロ「ルーヴシエンヌの雪道」 http://www.tokyo-np.co.jp/article/event/bi/buehrle/list/images/PK2018012902100168_size0.jpg

カミーユ・ピサロ「会話、ルーヴシエンヌ」 http://www.tokyo-np.co.jp/article/event/bi/buehrle/list/images/PK2018013002100166_size0.jpg

アルフレッド・シスレー「ブージヴァルの夏」 http://www.tokyo-np.co.jp/article/event/bi/buehrle/list/images/PK2018021502100169_size0.jpg

「ヴェトゥイユ近郊のヒナゲシ畑」 http://www.tokyo-np.co.jp/article/event/bi/buehrle/list/images/PK2018020302100100_size0.jpg

東京新聞でも絵画の画像つき記事が上がっているので見てみると良いかも。 東京新聞:集う巨匠の美 14日から国立新美術館:至上の印象派展 ビュールレ・コレクション:イベント情報(TOKYO Web)

「お金2.0」を読んだ。

去年、「金持ち父さん、貧乏父さん」という本に触発されて依頼、お金への関心が強くなっている。「お金2.0」を読み終わったので、雑な要約を載せておく。

今日読み終えた「お金2.0」という本では、今300年の歴史がある貨幣経済にパラダイムシフトが起こっていると指摘する。貨幣をうまく利用できる者がより貨幣を持つように、個人の人気をうまく利用できる者がより人気を獲得できる世の中になっている。YouTuberやInstagramerがそう。YouTuberにとって、ファンやチャンネル登録者が減ることは、金銭を失うことと同じあるいはそれ以上に不安を抱くこともあるらしい。

筆者の考える経済を構成するための4つの普遍的な性質を例にとり、貨幣経済も評価経済(人間の人気や期待、体験など)も同じだと主張する。まだ評価経済は始まったばかりで、その仕組みは完全ではなく若い世代(ミレニアム世代)がそれを作り上げる感覚を持っているのではないかと筆者は煽る。

貨幣経済が評価経済に成り代わると主張したいわけではなく、生き方の選択肢が広がるだろう。貨幣経済では認められづらかった価値が、評価経済の中で評価される。例えば、プロにはなれないがカラオケが上手い人が動画をアップロードして人気を集め、ファンから物をもらい受けたりということがありえる。

貨幣経済の中で生きなくても、評価経済の中で生きていける。働けなくても生きていける道も拓ける。

金本位制が終了した時点で、貨幣経済は国が担うものとなったが、インターネットやブロックチェーンなどの技術を使えば評価経済の仕組みは一会社や、ましてやビットコインのように個人が提示できる。この仕組をうまく作ることが評価経済を加速する方法であり、ビジネスチャンスでもあり、人々に新しい生き方を提示できる。

このブログを読んだが、声質変換の知識と多層ニューラルネットワークの知識が足りずに全体的にわからなかった。

hiroshiba.github.io

特にわからなかったのは以下。pix2pixが適しているのかよくわからない。

少ないデータ数で学習させるには、pix2pixモデルが適している。 今回はこのpix2pixモデルを使って声質変換タスクを解いた。

声質変換で注目していたのは、クリムゾンテクノロジー株式会社の「リアチェンvoice」だった。デモを聞いてみるとかなり違和感が少ないことに驚くと思う。

www.youtube.com