てきとうらいふ

ストイックとかむずかしい

戦略的データサイエンス入門をつまみ食いする

機械学習もくもく会 18:00- @ヌーラボ京都

18:15 やりたいことはいくつかあるんだけどこの分野の領域自体のサイズ感も流れもまったくわかっていないのでなんとなくまとめるとこからはじめてようと思った。
良さげな本の目次からなにか見えてこないか目次に目を通してみて興味あるとこをつまみ食いしてみる。

戦略的データサイエンス入門

「この本では、巨大なデータからビジネスに役立つパターンやモデルを抽出することを扱います」
データ分析思考

ビジネス問題

1.収益性の高い顧客は誰か → クエリ
2.収益性の高い顧客と平均的な顧客の間に明確な差異が存在するか → 統計仮説検定
3.そのような顧客の特徴を示すことができるか → データマイニング
4.収益性の高い顧客を獲得することができるか。どの程度の利益が見込めるか → データマイニング

データマイニングプロセス

ビジネスの理解→データの理解→データの準備→モデリング→評価→適用

相関関係を見つける手法
  • 分類classification
  • 回帰regression
  • 類似性マッチングsimilarity matching
  • クラスタリングclustering
  • 共起グルーピングco-occurrence grouping
  • プロファイリングprofiling
  • リンク予測link prediction
  • データ削減data reduction
  • 因果モデリングcausal modeling
予測モデリング

データセットから予測モデルを作成する

  • ツリー帰納法 → 目的変数とそのデータを特徴づける(情報価値の高い)属性で構成されるモデルを見つけ出す
  • ファンクションフィッティング → 何らかの意味での「最適」なパラメータのセットを見つけ、モデルをデータに「フィット」させる

オーバーフィッティングとデータセット

良いモデルとは

モデルを適切に評価することは難しいが重要
分類器を評価するために期待値を使う

ビジュアライゼーション

20:20 - ピザが届きビールを飲んでしまったのでここまで
f:id:kimzo:20150609202733j:plain

全く関係ないけど

京都事務所の急な階段どうしたものかと思っていたところ見つけたソリューション
階段の角度は変わらないのに降りやすくなるというなるほどアイデアkaidan.loft-mura.com

21:00 - 軽くやったこと共有

とても刺激になりました。