入門 機械学習
オライリー・ジャパン
著者:Drew Conway、John Myles White
訳者:萩原正人、奥野陽、水野貴明、木下哲也
訳者まえがき
はじめに
目次
1章 Rを利用する
1.1 機械学習のためのR
1.1.1 Rのダウンロードとインストール
1.1.2 IDEとテキストエディタ
1.1.3 Rパッケージの読み込みとインストール
1.1.4 機械学習のためのRの基礎知識
1.1.5 Rに関する情報
2章 データの調査
2.1 探索と確証
2.2 データとは何か?
2.3 データ内の列の型を推論する
2.4 意味推論
2.5 数値による要約
2.6 平均値、中央値、最頻値
2.7 分位数
2.8 標準偏差と分散
2.9 探索的データの可視化
2.10 複数の列の関係の可視化
3章 分類:スパムフィルタ
3.1 白か黒か?二値分類
3.2 やさしい条件付き確率入門
3.3 初めてのベイズスパム分類器を書く
3.3.1 分類器を定義し、非スパム(難)でテストする
3.3.2 分類器をすべての種類の電子メールに対してテストする
3.3.3 結果を改善する
4章 順位付け:優先トレイ
4.1 並び順のわからないものをソートするには?
4.2 電子メールメッセージの優先度による並べ替え
4.2.1 電子メールの優先度の素性
4.3 優先トレイの実装
4.3.1 素性を抜き出すための関数群
4.3.2 順位付けのための重み付け方式の設計
4.3.3 電子メールのスレッド活動量を重み付けする
4.3.4 順位付けの訓練と検証
5章 回帰:ページビューの予測
5.1 回帰分析入門
5.1.1 ベースラインモデル
5.1.2 ダミー変数を使った回帰
5.1.3 線形回帰入門
5.2 ウェブのアクセス数を予測する
5.3 相関を定義する
6章 正則化:テキスト回帰
6.1 列の非線形関係:直線の先にあるもの
6.1.1 多項式回帰の紹介
6.2 過学習を防ぐ方法
6.2.1 正則化を用いて過学習を防ぐ
6.3 テキスト回帰
6.3.1 救いの手、ロジスティック回帰
7章 最適化:暗号解読
7.1 最適化入門
7.2 リッジ回帰
7.3 最適化としての暗号解読
8章 PCA:株式市場指標の作成
8.1 教師なし学習
9章 MDS:米国上院議員の類似度の視覚的な調査
9.1 類似度に基づいたクラスタリング
9.1.1 距離尺度と多次元尺度構成法の概要
9.2 米国上院議員はどのようにクラスタリングされるか?
9.2.1 米国上院議員点呼投票データの分析(第101議会〜第111議会)
10章 k近傍法:推薦システム
10.1 k近傍法のアルゴリズム
10.2 Rパッケージのインストールデータ
11章 ソーシャルグラフの分析
11.1 ソーシャルネットワーク分析
11.1.1 グラフを使って考える
11.2 ツイッターのソーシャルグラフデータの調査
11.2.1 GoogleSocialGraphAPIの利用
11.3 ツイッターネットワークの分析
11.3.1 ローカルコミュニティ構造
11.3.2 クラスタリングされたツイッターネットワークのGephiでの可視化
11.3.3 独自の「フォローすべき人」エンジンの構築
12章 モデル比較
12.1 SVM:サポートベクターマシン
12.2 アルゴリズムを比較する
引用文献
索引