データサイエンス設計マニュアル
オライリー・ジャパン
著者:Steven S. Skiena
監訳:小野陽子
訳者:長尾高弘
日本語版まえがき
はじめに
1章 データサイエンスとは
1.1 計算機科学、データサイエンス、リアルサイエンス
1.2 データについての興味深い問い
1.3 データの性質
1.4 分類と回帰
1.5 データサイエンスの動画:QuantShop
1.6 「私の体験談から」について
1.7 私の体験談から:答えるためには正しい問いが必要だ
1.8 さらなる探求のために
1.9 演習問題
2章 数学の基礎知識の準備
2.1 確率
2.2 記述統計量
2.3 相関分析
2.4 対数
2.5 私の体験談から:デザイナー遺伝子の適合
2.6 さらなる探求のために
2.7 演習問題
3章 データマンジング
3.1 データサイエンスで使われるプログラミング言語
3.2 データの収集
3.3 データのクリーニング
3.4 私の体験談から:市場を読み切れ
3.5 クラウドソーシング
3.6 さらなる探求のために
3.7 演習問題
4章 スコアとランキング
4.1 BMI(ボディマス指数)
4.2 スコアリング関数の開発
4.3 Zスコアと正規化
4.4 ランキングの高度な技法
4.5 私の体験談から:Clydeの逆襲
4.6 アローの不可能性定理
4.7 私の体験談から:誰が偉大か
4.8 さらなる探求のために
4.9 演習問題
5章 統計分析
5.1 統計的分布
5.2 分布からのサンプリング
5.3 統計的有意性
5.4 私の体験談から:若さの泉の発見?
5.5 パーミュテーションテストと p値
5.6 ベイズ推定
5.7 さらなる探求のために
5.8 演習問題
6章 データの可視化
6.1 探索的データ分析
6.2 可視化の審美眼の育成
6.3 グラフの種類
6.4 偉大なるビジュアライゼーション
6.5 グラフの解釈
6.6 インタラクティブな可視化
6.7 私の体験談から:世界を描く TextMap
6.8 さらなる探求のために
6.9 演習問題
7章 数理モデル
7.1 モデリングの哲学
7.2 モデルの用語
7.3 ベースラインモデル
7.4 モデルの評価
7.5 評価システム
7.6 私の体験談から:100 %の正確度
7.7 シミュレーションモデル
7.8 私の体験談から:賭け方の計算
7.9 さらなる探求のために
7.10 演習問題
8章 線形代数
8.1 線形代数の威力
8.2 行列演算の可視化
8.3 行列の分解
8.4 固有値と固有ベクトル
8.5 固有値分解
8.6 私の体験談から:ヒューマンファクター
8.7 さらなる探求のために
8.8 演習問題
9章 線形回帰とロジスティック回帰
9.1 線形回帰
9.2 より良い回帰モデル
9.3 私の体験談から:タクシー 配達 (デリバー)
9.4 パラメータフィッティング問題としての回帰
9.5 正則化によるモデルの単純化
9.6 分類とロジスティック回帰
9.7 ロジスティック分類の問題
9.8 さらなる探求のために
9.9 演習問題
10章 ネットワーク分析と距離
10.1 距離の測定
10.2 最近傍分類
10.3 グラフ、ネットワーク、距離
10.4 PageRank
10.5 クラスタリング
10.6 私の体験談から:クラスタ爆弾
10.7 さらなる探求のために
10.8 演習問題
11章 機械学習
11.1 ナイーブベイズ(単純ベイズ)
11.2 決定木分類器
11.3 ブースティングとアンサンブル学習
11.4 サポートベクターマシン
11.5 学習の度合い
11.6 ディープラーニング
11.7 私の体験談から:名前のゲーム
11.8 さらなる探求のために
11.9 演習問題
12章 ビッグデータ:スケールを追求
12.1 ビッグデータとは
12.2 私の体験談から:インフラの重要性
12.3 ビッグデータを扱うアルゴリズム
12.4 フィルタリングとサンプリング
12.5 並列化
12.6 MapReduce
12.7 社会的倫理的な問題
12.8 さらなる探求のために
12.9 演習問題
13章 最後に一言
13.1 仕事を手に入れよう!
13.2 大学院に進学する
13.3 コンサルティングサービス
参考文献
索引