現場で使える!Python自然言語処理入門


現場で使える!Python自然言語処理入門 (AI & TECHNOLOGY)


翔泳社


著者:赤石雅典、江澤美保


はじめに
本書の対象読者と必要な事前知識
本書の構成
本書のサンプルの動作環境
本書のサンプルプログラム

Chapter 1 テキスト分析とは
1.1 テキスト分析の目的
1.1.1 非定型データと定型データ
1.1.2 見つけ出す
1.1.3 発見する
1.2 テキスト分析の要素技術
1.2.1 テキスト分析技術の全体像
1.2.2 本書の構成

Chapter 2 日本語テキスト分析:前処理の勘所
2.1 テキストの入手
2.1.1 分析対象テキストの条件
2.1.2 青空文庫
2.1.3 Wikipedia APIの利用
2.1.4 PDF、Wordなどからの入手
2.1.5 Webページからの入手
2.1.6 APIによる入手方法
2.1.7 DBpedia
2.1.8 その他の入手方法
2.2 形態素解析
2.2.1 形態素解析の目的
2.2.2 形態素解析エンジンの種類
2.2.3 MeCabの利用
2.2.4 Janomeの利用
2.2.5 辞書との連携

Chapter 3 従来型テキスト分析・検索技術
3.1 係り受け
3.1.1 形態素解析と係り受けの関係
3.1.2 CaboChaの利用
3.1.3 naruhodoを使った視覚的表示
3.2 検索
3.2.1 Elasticsearchの導入
3.2.2 Elasticsearchの利用
3.3 日本語の検索
3.3.1 Python APIの導入
3.3.2 日本語用のアナライザ設定
3.3.3 日本語文書の検索
3.3.4 高度な日本語検索(同義語・辞書の利用)
3.4 検索結果のスコアリング
3.4.1 TF-IDF
3.4.2 Elasticsearchにおけるスコアリング
3.5 類似検索

Chapter 4 商用APIによるテキスト分析・検索技術
4.1 IBM Cloudにおけるテキスト分析系APIの全体像
4.1.1 Watson APIサービスの一覧
4.1.2 Natural Language Understanding(NLU)
4.1.3 Knowledge Studio
4.1.4 Discovery
4.1.5 その他のAPI
4.2 NLU(Natural Language Understanding)
4.2.1 NLU(Natural Language Understanding)とは
4.2.2 インスタンスの生成
4.2.3 Python利用時の共通処理
4.2.4 エンティティ抽出機能
4.2.5 関係抽出機能
4.2.6 評判分析機能
4.2.7 キーワード抽出機能
4.2.8 その他の機能
4.3 Knowledge Studio
4.3.1 Knowledge Studioとは
4.3.2 モデル作成に必要な作業の流れ
4.3.3 インスタンスとWorkspaceの作成
4.3.4 事前準備作業(Type System定義/辞書)
4.3.5 アノテーション作業(文書取組みからヒューマンアノテーションまで)
4.3.6 機械学習モデルのトレーニングと評価
4.3.7 モデルの利用方法(NLU連携パターン)
4.4 Discovery
4.4.1 Discoveryとは
4.4.2 文書取込み
4.4.3 エンリッチ
4.4.4 Query(問い合わせ)
4.4.5 ランキング学習
4.5 Discoveryを使う
4.5.1 環境(Environment)の作成
4.5.2 コレクションの作成
4.5.3 管理画面
4.5.4 SDUによるフィールド定義
4.5.5 フィールドの詳細定義(フィールド管理、エンリッチの設定)
4.5.6 文書の取り込み
4.5.7 DQLによる検索
4.5.8 同義語辞書の利用
4.5.9 Knowledge Studioとの連携
4.6 API経由でDiscoveryを使う
4.6.1 APIの初期化
4.6.2 文書のロードと削除
4.6.3 検索
4.6.4 形態素辞書の利用
4.6.5 類似検索の実行
4.7 Discoveryによるランキング学習
4.7.1 ランキング学習とは
4.7.2 UIツールを使ったランキング学習
4.7.3 パフォーマンス・ダッシュボード
4.8 APIを利用したDiscoveryのランキング学習
4.8.1 学習の実施

Chapter 5 Word2VecとBERT
5.1 Word2Vecモデル概要
5.1.1 Word2Vecの学習法
5.1.2 Word2Vecのモデル構造
5.1.3 学習時の目的と真の目的
5.1.4 Word2Vecで生成した特徴量ベクトルの性質
5.2 Word2Vecを使う
5.2.1 自分で学習から行う方法
5.2.2 学習済みモデルを利用する
5.3 Word2Vec利用事例
5.3.1 Word2Vecを前処理に利用した簡易分類機
5.3.2 商用APIの内部で利用
5.3.3 リコメンドシステムへの応用
5.4 Word2Vec関連技術
5.4.1 Glove
5.4.2 fastText
5.4.3 Doc2Vec
5.5 転移学習とBERT
5.5.1 画像認識と転移学習
5.5.2 BERTの特徴
5.5.3 汎用的に利用可能な事前学習
5.5.4 様々な適用分野
5.5.5 最新の研究成果に基づくニューラルネットワークモデル
5.5.6 事前学習モデルの利用

APPENDIX 1 実習で利用するコマンド類の導入
AP1.1 実習で利用するコマンドを導入する
AP1.1.1 Xcode Command Line Toolsの導入
AP1.1.2 homebrewの導入

APPENDIX 2 Jupyter Notebookの導入手順
AP2.1 Jupyter Notebookの環境を準備する

APPENDIX 3 IBMクラウドの利用手順
AP3.1 IBMクラウドのサインイン(ユーザー登録)
AP3.2 Watsonサービスの登録
AP3.3 資格情報の取得

INDEX
著者プロフィール

書籍目次

Posted by shi-n