O’REILLY Learning「実践 自然言語処理-実世界NLPアプリケーション開発のベストプラクティス」1章
1章 自然言語処理入門
自然言語処理(Natural Language Processing:NLP)
NLPのタスク
人間の言語は、音素、形態素・語彙素、構文、文脈の4つの主要な要素で構成。
構文木では、Nは名詞、Vは動詞、Pは前置詞を表す。
名詞句はNPで示され、動詞句はVPで示される。
自然言語の曖昧性と創造性。
人間の一般常識を計算モデルにどうやってエンコードするか。
人工知能(Artificial Intelligence:AI)
機械学習(Machine Learning:ML)
ディープラーニング(Deep Learning:DL)
自然言語処理はいずれもAIの下位分野
NLPの問題解決に使われるさまざまなアプローチ
・ヒューリスティック
・機械学習
・ディープラーニング
正規表現は、ルールベースのシステムを構築するための非常に一般的なパラダイム。
文脈自由文法:(CFG)
文法言語:JAPE(Java Annotation Patterns Engine)のような文法言語
ルールベースのNLPシステム:GATE(General Architecture for Text Engineering)
ナイーブベイズ:分類タスクの古典的なアルゴリズム
サポートベクトルマシン(Support Vector Machine:SVM):よく使われている分類アルゴリズム1つ
隠れマルコフモデル(Hidden Markov Model:HMM):データを生成する、観測されない隠れ状態をもつ過程が存在すると仮定する確率モデル
条件付き確率場(Conditional Random Field:CRF):系列データに使われるアルゴリズム
NLPにおけるHMMの詳細は、Jurafsky教授の著書『Speech and Language Processing』
https://web.stanford.edu/~jurafsky/slp3/
リカレントニューラルネットワーク(RNN)
長短期記憶ネットワーク(Long Short-Term Memory Network:LSTMネットワーク)
ゲーテッドリカレントユニット(Gated Recurrent Units:GRU):RNNの一種
畳み込みニューラルネットワーク(CNN)
Transformer:NLP用の最先端のディープラーニングモデルで使われているモデル
BERT(Bidirectional Encoder Representations from Transformers)
オートエンコーダ
ディープラーニングがまだ銀の弾丸でない理由
・小さなデータセットでの過学習
・Few-shot学習と人工的なデータ生成
・ドメイン適応
・解釈可能なモデル
・一般常識と世界知識
・コスト
・オンデバイスデプロイ