内容紹介
音声認識の基礎理論から実用的なシステム構成までわかる
本書は音声認識手法の最新技術について基礎から丁寧に解説するとともに、実際の音声認識ソフトによって実践的に学ぶことができることを目的としたものです。改訂版では、DNNをはじめとした音声認識手法のこの間の発展を補うとともに、最新の音声認識ソフトに対応しています。
このような方におすすめ
情報系学科の大学学部4年生および大学院生
目次
主要目次
1章 音声認識の概要
2章 音声特徴量の抽出
3章 HMMによる音響モデル
4章 ディープニューラルネットワーク(DNN)によるモデル
5章 単語音声認識と記述文法に基づく音声認識
6章 統計的言語モデル
7章 大語彙連続音声認識アルゴリズム
8章 音声データベース
9章 音声認識システムの実現例
付録 大語彙連続音声認識エンジン Julius
詳細目次
第1章 音声認識の概要
1.1 音声認識システムの現状
1. 利用話者
2. 語彙サイズ
3. 発声スタイル
4. 使用環境
1.2 音声認識のアプリケーション
1. テキスト入力(ディクテーション)
2. 音声によるコマンド入力(カーナビ・ゲーム機など)
3. 音声による情報アクセス(電話応答装置・携帯端末)
4. 音声による会話(人間型ロボット・エージェント)
5. 音声の書起し(会議録・講演録・字幕付与)
6. 音声の検索・マイニング
7. 音声翻訳
8. 語学学習支援
1.3 音声認識の原理とシステムの構成
1.4 音声認識のための学習データ
演習問題
第2章 音声特徴量の抽出
2.1 音声の生成
1. 音声の生成機構と音素
2. 音声生成の信号モデル
2.2 音声信号のスペクトル分析
1. 音声信号の短時間フーリエ分析
2. 音声の線形予測分析
3. 音声信号のケプストラム分析
4. LPCケプストラム係数
2.3 音声特徴抽出の実際
1. MFCCパラメータ
2. PLPパラメータ
3. 動的な特徴
4. ケプストラム係数の正規化
5. 声道長正規化(VTLN)
6. 音声認識手法と音響特徴量
演習問題
第3章 HMMによる音響モデル
3.1 隠れマルコフモデル(HMM)
1. HMMの基本構成
2. HMMからの信号出力確率の計算
3. 最尤パス上の確率計算
3.2 HMMの学習
1. 分布パラメータの最尤推定
2. HMMの学習(状態系列が与えられた場合)
3. HMMの学習(Baum-Welchのアルゴリズム)
4. 複数の学習データによるHMMの学習
5. 連結学習
3.3 混合正規分布による生成モデル(GMM-HMM)
1. 多次元正規分布
2. 対角共分散行列
3. 混合正規分布
3.4 音素文脈依存モデル
1. 音素文脈の考慮
2. 状態の共有
3. 分布の共有
3.5 GMM-HMMの適応
1. MAP適応
2. MLLR適応
3. 話者適応学習
3.6 GMM-HMMの識別学習
1. MCE学習
2. MMI学習
3. MBRおよびMPE学習
演習問題
第4章 ディープニューラルネットワーク(DNN)によるモデル
4.1 DNN-HMMの基本構成
4.2 DNN-HMMの学習法
1. バックプロパゲーション学習
2. RBMによる事前学習
3. 正則化とDropout法
4. 系列識別学習
4.3 DNNの適応
4.4 ほかのニューラルネットワーク
1. コンボリューショナルニューラルネットワーク(CNN)
2. リカレントニューラルネットワーク(RNN)
3. LSTM
4.5 DAEを用いた雑音・残響抑圧
演習問題
第5章 単語音声認識と記述文法に基づく音声認識
5.1 音素HMMを用いた単語認識
1. 単語単位のモデルを用いた単語音声認識
2. 音素モデルの連結による単語モデルの構成
5.2 記述文法に基づく連続音声認識
1. 文法の機能
2. 単語のネットワークによる文法の表現
3. 単語ネットワークとHMMネットワーク
4. 経路の探索に基づく連続音声認識
演習問題
第6章 統計的言語モデル
6.1 Nグラムによる生成モデル
6.2 Nグラムの確率の算出
1. バックオフ平滑化
2. 線形補間
3. 最大エントロピー法
6.3 語彙とカットオフ
6.4 Nグラムモデルの発展
1. クラスNグラムモデル
2. N グラムモデルの混合
6.5 言語モデルの評価
1. 単語パープレキシティ
2. 補正パープレキシティ
6.6 ニューラルネットワークによる言語モデル
6.7 言語モデルの作成
1. 構築手順
2. 言語モデル学習用材料
3. テキストの整形
4. 不要部分の削除
5. 文への分割
6. 形態素解析
7. 形態素解析の後処理
8. 出現頻度の計量
9. 認識用辞書の構築
演習問題
第7章 大語彙連続音声認識アルゴリズム
7.1 問題とアプローチ
7.2 探索アルゴリズム
1. パス(入力走査回数)
2. 同期(入力走査単位)
3. 仮説展開順序
4. 枝刈りの基準
5. 単語履歴の管理(仮説のマージ)
7.3 各モデルの実装と適用
1. 単語辞書の木構造化
2. 言語モデル確率の分解
3. 単語間の音素環境依存性の扱い
4. 言語モデル確率の重み
5. 単語挿入ペナルティ
7.4 マルチパス探索
1. 音響モデル
2. 言語モデル
3. 中間表現(インターフェース)
7.5 重み付き有限状態トランスデューサ(WFST)
1. WFSTの基本操作
2. WFSTによる音声認識
演習問題
第8章 音声コーパス
8.1 音声/言語コーパスとは
8.2 音声/言語コーパスの構成
1. 音声コーパス
2. テキストコーパスと辞書
8.3 音声コーパスの現状
1. 米国の現状
2. 日本の現状
3. 関連組織
8.4 日本の代表的な音声コーパス
1. 新聞記事読上げ音声データベース(JNAS)
2. 『日本語話し言葉コーパス』(CSJ)
3. IPSJ SIG-SLP雑音下音声認識評価環境(CENSREC)
演習問題
第9章 音声認識システムの実現例
9.1 Juliusディクテーションキット
1. GMM-HMM音響モデル
2. DNN-HMM音響モデル
3. 言語モデル・発音辞書
4. ベンチマーク結果
9.2 Kaldi CSJレシピ
1. 使用したデータ
2. 学習方法の概要
3. ベンチマーク結果
4. 入手・追試方法
9.3 国会審議の音声認識システム
1. 音響モデル
2. 言語モデル・発音辞書
3. ベンチマーク結果
付録A CMU―Cambridge統計的言語モデルツールキット
A.1 ファイル形式
A.2 言語モデルの作成と評価
1. 言語モデルの作成
2. 言語モデルの評価
3. その他のコマンド
付録B 大語彙連続音声認識エンジンJulius
B.1 外部仕様
1. 入出力
2. 音響モデル(HTKフォーマット)
3. 単語辞書(HTKフォーマット)
4. 言語モデル(ARPA標準フォーマットあるいはオートマン文法)
B.2 内部仕様(アルゴリズム)
1. 第1パスの処理
2. 単語トレリスインデックス
3. ビーム幅付き最良優先探索
4. Nベスト探索
5. 音響モデルの確率計算の高速化
B.3 動作環境
B.4 動作設定と起動
1. Jconf設定ファイル
2. プログラムの実行
3. バイナリファイル
4. 探索パラメータの設定
B.5 応用例
1. adlntoolを用いたネットワーク音声認識
2. モジュールモードによる通信
3. セグメンテーション
演習問題略解
続きを見る