内容紹介
遺伝という現象を軸に数理的に生命現象を解析する!
遺伝統計学(統計遺伝学ともいう)は、生命現象の根幹の一つである遺伝という現象を軸に数理的に生命現象を解釈するもの。「ばらつき」と「確率」は遺伝学の基本で、同じく「ばらつき」と「確率」を基本とする学問に統計学がある。本書は、遺伝現象・ゲノム解析に特徴的な事柄を取り出し、数理的な部分はRを使って解説した。
このような方におすすめ
ゲノム解析等の研究者
医歯薬・応用生物系の学部学生
目次
主要目次
はじめに
第1部 遺伝子型から表現型まで
第1章 遺伝――似ていることと似ていないこと
第2章 DNA、RNA、タンパク質、形質
第3章 多様性の諸相
第2部 データ、サンプル、サンプルの集まり
第4章 観察して評価すること
第5章 サンプルを個別に捉える
第6章 サンプルを集団として捉える
第3部 サンプルの集まりの特徴づけ
第7章 尺度、変数、自由度、次元
第8章 分 布
第9章 確率と尤度
第10章 連鎖解析に見る尤度と変数
第11章 指数(インデックス)とは
第4部 推定、仮説、棄却、関連、因果
第12章 推 定
第13章 棄却と検定
第14章 関係と因果
第5部 大規模なこと
第15章 数え上げる
第16章 省略する
第17章 たくさんの検定
付 録
付録A R
付録B 数式記号
詳細目次
はじめに
第1部 遺伝子型から表現型まで
第1章 遺伝――似ていることと似ていないこと
1.1 形質が遺伝する
1.1.1 遺伝
1.1.2 生物の特徴――形質とフェノタイプ(表現型)
1.1.3 同一性と多様性
1.2 遺伝子
1.2.1 遺伝子とは
1.2.2 染色体
1.2.3 遺伝子座、アレル、ハプロタイプ、ディプロタイプ、フェノタイプ
1.2.4 2 倍体、ホモ接合、ヘテロ接合、ジェノタイプ、フェノタイプ、遺伝形式
第2章 DNA、RNA、タンパク質、形質
2.1 DNA 二重鎖
2.1.1 複製、変異、組み換え
2.1.2 起源が同じ―― IBD
2.1.3 1 つの数値で表して扱いやすくする―― IBD の期待値
2.1.4 同胞のアレルの一致率
2.1.5 変異の消長――遺伝的浮動
2.2 DNA からRNA、タンパク質へ
2.2.1 DNA からRNA へ――転写
2.2.2 RNA からタンパク質へ――翻訳
第3章 多様性の諸相
3.1 核酸、タンパク質の多様性
3.1.1 DNA 配列の多様性、種の違い、遺伝子多型
3.1.2 RNA とタンパク質の多様性
3.2 多様性と分散
3.2.1 分散の分解――分散、共分散
3.2.2 遺伝率と分散
3.2.3 ハーディ・ワインバーグ平衡(HWE)と分散
3.2.4 アレル関連、連鎖不平衡と分散
3.3 データの取り扱い方と分散、共分散
3.3.1 ハーディ・ワインバーグ平衡(HWE)とアレル関連、連鎖平衡を2 列のデータで考える
3.3.2 遺伝形式(優性、劣性)は第3 の列
3.4 たくさんの要因――多因子遺伝
第2部 データ、サンプル、サンプルの集まり
第4章 観察して評価すること
4.1 データの種類と構成
4.1.1 遺伝子から見たデータの種類――遺伝子型と表現型、最終形質と中間形質
4.1.2 解析対象としてのデータの種類――データ型
4.1.3 一部に順序があること
4.1.4 カテゴリの組み合わせ
4.1.5 唯一選択、重複選択
4.1.6 2 倍体という特殊性――ハーディ・ワインバーグ平衡(HWE)の正確検定
4.1.7 親項目と子項目
4.1.8 カテゴリの配置、カテゴリ間の非独立性、正単体
4.2 データを比較する
4.2.1 2 つのデータの関係――対称的な関係と非対称的な関係
4.2.2 非対称な関係を対称にする――距離
4.2.3 ユークリッド距離とそれ以外の距離
4.2.4 配列の違いとマンハッタン距離
4.2.5 距離の代わりに角度で表す――相関係数
4.3 複数のサンプル、たくさんの比較
4.3.1 1 対N - 1 とN 対N
4.3.2 一部に関係がないとき――半順序
4.3.3 距離行列と木
第5章 サンプルを個別に捉える
5.1 グラフとは
5.1.1 グラフの定義
5.2 サンプルを並べる――数直線というグラフ
5.3 木というグラフ
5.3.1 木とは
5.3.2 木の形状――トポロジー
5.4 木構造でのデータの理解――階層的クラスタリング
5.4.1 進化系統樹
5.4.2 階層的クラスタリング
5.5 行列データを眺める
5.5.1 要素を並び替えて眺める――ヒートマップ
5.5.2 要素を並び替えずに眺める――連鎖不平衡係数プロット
5.5.3 片方の軸に着目、両方の軸に着目
5.6 個体の家系図、アレルの系図――同一種の中のグラフ
5.6.1 個人の関係のグラフと染色体の関係のグラフ
5.6.2 染色体の伝達グラフと組み換え
5.6.3 祖先にさかのぼる――コアレセント
5.7 ネットワーク
第6章 サンプルを集団として捉える
6.1 分布として捉える
6.1.1 1 次元
6.1.2 2 次元
6.2 非階層的クラスタリング
6.3 集団遺伝学
6.3.1 不均一と不平衡
6.3.2 均一な集団とハーディ・ワインバーグ平衡(HWE)――均一な集団の混合
6.3.3 時間的な変化
6.3.4 空間の移動
6.4 熱力学、統計力学、流体力学
6.4.1 時空間、有限と無限
6.4.2 均一、平衡、定常
第3部 サンプルの集まりの特徴づけ
第7章 尺度、変数、自由度、次元
7.1 データをかいつまんで伝える
7.1.1 分割表の情報をかいつまんで伝える
7.1.2 量的データをかいつまむ
7.2 次元と独立と直交
7.2.1 自由度と次元
7.2.2 分割表の自由度と線形独立――行列
7.2.3 確率的独立と直交
7.2.4 線形独立と直交基底
7.2.5 正規直交基底を取り出す――固有値分解
7.3 変数の構造と意味
7.3.1 変数の構造
7.3.2 意味から選ぶ変数――データ構造で決める変数
第8章 分 布
8.1 確率分布
8.1.1 分布とは
8.1.2 離散的な確率分布
8.1.3 連続的な場合――指数分布
8.1.4 指数分布と正規分布との違い
8.1.5 一様分布、指数分布、正規分布、矩形分布――一般正規分布
8.1.6 正規分布、カイ分布と次元
8.1.7 カイ分布からカイ自乗分布
8.1.8 最も観察されそうなカイ自乗値
第9章 確率と尤度
9.1 確率、尤度
9.1.1 確率
9.1.2 尤度
9.1.3 確率の和は1、尤度の和は1 ではない
9.1.4 尤度の指数化――尤度比と事前確率、事後確率
9.2 条件付確率、確率、尤度、非独立
9.2.1 カテゴリ型の条件付確率
9.2.2 量的な軸での条件付確率
9.2.3 事前確率「当初の予想」と陽性的中率(PPV)と陰性的中率(NPV)
第10章 連鎖解析に見る尤度と変数
10.1 尤度を使った形質マッピング――連鎖解析
10.2 パラメトリック連鎖解析と尤度
10.2.1 マーカーの伝達木と原因座位の伝達木
10.2.2 マーカーと原因座位の間の組み換え
10.2.3 隠れマルコフモデルと連鎖解析の尤度計算
10.3 ノンパラメトリック連鎖解析――罹患同胞対解析
10.3.1 相対危険度を変数とする
10.3.2 IBD 数ごとに場合分けする
第11章 指数(インデックス)とは
11.1 指数は相対的な値
11.2 不平衡の指数
11.2.1 ハーディ・ワインバーグ平衡(HWE)
11.2.2 連鎖不平衡
11.2.3 p 値――確率変数を指数化する
第4部 推定、仮説、棄却、関連、因果
第12章 推 定
12.1 最尤推定
12.2 信頼区間
12.3 いろいろな信頼区間
12.3.1 ベイズ推定――観察していないとき
12.3.2 ベイズ推定、事前確率、共役事前分布
12.3.3 多項分布とその共役事前分布――ディリクレ分布
12.3.4 最尤推定とハプロタイプ頻度推定――連鎖不平衡係数推定
12.4 EMアルゴリズム
第13章 棄却と検定
13.1 信じるのが難しい仮説を棄却する―― 3 カテゴリの観察
13.2 分割表検定
13.2.1 ピアソンの独立性検定――カイ自乗検定
13.2.2 帰無仮説と最尤仮説を比較して統計量にする――尤度比検定
13.3 3 つの検定方法の比較――正確確率検定、ピアソンの独立性検定、尤度比検定
13.3.1 サンプル数が小さいときと大きいとき
13.3.2 検定の対称性
13.3.3 有限な範囲と無限の広がりの違い
13.3.4 計算量の違い
13.3.5 計算量の違いのまとめ
13.4 仮説に制約を定めて検定する
13.4.1 1 つの分割表にいろいろな検定を適用してみる
13.4.2 離散的な仮説空間での尤度比の比較
13.5 検定同士の非独立な関係
13.6 表のサイズを変える
13.6.1 表形式のデータ
13.6.2 順序のあり・なしと検定手法
13.6.3 複数の手法の挙動の比較
第14章 関係と因果
14.1 原因と結果と時間
14.2 原因としてのジェノタイプ
14.3 有向グラフ、ベイジアンネットワーク
第5部 大規模なこと
第15章 数え上げる
15.1 順列、重複順列、分割表の正確生起確率
15.1.1 順列と組み合わせ
15.1.2 組み合わせ、重複組み合わせ、2 倍体ジェノタイプの種類数
15.2 分割の数――スターリング数とベル数
15.3 分割とカテゴリの統合
15.3.1 順序のないカテゴリの場合
15.3.2 順序のあるカテゴリの場合
15.4 木の形の数、グラフの数――木、クラスタリング、ベイジアンネットワーク
15.4.1 木のパターンの数
15.4.2 クラスタリングのパターンの数
15.4.3 無向グラフの数、有向グラフの数、非循環有向グラフの数
第16章 省略する
16.1 ランダムに抽出する、ランダムに巡回する
16.1.1 既知の分布からのランダムサンプリング
16.1.2 サンプルを使ってランダムサンプリング、リサンプリングとパーミュテーション
16.1.3 ランダムウォーク
16.2 主要な部分のみを使う
16.2.1 近似する
16.3 意義の大きい方から選ぶ、小さい方から捨てる
第17章 たくさんの検定
17.1 多重検定
17.1.1 独立な検定の繰り返し
17.1.2 多重検定時のp 値の期待値
17.1.3 一番小さいp 値の補正
17.1.4 非独立な検定の繰り返し
17.1.5 モンテカルロ・パーミュテーションによる多重検定補正
17.1.6 非独立な検定を繰り返したときの最も小さいp 値
17.2 p 値が均一に分布しないとき
17.2.1 p 値が小さめに出るとき――ジェノミックコントロール法
17.2.2 対立仮説が成り立つとき――非心カイ自乗分布
17.2.3 検定のパワー
17.3 たくさんの結果の分布を活用する
17.3.1 主成分分析を使って補正する
17.3.2 帰無仮説が必ずしも棄却されるべきではないとき
17.4 複数の結果を合わせる――メタアナリシス
17.4.1 相互に独立な検定を合わせる
17.4.2 2 表を単純に足し合わせる
17.4.3 メタアナリシス
付 録
付録A R
A.1 R のインストールと起動と終了
A.2 R のパッケージを使う
A.3 本書のR のソースを利用する
A.3.1 本書で用いたR の関数
A.4 R のヘルプを出す関数を使ってみる
A.4.1 R のソースを確認する
A.5 確率分布関数、疑似乱数列の発生
付録B 数式記号
索 引
続きを見る