« 2020年4月 | トップページ | 2020年6月 »

2020年5月31日 (日)

CNNへの道のり(14)

 コグニトロンは、これら2つの特性を持たせた規則に従って、何層にも重なったニューラルネットワークを構成していく。ただし、コグニトロンの入力は画像そのものではなく、特徴抽出が行われた画像が入力されるという前提を置いた。

 コグニトロンでは、層を重ねていくときの結合可能領域の広がりをどのようにとるかが重要となる。結合のやり方としては、各層とも同じ大きさにする方法、奥の層になるほど広げる方法、各層の出力が枝分かれし、枝の行先を確率的にばらつかせる方法が考えられる。

 各層とも同じ大きさにすると、入力層の情報は最終層全面には広がらない。奥の層になるほど広げると、最終層全面に入力情報を反映させることができる。しかし、最終層のどの細胞をとっても同じような結合可能性を持ってしまう。確率的にばらつかせる方法では、出発点から離れるものは結合密度を小さくするようにすれば、最終層全面で入力情報を反映しつつ、同じ結合可能性を持つことにはならない。よって、コグニトロンの各層の結合方式は、各層の出力が枝分かれし行先が確率的にばらつくようになった。

 こうして、コグニトロンは多少のノイズも吸収して認識することができる、自己組織化能力をもつ多層ニューラルネットが提案された。自己組織化というのは、入力パターンの呈示を繰り返すだけの教師なし学習である。

 

| | コメント (0)

2020年5月30日 (土)

CNNへの道のり(13)

 福島先生が発表されたネオコグニトロンは、先に自身で研究されたコグニトロンの改良版である。まずは、コグニトロンとはどういうニューラルネットワークだったのか見てみよう。

 コグニトロンが発表されたのは1974年である。すでにブームが去っていたパーセプトロンブームは細胞間の結合規則に教師が必要なことに対し、コグニトロンは教師なしで自己組織化することが異なっていた。

 コグニトロンが参考にした脳の機能は、生まれたときから縦縞しか見せずに育てたネコの視覚細胞には、縦線に反応するものしか存在しないという事実だった。正常なネコの視覚細胞には縦線だけでなく横線や斜線にも反応することから、学習段階でよく出現するパターンだけを抽出する機能が形成され、めったに出現しないパターンの抽出機能は形成されないと考えられる。そこで、福島先生は細胞間の結合の重みを決めるシナプスの結合規則を、次の2つの法則があると仮定した。

(i)神経細胞xからyへのシナプス結合は、細胞xが発火した場合に強化される
(ii)ただし、細胞yの近傍にyよりも強く発火している他の細胞y'がある場合には、xからyへのシナプス結合の強化は行われない

 シナプス結合は必ずしもすべての細胞間で行われるわけではなく、ある特定の細胞とだけ行われると考えたのである。この時点で、すでにパーセプトロンからは離れており、この仮説が正しければ、より実際の神経細胞をモデル化しているといえる。

 

| | コメント (0)

2020年5月29日 (金)

CNNへの道のり(12)

 カナダ出身のデイヴィッド・ハンター・ヒューベルは、1958年からアメリカのジョンズ・ホプキンス大学で大脳皮質の研究を始めた。同年、アメリカで研究するためにスウェーデンから来たトルステン・ニルス・ウィーセルとヒューベルがジョンズ・ホプキンス大学で出会ったのである。

 ヒューベルはジョンズ・ホプキンス大学に来る前は、アメリカ軍に徴兵され、軍の病院で微小金属電極を開発していた。彼らは、その微小電極でネコの脳の働きを調べたのである。

 彼らの実験は、ネコの視覚野に微小電極を刺した状態で、ネコに明暗のパターンを見せ神経の状況を調べるというものだった。この実験で彼らの発見したことは、ある方位のパターンで反応していたニューロンが、別の角度のパターンでは反応しないというものだった。さらに、彼らは、パターンの提示位置や角度に対し、選択的に反応するニューロンどうしが規則的に繋がって視覚野を形成することも発見した。これらの発見から、彼らはネコの大脳皮質の一次視覚野が、3種類の細胞が階層構造をなして繋がり結合することによって、単純な刺激が複雑なイメージになる仕組みを提唱したのである。

 ヒューベルトとウィーセルは、その後、ネコの片目を閉じさせてパターンを見せると、閉じていない方の片目が視覚情報をカバーして視覚野に情報を送ることも発見した。これら2つの発見により、彼らはノーベル賞を受賞したのである。

 

| | コメント (0)

2020年5月28日 (木)

CNNへの道のり(11)

 福島先生は、1965年からNHK放送科学基礎研究所で研究を始められたそうだ。研究所では、映像や音を扱う分野のため、人間がどのようにそれらを認識しているかの脳のメカニズムが関心事だった。

 研究所には、神経生理学、心理学、神経回路モデルの3分野から研究者が集まっていた。そして、福島先生の担当が神経回路モデルだったそうだ。

 福島先生が目指したものは、脳の仕組みを単純化したモデルを考え、脳と同じ反応を示す回路の提案だった。そのため、まず、脳の仕組みを調査された。当時、脳の仕組みが完全に解明されている状況ではなかった。その状況の中で、先生が注目したのが、デイヴィッド・ヒューベルとトルステン・ウィーセルという神経学者の研究だった。彼らは、ネコの大脳皮質の一次視覚野で、3種類の細胞が階層構造をなして繋がり結合し、物体を認識しているという仮説をたてていたのである。

 ヒューベルトとウィーセルは、その後、1981年にノーベル生理学・医学賞を受賞している。先生が着目したヒューベルトウィーセルの仮説は重要なものだったのである。

 

| | コメント (0)

2020年5月27日 (水)

CNNへの道のり(10)

 本来なら、甘利先生の確率的勾配法によって多層パーセプトロンの学習がうまく働くようになるので、さらにパーセプトロンの研究が進むはずだった。ところが、ブームが去る頃の学会では、確率的勾配降下法の素晴らしい点は評価されなかったのである。

 この手法が評価されるのは、1986年、アメリカの認知心理学者デビッド・ラメルハートがバックプロパゲーションという手法を発表したときである。バックプロパゲーションにより、多層パーセプトロンがニューラルネットワークとしてブームになった。

 これは、第二次パーセプトロンブームといえる。そして、ラメルハートが提案したバックプロパゲーションの学習方法は、甘利先生が提案された確率的勾配降下法そのものだったのである。バックプロパゲーションが先に注目されたため、ニューラルネットの学習方法名称としては、バックプロパゲーションが定着してしまった。

 この第二次ブームの前に、ディープラーニングに繋がる重要な提案があった。NHK放送科学基礎研究所に勤務していた福島先生が1979年に発表したネオコグニトロンである。

 

| | コメント (0)

2020年5月26日 (火)

CNNへの道のり(9)

 第一次パーセプトロンのブーム時代、実は多層パーセプトロンの学習アルゴリズムに成功した研究者がいた。その研究者は日本人で、現東京大学名誉教授の甘利俊一先生である。

 1967年、甘利先生は多層パーセプトロンでうまく学習できる確率的勾配法を考案された。そして、英語で論文化し、IEEE(米国電気電子学会)に投稿された。

 勾配降下法は、最急降下方向に向かって重みを更新していく手法だった。

wi = wi - ρ(∂E/∂w)

単純パーセプトロンではこれでうまく働くものの、多層パーセプトロンになると、損失関数Eが単純な最小値を一つ持つ関数ではなく、複数の局所最小値を持つ形と複雑になる。そのため、勾配降下法では、本来の解ではなく局所最小値で収束してしまう欠点があった。そこで、損失関数Eが、

E = ΣiEi

と和の形に書き変え、∂E/∂wの代わりに∂Ei/∂wを使う確率的勾配法が提案された。確率的という名称は、iは各反復で変え、全データを確率的にソートし、順番にEiを使って n 回反復するという操作から来ている。そして、この操作を行えば、局所最小値に留まらず、本来の最小値で収束する可能性が飛躍的に向上したのである。

 

| | コメント (0)

2020年5月25日 (月)

CNNへの道のり(8)

 パーセプトロンの第一次ブームは去った。しかし、パーセプトロンが線形分離の問題しか解けないということではなかった。

 パーセプトロンの原形となったマカロックとピッツの形式ニューロンから、ニューロンモデルを多層にすれば非線形分離も可能なことがわかっていた。パーセプトロンにしても、複数の単純パーセプトロンを繋げばよいことは衆知のことだったのである。

 さらに、ミンスキー教授が「パーセプトロン」を出版した同年、イギリスの神経科学を研究者デビッド・マーが、小脳はパーセプトロンだという理論を発表していた。ちなみに、デビッド・マーは計算論的視覚論をまとめ、コンピューター・ビジョンの世界に多大な影響を与えた研究者である。残念ながら、1980年に35歳という若さで白血病のため没した。1982年、彼の理論が「ビジョン」という著書で発表され、大ヒットとなった。当時、コンピューター・ビジョンに携わる者は、必ず一度は「ビジョン」を熟読すべきであると言われていた。某大学で画像処理を研究しているときは、指導した学生全員に読んでもらっていた。なお、後に小脳のパーセプトロン説は実証されている。

 多層パーセプトロンが非線形分離も扱えることがわかっていて、単純パーセプトロンの線形分離しか扱えないことが指摘されただけでブームが去った理由は学習アルゴリズムにあった。勾配降下法は単純パーセプトロンではうまく働くものの、多層パーセプトロンでは収束せず、うまく働く多層パーセプトロンでの学習アルゴリズムが見いだせなかったからである。

 

| | コメント (0)

2020年5月24日 (日)

CNNへの道のり(7)

 脳にも通じる神経細胞をモデル化したとされたパーセプトロンは、1960年代に大ブームとなった。学習がうまくいけば、どんな計算も自動的に可能となる万能アルゴリズムともてやはされた。

 1969年、MITで人工知能を研究していたマービン・ミンスキー教授が「パーセプトロン」という書籍を出版した。その書籍はパーセプトロンを徹底的に限界を解説し、入力層、中間層、出力層で構成される単純パーセプトロンは線形分離できる問題しか解けないことを明確に説いたのだった。

 線形分離とは、2種類のパターンのクラスタを、2次元なら直線で、3次元なら平面で、n次元なら(n-1)次元の超平面で分離できることである。例えば、AND回路は2入力x1軸とx2軸の平面で考えると、

x2 = -x1 + 1.6

なる直線で、ANDの結果の0と1を分離することができる。すなわち、AND回路は線形分離可能なのである。ところが、XOR回路になると、一本の直線で分離することはできない線形非分離になる。そのため、パーセプトロンでXOR回路を実現するときは、3層の単純パーセプトロンを二つカスケードに繋いだのである。ミンスキー教授の解説により、単純パーセプトロンは、自動的に学習してどんな問題も解くことができる人工知能の基本となりうるものではなく、単に直線で分離できる問題の一解法に過ぎないという認識に変わった。そして、パーセプトロンのブームは去った。

 奇しくも、パーセプトロンを発表したローゼンブラットとミンスキー教授は高校時代の同級生だった。ミンスキー教授がパーセプトロンのブームに強烈な冷水をかぶせたのは、パーセプトロンに流れていた研究予算を自身が考えていたフレーム理論に向けるためだったのだろうか。

 

| | コメント (0)

2020年5月23日 (土)

CNNへの道のり(6)

 パーセプトロンの学習アルゴリズムの代表的なものは、所望の出力と現在の出力の差が減る方向に重みを更新する勾配降下法である。アルゴリズムを規定するため、出力の差を次の関数Eで定義する。

E = (1/2)(y-yi)^2

ここで、yは所望の出力、yiはi回目の出力である。これら出力の差を2乗し、係数1/2をかける。この係数の意味は、Eを微分したとき、係数が1になるように設定した基本テクニックである。

 このとき、Eの重みwによる偏微分∂E/∂wの値を考える。Eは0になればよいので、もしEが増加関数ならwはマイナスの方向に、Eが減少関数ならwはプラスの方向に動けばよい。よって、偏微分値を使った次の更新でよくなる。

wi = wi - ∂E/∂w

ここで、wiはi回目の重みベクトルである。これでよさそうなものの、∂E/∂wが大き過ぎるとうまくいかない場合があるので、学習率と称する小さな係数ρを導入し、次のようにする。

wi = wi - ρ(∂E/∂w)

ρは1より小さい正の実数で、小さいほど精度は向上するが計算時間がかかるので、適当な値を選定する。

 

| | コメント (0)

2020年5月22日 (金)

CNNへの道のり(5)

 パーセプトロンは、目的に応じた演算と結果になるように重みと閾値を選択すればよいというアルゴリズムの提案だった。そして、神経細胞を見習ったということから、これら重みと閾値は学習によって自動調整するのである。

 ここで、閾値もw0と重みの一種とみなし、重みベクトルwを

w = ( w0, w1, w2, ・・・, wn )^T (^Tは転置を表す)

と定義する。すると、重みベクトルを所望の出力が出るように更新していくことが、パーセプトロンの学習である。

 具体的な学習方法は、まず、x1、x2、・・・の入力値に対し、w0、w1、・・・にランダムな値を設定する。そして、その出力と所望の出力を教師データとして、所望の出力が出るような重みに少し寄せていく。この手順を繰り返していく。この、所望の出力に近づける手順が、パーセプトロンの学習アルゴリズムとなる。

 

| | コメント (0)

2020年5月21日 (木)

CNNへの道のり(4)

 パーセプトロンの計算例として、論理回路を考えてみよう。2入力 x1、x2 に閾値θが入力され、出力 y は 1 か 0 である。

y = w1x1 + w2x2 + θ

 ここで、w1、w2 を 0.5、θを -0.8 とする。すると、x1、x2 の組み合わせ(0,0),(0,1),(1,0),(1,1) で (1,1) のときのみ出力 y 0 以上となり、y が 0 以上で 1、y が 0 未満で0を出力するとすると、このときの出力 y が 1 になり、AND回路が実現できることがわかる。

 OR回路の場合は、重みはそのままでθを -0.4 とすると、出力 y が 1 になるのは、(0,1),(1,0),(1,1) のときになり、OR回路が実現できる。NAND回路であれば、w1、w2を -0.5、θを 0.8 とすると、NAND回路が実現できることがわかる。

 XOR回路のときは、3層では成立しないものの、NAND回路の出力をy1、OR回路の出力をy2とすると、NAND回路とOR回路の出力をAND回路の入力とする。すると、

y = 0.5y1 + 0.5y2 -0.8

となり、x1、x2 の値 (0,0),(0,1),(1,0),(1,1) で出力 y はそれぞれ 0、1、1、0 となり、XOR回路が実現できる。

 

| | コメント (0)

2020年5月20日 (水)

CNNへの道のり(3)

 1957年、コーネル大学に勤務していた心理学者フランク・ローゼンブラットがパーセプトロンを考えた。論文にして発表したのは、翌年の1958年である。

 ローゼンブラットはマカロックとピッツの形式ニューロンを基にして、より神経モデルに近いと考えた構成にしたのである。すなわち、S層(感覚層)、A層(連合層)、R層(反応層)の3層で構成したのである。

 S層は入力層であり、S層に入る外部信号と中間層になるA層はランダムに接続される。そして、出力層となるR層で、A層の反応結果に重みを付けて多数決を行う。S層に入った信号xi(i=1,2,・・・)が、A層で重みwi(i=1,2,・・・)がかかり、その総和

Σwi・xi

がR層に入力される。R層では、この総和がある閾値θ以上のとき 1、θ未満のときに 0 を出力する。出力をyとして、閾値θがw0として入力されるとすると、

y = w1x1 + w2x2 + ・・・ + w0

と表現できる。このように表現すると、奇しくも1958年、イギリスでデイヴィッド・コックスが発表したロジスティック回帰と等価であることがわかる。

 

| | コメント (0)

2020年5月19日 (火)

CNNへの道のり(2)

 マカロックとピッツの形式ニューロンは、神経細胞を簡単にモデル化したものである。xi(i=1,2,・・・)が細胞への入力で、
入力値には重みwi(i=1,2,・・・)がかかり、全ての入力×重みが加算され、閾値と比較して、0か1を出力するというものである。

 例として示した論理演算のANDでは、重みを1として、2入力x1,x2へは0か1が入力され、閾値を1.5としている。2入力が0なら、x1 + x2 − 1.5は-1.5となるため、閾値を0から0.5の間の数値にすれば出力は0、2入力が0と1なら、x1 + x2 − 1.5は-0.5となるため出力は0、2入力とも1ならx1 + x2 − 1.5は0.5となるため出力は1となって、AND演算が実現できている。

 ORも同様である。単純な計算しかできないように見えるが、層を深くするともう少し複雑な計算もできるようになる。例えば、論理演算の排他的論理和XORなら、

H( x1 + x2 - 2H( x1 + x2 − 1.5 ) − 0.5 )

としてやればよい。すると、2入力がどちらも0か1なら出力は0、2入力のどちらかが0でどちらかが1のときのみ出力が1を実現することができる。

 

| | コメント (0)

2020年5月18日 (月)

CNNへの道のり(1)

 当研究室でもディープラーニングの中のコンボリューション・ニューラル・ネットワーク(CNN)が重要な研究となっているため、今日からしばらくの間CNNへの道のりとして解説する。過去にもディープラーニングを解説したが、今回はより古くから最新までをトレースしようと思う。

 始まりは、1943年だった。マサチューセッツ工科大学に勤務していた神経生理学者で外科医のウォーレン・マカロックと論理学者で数学者のウォルター・ピッツの共著で発表した形式ニューロンだった。

 形式ニューロンは、生物の神経細胞をモデル化したものである。単純なものは入力層と出力層の2層で、複雑になると中間層を組み込んだ3層以上として、ニューロンのモデルを次の様に提案した。

H ( ∑wi・xi − h )
 
ここで、wは重み、xは0または1の入力信号、hはしきい値、Hはヘヴィサイドの階段関数で出力が0か1になるものである。

 例としては、論理演算のANDなら、

H (x1 + x2 − 1.5 )

とモデル化する。x1とx2が入力なので、両方が1でないとH()は0以上にならず、両方が1のときのみ1が出力されることがわかる。同様に、ORであれば、

H (x1 + x2 − 0.5 )

とかける。こちらはどちらかが1であれば、出力が1になることがわかる。

 

| | コメント (0)

2020年5月17日 (日)

統計分析の基本(17)

 実験データには、外れ値が付きものである。実験担当者は、データ整理の段階で外れ値に気付き、取り扱いに悩む。

 外れ値が単なる計測ミスや転記ミスの場合は、再実験で出現しないので問題ない。再実験で、やはり外れ値に見えるものが出現するときどうすればよいだろうか。

 やってはいけないことは、主観で外れ値を取り除くことである。外れ値があると、分類結果が変わったり、有意差が変わったりすることもあり、「外れ値」というくらいなので外してしまいたいと思うのが常である。外したいときは、そのデータを外してもよいか棄却検定をやってもよい。また、パラメトリック検定とノンパラメトリック検定の両方を実施するのもよい。一般的に、ノンパラメトリック検定の方が厳しいため、それで有意差が変わらなければよいだろう。それでもだめなら、外れ値が出ないようなパラメータを考えることである。

 今回の解説で統計分析の基本は終了する。明日からは新シリーズを展開する。

 

| | コメント (0)

2020年5月16日 (土)

統計分析の基本(16)

 データが性別のような名義尺度の場合の有意差には、χ^2(カイ二乗)検定を用いる。この場合は、当然ながら対応のない群(条件)同士の比較になる。

 まず、2群のクロス集計を行う。クロス集計とは、2群と比較したい項目を縦横軸として2次元化した集計方法である。

 例えば、ある車載システムを好むかどうかの評価を男女で差があるかを調べる実験では、男女で差がないという帰無仮説をたてる。このときの実験値は、男女それぞれの好き嫌いの集計結果数である。ここで、理論値を求める。この場合の理論値は、好きの人数を参加男女数の比率でかけたものが男女それぞれの理論値である。そして、実験値と理論値の差を二乗し、その値を実験値で割った値の合計(χ^2値)がχ^2分布に従っているかどうかを調べる。

 基本的には、χ^2値が大きい程帰無仮説が成り立たないことを示す。間隔尺度に合うように設問を変更してt検定で調べることが可能な場合もあるが、差が出にくいときにはχ^2検定が有効である。

 

| | コメント (0)

2020年5月15日 (金)

統計分析の基本(15)

 3群(条件)以上で検定を行うことを、多重検定や多重比較という。多重比較では、2群(条件)での比較に比べて注意すべき点がいくつかある。

 3群で考えると、まず、2群の比較が1回なことに対し、3群では2群の比較が3回となる。つまり、5%の有意水準で比較しても、有意にならない%が(1-0.05)×(1-0.05)×(1-0.05)=0.86と、有意水準が14%にも上昇してしまうのである。

 このように、多重比較では2群の比較より有意差の出る確率が高くなってしまうため、有意水準を狭める必要がある。例えば、有意水準を5%にしたければ、2群の比較で有意水準を5%を3で割った1.7%に設定する。一般的に、多重検定はt検定よりも厳しくなるといえる。2群の検定が最も有意差が出やすい。また、2群では有意差があったのに、新たな群を入れて3群にすると有意差がなくなることもある。さらに、実験を繰り返すと有意差が出やすくなる傾向があるため、使用する実験データによって解析結果が異なってしまうこともある。

 以上のことから、実験としては比較項目を絞り、2群(条件)比較を基本としたいところだ。理論的には何群に増えても比較はできるものの、増やしても3群までであろう。

 

| | コメント (0)

2020年5月14日 (木)

統計分析の基本(14)

 これまで述べてきたt検定やマン・ホイットニー・ウィルコクソン検定は、すべて2群(条件)間で平均に差があるかどうかというものである。3群(条件)以上ではどうすればよいだろうか。

 その場合は、パラメトリックに扱えるなら分散分析を用いる。ノンパラメトリックでの扱いなら、フリードマン検定かクラスカル・ウォリス検定を用いる。

 分散分析は、ANOVA(ANalysis Of VAriance)と呼ばれることもある。手法のイメージとしては、対象となる群(条件)内のばらつき(分散)と群(条件)間のばらつき(分散)を比較し、群間/郡内が1を大きく超えていれば、群間に差があると考えるものである。このとき、t検定同様、群間の実験を同じ被験者でやったのか、違う被験者でやったのかで対応のあるなしが決まる。そして、対応のある分散分析が行いないノンパラメトリック手法としてフリードマン検定、対応のないときがクラスカル・ウォリス検定を用いる。

 いうまでもなく、分散分析が対象とする尺度は間隔尺度と比率尺度である。そして、フリードマン検定やクラスカル・ウォリス検定では、順序尺度となる。

 

| | コメント (0)

2020年5月13日 (水)

統計分析の基本(13)

 これまで説明してきた検定では、検定結果が真実と違う場合がある。いわゆる誤りである。

 誤り(過誤)の種類には2種類ある。その2種類とは、第一種過誤(Type I error)と第二種過誤(Type II error)である。

 第一種過誤は、偽陽性(False positive)のことで、α過誤(α error)やあわてものの誤りとも呼ばれる。偽陽性ということからわかるように、帰無仮説が真であるのに棄却してしまう過誤である。すなわち、2つが同じなのに、違うという偽となる過誤ということである。第二種過誤は、偽陰性(False negative)のことで、β過誤(β error)やぼんやりものの誤りとも呼ぶ。対立仮説が真であるのに帰無仮説を採用してしまう過誤である。すなわち、2つが違うのに、同じという真が抜け落ちる過誤ということになる。

 センサの検出誤差については、検出対象を逃さないようにしようとすると検出しなくても良いものまで検出するため第一種過誤が増えることになる。不要な検出をなくそうとすると、本来検出しないといけないものを逃すようになるため第二種過誤が増えることになる。

 

| | コメント (0)

2020年5月12日 (火)

統計分析の基本(12)

 対応のないt検定が使えない場合のマン・ホイットニー検定を解説する。マン・ホイットニー検定では、統計量をUとするためマン・ホイットニーのU検定とも呼ばれる。

 また、ウィルコクソン検定と同じく順位を変数にとるため実質的に同じ方法である。そのため、まとめてマン・ホイットニー・ウィルコクソン検定とも呼ばれる。

 正規分布でなくてもよいため、標本数が少ない場合にも使える。そして、正規分布がわかっているデータに対しても(本来t検定を行うべきデータ)に対しても約95%の精度で同等の結果を出すといわれているため、データが少ないときは正規性を検討せずマン・ホイットニー検定を行う場合もある。もちろん、アンケート結果のような順序尺度データではマン・ホイットニー検定しか使えない。

 実験データには外れ値(outlier)と呼ばれる他から大きく離れた値が出現するときがある。マン・ホイットニー検定は順位を変数とするため、外れ値にも強い手法といえる。

 

| | コメント (0)

2020年5月11日 (月)

統計分析の基本(11)

 スチューデントのt検定もウェルチのt検定も、正規分布であることが前提である。正規分布が保証できないときは、ノンパラメトリック手法を用いる。

 対応のあるt検定が使えない場合(同一グループによる2群対照実験)、ウィルコクソン検定を用いる。対応のないt検定が使えない場合、マン・ホイットニー検定を用いる。

 ウィルコクソン検定は、正式にはウィルコクソンの符号付順位検定という。順位検定と名付けられているように、この検定は順序尺度のデータに用いることができる。順序尺度ではt検定が行うことができないので、一般的には正規分布の仮定が保証できないときよりも、アンケート結果等の順序尺度によく使っている。使用例としては、条件を変えて2回アンケートを行い、2条件間に有意差があるかどうかを検定する場合である。アンケート結果は正規分布が保証できないこともあり、かつ順序尺度のため、ウィルコクソン検定が好まれる。

 順序尺度を使うため、2回のデータの順位を使う。順位を使うため、実はロバスト(頑強)であることが知られている。

 

| | コメント (0)

2020年5月10日 (日)

統計分析の基本(10)

 t分布には3種類あることがわかったと思う。実際の適用場面を考えてみよう。

 適用例は、ドライビングシミュレータ上で車間距離警報が吹鳴してから、何秒後に回避操作を行うかの実験とする。比較する2条件は、通常運転時とナビ操作時とする。

 実験のやり方はいろいろ考えられる。まず、n=1で何回も実験してデータを集めることに意味はあるだろうか。nは増やした方がよさそうなので、複数人で実験するとしよう。このとき、全員に通常運転とナビ操作時を実験(通常とナビ操作の順序はランダム)と、通常運転グループとナビ操作グループに分けて実験することが考えられる。すると、前者が対応のあるt検定ということになり、後者の場合にF検定を行う。そして、F分布に従っていれば対応がないt検定、従っていなければウェルチのt検定を行うことになる。

 もちろん、これらのデータの分布をグラフ化したとき、ある値に集中した釣鐘型になっているという前提である。そして、この実験の結論は、通常運転時とナビ操作時での車間距離警報の反応には有意差があるかないかということになる。

 

| | コメント (0)

2020年5月 9日 (土)

統計分析の基本(9)

 t検定はt分布に従うかどうかという検定である。このt分布は、1908年にイギリスのギネスピールに勤めていたウィリアム・シーリー・ゴセットが発表した。

 当時、ギネスビールでは秘密保持のため、従業員の論文発表を禁止していた。そこで、ゴセットはスチューデント(Student)というペンネームで論文を発表した。

 ゴセットの論文の重要性を見出したのは、実験計画法を考案したことで有名なイギリスのロナルド・エイルマー・フィッシャーだった。フィッシャーはゴセットが発表した統計量にtという記号を与え、t分布を回帰分析に応用した。こうして有名になったt分布は Studentのt分布と呼ばれ、検定もStudentのt検定と呼ばれるようになった。一方、F分布に従わない場合に用いるウェルチの検定は、ウェルチのt検定とも呼ばれる。

 ウェルチのt検定は、イギリスの統計学者バーナード・ルイス・ウェルチがt検定を、2つの母集団が非等分散の場合に使えるよう改良したものである。以上、t検定は、スチューデントのt検定(対応がある場合とない場合)、ウェルチのt検定があることを理解しておこう。

 

| | コメント (0)

2020年5月 8日 (金)

統計分析の基本(8)

 正規分布が確認できたところで、2群(条件)の違いをt検定で調べよう。t検定とは、2群(条件)の母集団の平均に違いがあるかどうかを調べる検定である。

 重要なことは、実験で得られたサンプル間の違いではなく、あくまでもそのサンプルが抽出された母集団を調べているということである。実験に参加した協力者は、条件を満たす母集団から無作為に選ばれたサンプルなのである。

 t検定の帰無仮説は、2群(条件)の母集団の平均の差が0になることである。ここで、実験参加者が2群(条件)間で同じか違うかに注意しよう。同じ実験参加者で条件を分けた場合は「対応があるt件検定」、違う実験参加者で条件を分けた場合は「対応のないt検定」と呼ばれる。t検定では検定する2つの母集団の分散が同じでならなければならないため、対応のないt検定では2つの母集団の分散が同じかどうかをF検定で調べなければならない。F検定は2つの母集団の分散の比が、F分布に従うかどうかを検定する。

 F分布に従う場合はt検定を行える。F分布に従わない場合は、ウェルチの検定を行う。

 

| | コメント (0)

2020年5月 7日 (木)

統計分析の基本(7)

 各種検定の中でt検定が最重要であり、正規分布を前提とする。厳密に正規分布かどうかが気になるときは、シャピロ・ウィルク検定を行う。

 シャピロ・ウィルク検定では、対象となるデータが正規分布の母集団から取り出されたものかどうかを検定する。統計学者のシャピロとウィルクの共同研究から、このように命名された。

 他にも正規分布の検定手法はあるものの、シャピロ・ウィルク検定が最強といわれており一般的である。この場合の帰無仮説は、データが正規分布に従うということになり、対立仮説は、データが正規分布に従わないということになる。この指標にはp値を用いる。p値は確率(Probability)の実現値の略称で、帰無仮説が正しいという前提において、それ以上に偏った検定統計量が得られる確率を示す。以降、検定にはp値を用いる。

 分布状況を確認して釣鐘状になっていればシャピロ・ウィルク検定はやらなくてもよい。確認できない場合に、確率的に仮定してよいかどうかの判断材料にするのである。

 

| | コメント (0)

2020年5月 6日 (水)

統計分析の基本(6)

 検定で群や条件による違いを調べる分析手法は非常に多い。大別すると、パラメトリック検定とノンパラメトリック検定がある。

 パラメトリック検定とは、母集団が正規分布とわかっている場合に平均値や標準偏差値といったパラメータが使える場合に用いる検定である。そして、ノンパラメトリック検定とは、これらのパラメータが使えない場合に用いる検定となる。

 分析手法をどのように選定するかは、間隔尺度か比例尺度で2群(条件)間の分布や計測数が妥当で、2つの母集団の分散が等しい(等分散)と考えられるならt検定(パラメトリック)を用いる。t検定は最重要な検定手法であり、十分理解しておかなければならない。等分散でなければ、ウェルチの検定を用いる。分布や計測数が不十分なら、ノンパラメトリック検定のウィルコクソン検定やマン・ホイットニー検定を用いる。ただし、ノンパラメトリック検定は有意差が出にくいことに注意が必要である。また、群(条件)が多いときで間隔尺度から比例尺度で分布や計測数が妥当なら分散分析(パラメトリック)、そうでないときはノンパラメトリック検定のフリードマン検定やクラスカル・ウォリス検定を用いる。

 データが名義尺度の場合は、χ^2(カイ二乗)検定を用いる。このとき、名義尺度を数値計算として使えるよう、対応がない群同士を掛け合わせてクロス集計を行う。

 

| | コメント (0)

2020年5月 5日 (火)

統計分析の基本(5)

 代表的なDS実験例として、ある種の仕分けされたグループ(群)や条件下で複数の実験協力者が参加し実験値を収集する。そして、群や条件間でどのような違いがあるかを調べる。

 これは、ある群か条件間での複数の実験参加者のデータ分布が異なり方を調べることになる。分布はピークを持つ中心値とばらつきで表現できるという仮定による。

 今、2つの群または条件によるデータ分布があるとする。これら2つの分布が違うことをどのように示せばよいだろうか。一般的に違うことを証明することは難しく、同じであることを証明する方が容易である。したがって、背理法的に、同じであることを示せなければ違うと考える。そして、同じである可能性がどれくらいかという確率を導入し、その確率が低ければ同じという可能性を否定して違うと考える。つまり、同じを否定あるいは棄却することが帰無仮説となる。同じ確率が何%なら棄却するかという基準が、有意水準である。

 有意水準は統計的に有意とか、有意差があるという場合もある。これが検定の基本的な考え方である。

 

| | コメント (0)

2020年5月 4日 (月)

統計分析の基本(4)

 分布状況が確認できた間隔尺度や比率尺度で、正規分布を仮定できそうなら、まず、平均値を取る。この場合、平均値を対象集団の代表値と考えてよい。

 さらに、ばらつきの程度をみるためとして、標準偏差を取る。標準偏差が大きければ、ばらつきも大きいと考えてよい。

 標準偏差がわかると、ある測定値が平均値からどの程度離れているかが計算できる。正規分布が仮定できると、平均値と標準偏差を用いて、パーセンタイルが計算できる。すると、例えばDS実験で前方停止車に何秒前からブレーキを踏むか計測した値から、車間距離警報のタイミングを何パーセンタイルのドライバに有効かというような議論ができる。パーセンタイルは範囲を決めるため、これはどの範囲のブレーキタイミングのドライバに有効かという議論に繋がるのである。

 分布に二つ以上の山がある場合は多峰性の分布と呼び、計測値全体で正規分布が成立しないとはみなさず、複数の集団特性が含まれていると考えるとよい場合がある。それぞれの山を一つの分布とみなして、それぞれを重ね合わせると辻褄が合う場合はその可能性が高いといえる。

 

| | コメント (0)

2020年5月 3日 (日)

統計分析の基本(3)

 尺度の種類を決めれば、次はどのような分布になるかを確認する。データはばらつくため、ある範囲に分布するはずである。

 個々の計測値の個数たる度数が、測定範囲にどのように分布しているかという度数分布をグラフ化してヒストグラムで表現する。そして、そのヒストグラムの分布形状把握がデータの特徴把握の第一歩となる。

 分布形状が左右対称か非対象か、ある値をピークに両側で減衰しているか、ピークが2つ以上あるか等を確認しよう。ある値をピークに左右対称で釣鐘型をしていれば、正規分布として扱える可能性が大である。統計分析では、正規分布が前提となり、t検定や分散分析は正規分布が前提で成り立つ。その事象の起こりうる範囲が、ある平均値から均等な確率でばらつくのであれば理論的に正規分布となる。したがって、データの種類が正規分布として扱えるかどうかはある程度予測でき、集めるデータが正規分布になるようなものに工夫しておきたい。

 自然現象は正規分布に従うものと考えてよい。正規分布に従わないものは、人間の意志によりバイアスがかかったものの場合が多く、人間工学ではよく登場することに注意しよう。

 

| | コメント (0)

2020年5月 2日 (土)

統計分析の基本(2)

 まずは、実験でどのような数値が得られるかを明確にする。すなわち、数値を割り当てる際の尺度がどんな種類かを明確にするということである。

 尺度には、名義尺度、順序尺度、間隔尺度、比率尺度(比例尺度)の4種類がある。これらの意味を理解して、実験で得られる数値がどの尺度に該当するかを明確にしておく。

 名義尺度とは、単に区別に用いる名前やIDのことであり、等しいかどうかにのみ意味がある。名義尺度では大小比較には意味がなく、最頻値には意味がある。順序尺度とは、順番のことであり、大小比較には意味があるものの、差や比には意味がない。間隔尺度とは、温度のように大小比較にも意味がある尺度である。しかし、比には意味がない。そして、比率尺度とは、長さや質量にように、比にも意味がある尺度である。比率尺度は、最頻値や平均値など、全ての統計手法が適用可能となる。

 名義尺度や順序尺度では、平均値を取ることに意味はない。つまり、実験計画段階で統計分析手法が決まるといえるのである。

 

| | コメント (0)

2020年5月 1日 (金)

統計分析の基本(1)

 今日から当面の間、DSでの実験データ解析に必要な統計的分析法の話題を続ける。先月やった人間工学関係の実験には統計的分析が不可欠である。

 まず、人を対象とした計測や実験結果では、いわゆる「ばらつき」が付き物である。それは、実験統制の不十分さだけでなく、意図していなかった個人差によるものが多い。

 個人間のばらつきを吸収して人として傾向を見るためには、統計的な見地が必要になる。そもそも、統計とは、集団の属性を数量的に把握することであり、これを学問にしたものが統計学である。統計学は確率理論を伴って、慣れないものが多いため敬遠しがちである。そこを我慢して詳細理論を勉強することも重要であるが、まずは直感的にどのように考えれば良いかを身に付けよう。そのレベルであれば、平均と分散がわかっていればよい。

 そこさえわかっていれば、具体的な手法はエクセルや統計アプリに任せればよい。逆に、考え方がわかっていないと、難しい理論を誤用してしまうのである。

 

| | コメント (0)

« 2020年4月 | トップページ | 2020年6月 »