因子分析とはなにか? 結果の見方についてわかりやすく解説します!

ビジネススキル
新卒ちゃん
新卒ちゃん

因子はどこにあるでしょ〜か。

バリキャリ先輩
バリキャリ先輩

因子分析は、なにが因子としてはたらいているかをさぐる手法よ。

ただ、「どこにあるか」というのとはちょっと違うかもね。

新卒ちゃん
新卒ちゃん

正解はインシー(in Sea)で「海」でした〜!

バリキャリ先輩
バリキャリ先輩

なによそれ……。

……正しくは「in the Sea」じゃないの。

こんにちは、Yunです!

データ分析について調べるなかで「因子分析ってなに?」「因子分析のやり方は?」と疑問に感じていませんか?

そんな悩みをお持ちの方に、こちらの記事では因子分析の基本や関連用語について解説します!

この記事はこんな人におすすめ!
  • 因子分析とはなにか知りたい人
  • 因子の抽出法や回転について知りたい人
  • 因子分析の具体的なイメージをつかみたい人
記事の内容まとめ
バリキャリ先輩
バリキャリ先輩
  • 因子分析とは目に見えている結果(= 観測変数)から、それらの背後にあって影響をあたえている見えない要素(= 因子)をさぐる行為よ。
  • 因子分析には関連用語がたくさんあるから、それらの違いを理解するのが大切よ。

この記事を読めば、因子分析の具体的なイメージがわかります!

通学不要!コスパ抜群の1日速習講座でスキルアップしよう

因子分析とはなにか

因子分析(Factor Analysis / FA)とは、統計学におけるデータ解析の手法のひとつで、複数の関連したデータに共通する「因子」を見つける分析手法です。

また、因子分析は取得した大量のデータをより管理しやすく、より理解しやすい小さなデータセットに縮小する方法であるとも説明できます。

因子分析は知能の2因子理論を提唱したイギリスのチャールズ・スピアマンが最初におこないました。その後、因子分析は学力テストの結果と関連する能力を特定するために教育心理学の領域で応用が進んでいきました。

たとえば、IQスコアが高い人は学業での成績が高くなる傾向にあります。これは言語理解、視覚処理などの能力が、さまざまな学業領域で必要な能力の因子となっていると推測できます。

因子とはなにか

因子(Factor)とは、すでに観測されたさまざまな事象のすべてに影響を与えていると考えられる要素のことです。

ここで「考えられる」というのは、因子は観測ずみの事象の背後にあると推測されるものであって、直接観測することはできないものだからです。

因子分析とは、このように潜在的に存在する概念(潜在変数)から、観測された相関変数間のばらつきを説明する行為でもあります。

新卒ちゃん
新卒ちゃん

因子は観測変数から推測するんですね!

観測変数と潜在変数

因子は観測変数に対して影響をおよぼしいる、表にあらわれない潜在的な要因であるため、潜在変数(Latent Variable)と呼ばれます。

それに対して、実験や観測をとおして得られたデータのことを観測変数(Observed Variable)といいます。

共通因子

共通因子(Common Factor)とは、複数の観測変数に共通して影響を与えている因子のことです。

ある因子Aが観測変数1・2・3に影響しているとき、因子Aは観測変数1・2・3の共通因子ということになります。

また、共通因子を「同じ応答パターンをもつ観測変数のセット」と説明することもできます。因子は因子負荷量(説明できるデータの変動量)に応じてまとめられます。

共通因子によって説明できる観測変数の分散のことを共通分散(Common Variance)といい、その値のことを共通性(Communality)といいます。

いくつの因子を抽出すればいいのか

因子分析はなるべく少ない因子によって、なるべく多くの観測変数を説明しようとする試みです。

そのため、「因子の数 = 観測変数の数」となってしまうと因子分析をおこなう意味がなくなります。

「因子の数をいくつにすれば十分にデータの相関を説明できるのか」が重要になるわけですが、このときに基準となるのが固有値と呼ばれる値です。

バリキャリ先輩
バリキャリ先輩

因子分析は少数のもの(= 因子)で多数のものを説明しようとする試みでもあるわ。

固有値

固有値(Eigenvalue)とは、いくつの因子を抽出すればいいかの判断基準となる数値です。

1つの観測変数(= 1つの質問項目)につき、1つの固有値が算出されます。あとはどこまでの固有値をもつ観測変数を因子として許容するかという問題になります。

これについては絶対の正解というものはなく、多くの場合以下の「カイザー・ガットマン基準」または「スクリー基準」によって判断されています。

カイザー・ガットマン基準

固有値の最小値を「1」とし、1以上の固有値を抽出する因子として採用する方法です。ガットマン・カイザーの基準とも呼ばれます。

スクリー基準

スクリープロットの例
出典:京都大学

固有値のグラフを見て、固有値の減少がなだらかになる直前までの固有値の数を因子数として採用する方法。スクリー法とも呼ばれます。

因子抽出方法とはなにか

因子分析をおこなう際には、因子抽出方法と回転方法を決定します。

因子抽出方法とは、因子の共通性をさぐる手法のことと言い換えられます。

因子には「共通性 + 独自性 = 1」という関係があるので、共通性がわかれば同時に独自性もわかります。

主成分分析

主成分分析(Principal Component Analysis / PCA)はたくさんの変数を少数の変数に要約する分析手法です。

近年のデータセットは非常に多くのデータが含まれることがよくあります。データセットに多数の変数が含まれていると、多くの場合それらの変数には重複があります。

主成分分析は変数を主成分と呼ばれる少数の変数に「再グループ化」する統計手法です。この再グループ化は、複数の変数に共通する応答に基づいて行われます。

主因子法

主因子法(Principal Axis Factoring / PAF)は各変数の共通性が、ほかの変数に対する重相関係数の2乗に等しいと仮定したうえで、1つめの因子から順に寄与率が最大となるように因子を抽出する方法です。

主因子法によって抽出される因子は、計算条件によっては主成分分析と一致するので主因子法と主成分分析を混同している解説もあります。

共通性の正確性を高めるために、主因子法はふつう共通性が収束するまで反復して計算をおこないます。

最尤法

最尤法(Maximum Likelihood Estimation / MLE)とは、観測ずみのデータをもとに、そのデータが得られる確率が最大となる(= もっともありえる)母数の値を推定する方法です。

データの得られやすさを尤度(Likelihood)と呼びますが、それを最大する推定法なので最尤法といいます。

最尤法は因子分析に限らず、推定統計ではもっともよく使われる推定値の算出手法です。

新卒ちゃん
新卒ちゃん

読み方は「さいゆうほう」です!

\オーダーメイドカリキュラムで現役エンジニアのマンツーマン指導が受けられる!/

回転とはなにか

因子分析の大きな特徴のひとつは、因子の座標軸を回転させられることです。

回転(Rotation)とは、その名の通り座標軸を交点の位置を変えずに動かすことですが、このとき、90度の関係を保ったまま動かす直交回転と、座標軸の交わる角度を変更する斜交回転の2種類があります。

直交回転

上の例は、個人の経済的地位(以下、個人)と近隣の経済的地位(以下、近隣)の関係を調べたグラフです。

元の横軸と縦軸を黒で表し、回転した軸を緑で表しています。

元の軸からは以下のことがわかります。

  • AとBは個人は高いが近隣は低い
  • CとDは個人も近隣も高い

しかし、元の軸のままでは以下のようなデメリットがあります。

  • AとBの比較がしづらい
  • CとDの比較がしづらい
  • 個人の高低が十分な評価軸になっていない

そこで、軸を緑のように直交回転させると、以下のことがわかるようになります。

  • Aは他の項目に比べて近隣が低い
  • Dは他の項目に比べて個人が低い

これらの評価は元の軸でもよく見れば判断できますが、軸を回転させたほうがより視覚的にわかりやすくなっています。

直交回転(Orthogonal Rotation)とは、このように軸を直交に保ったまま回転させる手法のことです。

斜交回転

斜交回転(Oblique Rotation)とは、軸の交わる角度を変更する回転手法です。

これによって以下のことがわかります。

  • AとBはどちらも個人が高いが、Aは近隣が低く、Bは近隣が高い
  • 「C・D」は「A・B」よりも個人が低い
  • CとDではCのほうが個人が高い
  • CとDのどちらも近隣が低いわけではない

軸の交わる角度を変えると、軸どうしの関係が変わります。斜交回転は2つの軸に相関があると仮定した際にもちいる手法であり、反対に直交回転は2つの軸に相関がないと仮定した際に用いる手法です。

因子分析の利用法

探索的因子分析

探索的因子分析(Exploratory Factor Analysis / EFA)とは、なんらかのテーマについて測定できそうな項目によってデータを収集し、その項目間(= 観測変数間)に相関関係をもたらす因子がなにかを推定する行為のことです。

データがどのような構造になっているか、または一連の変数にいくつの次元が含まれているかがまったくわからない場合に使用します。

バリキャリ先輩
バリキャリ先輩

新しい尺度をつくるときなどは、探索的因子分析をおこなうわ。

検証的因子分析

検証的因子分析(Confirmatory Factor Analysis / CFA)とは、その名のとおり先行研究をもとにした仮説が本当に正しいか検証する際におこなう因子分析のことです。

すでにある尺度を用いて収集したデータが先行研究の理論と合致するか検証したり、先行研究に基づいた仮説が実際に収集したデータと合致するかを検証したりします。

探索的因子分析との違いのひとつに、どの変数を因子として含めるかについての判断が厳しいことが挙げられます。

因子分析の結果の見方

因子負荷量

因子負荷量(Factor Loading)とは、変数と因子の関係を表す値です。因子負荷量は多くの場合、変数雨と因子の相関係数と同義のものになります。相関係数と同じく、それぞれの項目がある因子を反映している程度を1から-1の範囲で表します(回転方法によっては相関係数とは異なる値になります)。

この因子負荷量は、因子の影響力の大きさであるともいえます。通常の相関係数と同じく、ふつう0.6以上の因子負荷は因子の変数に対する影響力が大きいと解釈されます。

バリキャリ先輩
バリキャリ先輩

因子負荷量は因子分析においてとっても重要な値よ。

共通性

共通性(Communality)とは、たくさんある観測変数を共通因子によってどれくらい説明できているかを示す値です。

共通性は説明できている割合なので、0〜1で表すか、0〜100%で表します。また、全体から共通性を引いた残りの割合は「独自性(Uniqueness)」といいます。

共通性は、観測変数ごとの因子負荷量の二乗和で計算されます。

因子寄与

因子寄与(Contribution)とは、その因子がすべての観測変数に対して、どれくらい寄与(影響)しているかという指標です。言い換えると、観測変数をある因子で説明できる大きさを表す指標でもあります。

因子寄与は因子ごとの因子負荷量の二乗和です。因子寄与と共通性の違いについては、以下の画像を確認してください。

新卒ちゃん
新卒ちゃん

共通性は観測変数ごと、因子寄与は因子ごとなんですね!

因子寄与率

因子寄与率(Contribution Ratio)とは上記の因子寄与を割合に変えたものです。

観測変数1つにつき1つの因子寄与が計算されるので、因子寄与の数は観測変数の総数と同じです。そこで、次の計算式によってある1つの因子が全体にどれくらい寄与(影響)しているかを割合で示すことができます。

因子寄与率(%)= 因子寄与(負荷量の二乗和)÷ 観測変数の総数 × 100

因子分析の具体例

ここからは、ある企業の人事部で、求職者の根底にある因子を把握したいと考えている、という状況を例に因子分析の手順を説明します。

最初に、抽出する因子の数を決定します。最尤法や主因子法などを用いて因子の数を決め、回転を用いて結果を解釈します。

今回、以下のような結果となったとします。

緑の枠で囲った部分は、因子1〜5のそれぞれにとって負荷が高い観測変数です。ここから、因子にラベルづけ(命名)をおこなっていきます。

どのようなラベルをつけるかは自由ですが、そのラベルが因子の特徴を説明できているようにします。

因子ラベル高負荷の変数
1背景学歴、経験
2キャラクター自信、好感度
3説明能力ES、コミュニケーション

今回の表ではこれら3つの潜在的な因子が、「学歴」から「コミュニケーション」までの6つの観測変数の値を決定していると推測されます。

通学不要!コスパ抜群の1日速習講座でスキルアップしよう
タイトルとURLをコピーしました