主成分分析をわかりやすく!固有値・寄与率などの用語や分析手順を解説!

ビジネススキル
新卒ちゃん
新卒ちゃん

主成分分析ってなんですか?

バリキャリ先輩
バリキャリ先輩

主成分分析は、多数の複雑な要素の関係をより少ない要素である「主成分」で説明する分析手法よ。 

新卒ちゃん
新卒ちゃん

ラーメンの美味しさは、「スープの味」と「麺の味」で決まるみたいな話ですか?

バリキャリ先輩
バリキャリ先輩

そんな感じ! 具の味・麺のコシ・麺の味・スープの味など多次元のデータがあるなかで、「ラーメンの美味しさ」の決め手となる「主成分」を新しく考えるのよ。

こんにちは、Yunです!

データ分析について調べるなかで「主成分分析ってなに?」「主成分分析のやり方は?」と疑問に感じていませんか?

そんな悩みをお持ちの方に、こちらの記事では主成分分析の基本や関連用語について解説します!

この記事はこんな人におすすめ!
  • 主成分分析のわかりやすく説明を知りたい人
  • 固有値や寄与率などの用語の意味を知りたい人
  • 主成分分析のおおよそのイメージをつかみたい人
記事の内容まとめ
バリキャリ先輩
バリキャリ先輩
  • 主成分分析とは、たくさんあるデータを少ない要素で説明しようとする分析手法よ。
  • 次元の縮約をおこなうことで、複雑なデータ群を2次元平面上で説明できるようにもなるわ。
  • 主成分自体は計算で求められるけれど、その主成分がなにを意味するかは分析者の解釈によって変わるわ。

この記事を読めば、主成分分析のおおよそのイメージがわかります!

\Web広告運用のノウハウを身に付けたい方必見! /

主成分分析とはなにか

主成分分析(Principal Component Analysis / PCA)は統計手法のひとつであり、多変量解析の一種です。

主成分分析は、難しい言い方をすれば多次元のデータがもつ情報を低次元空間に縮約する手法です。

もう少しわかりやすい言い方をすると、たとえば「国語の点数」「英語の点数」「数学の点数」など得られた多種多様のデータがもつ情報を「文系能力」「理系能力」などの集約した情報につくり変える作業です。

また、主成分分析をおこなうと複雑な情報が縦軸と横軸の表であらわされるため、視覚的にとらえやすくなります。

多変量解析

多変量解析(Mutivariate Analysis)とは、複数の変数がもつ情報をもとに、それらの関係のしかたや、複数の変数が関係した結果を分析する手法です。

現実世界におこるできごとは、ふつう膨大な変数がからみ合った結果生じています。

たとえば、季節という1つの変数だけから明日の天気を予測することはできません。天気には地理特性・湿度・気圧変化などさまざまな変数がかかわっています。

これらの変数の関係性や、結果を引き起こした変数の影響度合いなどを調べるのが多変量解析です。

多変量解析はなにか1つの分析手法をさす言葉ではなく、主成分分析や因子分析などを含んでいます。

次元

データ分析における次元(Dimention)とは、そのデータがもつ特徴量のことです。

たとえば、ユーザーデータを集めたときには「年齢」「性別」などが特徴量としてあつかわれます。場合によっては「住所」「年収」なども特徴量となりますし、たとえば年齢であれば「20代」「30代」と細分化すればどんどん高次元データとなっていきます。

このようにデータ分析では膨大な次元数のデータをあつかうことが多いので、主成分分析によって次元を縮小(縮約)することが重要になります。

次元の縮小とはなにか

主成分分析のゴールは、データセットの次元数を減らすことです。次元の縮約は多次元で存在するデータの位置を少ない軸に集約することで実現します。

縦軸の縮約

縦方向・横方向の2次元にばらけている青丸を、縦1列の1次元に並べることを縦軸の縮約といいます。

横軸の縮約

同じく横方向の1次元に並べることを横軸の縮約といいます。

分散の最大化とはなにか

主成分分析は次元を縮小するので、その手続きのなかで必ず失われる情報が生まれます。

主成分分析ではこの失われる情報を最小化することが必要です。「データのばらつき(分散) = 情報量」であるため、次元を縮小するときにもっともデータのばらつきを保てる縮めかたをすることが失われる情報を減らすことにつながります。

座標のばらつきが大きいほど、もとの情報量を保てる

データを1次元で並べたときに、ばらつきが大きいことはそれぞれのデータの個体差がはっきり表れていることを意味しています。

ばらつきが小さいと、データの個体差が表れにくい

1次元に並べたときにばらつきが小さいと、データの差があまりくみとれません。主成分分析では射影軸(データを並べる直線)を分散が最大化する位置に置く必要があります。

\受講料0円!最低内定2社取得保証の驚異のプログラミングスクール! /

主成分とはなにか

主成分(Principal Component)とは各説明変数(= 調査項目)からつくられたより少ない変数のことです。このとき、主成分は数は少ないけれどもなるべくたくさん元の変数の情報を説明できるようにしなければいけません。

主成分をいくつつくるかは、元の変数の固有値と寄与率をもとに決まります。もっとも説明量の多い第1主成分から順に第n主成分までをつくり、その累積寄与率(= 寄与率の合計)の高さが元データをどれだけ説明できているかの量を表します。

固有値

固有値(Eigenvalue)とは、元のデータをどれだけ説明できているかの値であり、主成分分析では主成分の分散を意味します。

固有値の計算方法は省略しますが、ふつう値が1以上であれば元データを十分説明できているものと解釈されます。

寄与率

寄与率(Contribution Ratio)とは、その主成分がデータの何割を表現しているかを表しています。

寄与率を合わせたものを累積寄与率といいます。多くのデータを説明できるということは、情報のとりこぼしが少ないことを意味するので、累積寄与率が高いほど優れた分析となります。

主成分分析はもっとも寄与率の高い成分を第1主成分とし、そのあとも寄与率の高い順に成分をとる分析手法です。

データの分散が最大となる射影軸をもとめる

主成分分析では、「もとのデータのばらつきを保ていること」は「情報量を多く残せていること」を意味します。

主成分分析ではデータの分散が最大化できる位置をさがし、そこに引いた直線(射影軸)が主成分を表します。

第1主成分とはなにか

分散が最大になるようにおいた射影軸を「第1主成分(PC1)」といいます。

第1主成分はすべてのデータの分散が最大の軸なので、ふつう総合点や総合成績をあらわします。

第2主成分とはなにか

第2主成分(PC2)は第1主成分と直交する(90度になる)軸のなかで、分散が最大化する位置におきます。

第2主成分以降の主成分がなにを表しているかは、分析者による主観によって解釈されます。

主成分分析の手順

手順① 目的を明確化する

心理学の統計では主成分分析は「とりあえずまずは主成分分析をおこなう」ととらえられているほど一般的なものです。しかし、主成分自体はただの縮約された変数であるため、それをどう生かすかは分析者の計画性にかかっています。

前述のとおり、第1主成分はふつう総合点をあらわしますが、その調査における総合点とはなにか、というところから主観的な解釈が必要になります。

また、第2主成分以降の主成分がなにを表しているかはさらに入念に検討しなければいけません。

主成分分析をおこなう前に、それを研究にどのように活かそうとしているかを明確にしなければ、主成分分析は意味のある分析になりません。

手順② データを標準化する

主成分分析をおこなう際には、はじめにデータの標準化をおこないます。

データの標準化とは、データの尺度を揃えるために平均が0、分散が1となるように変換することです。

変数が異なる単位で測定されていたり、単位が同じでも分散が大きく異なる変数にそのまま主成分分析をおこなうと、変数間の関係を正しく測ることができません。

たとえばテストの点数から能力を調べるときにほかの科目は100点満点なのに1科目だけ10点満点の科目が混ざっていると、10点満点の科目の主成分負荷量が小さくなりすぎて正確な測定になりません。

そこで、すべてのデータを標準化して結果への影響を正しく測れるようにします。

主成分を定義する

分析したことによって主成分は、これまでなかったところに新たにつくられた変数です。

この変数をどのようにラベルづけ(命名)するかは分析者の手腕とセンスにかかっています。

主成分分析をおこなう前に分析の目的が明確化されていれば、データの中身や活用したいシーンに合わせた名前づけができるはずです。

主成分の解釈については、その主成分がどの変数にどれくらい影響を受けているかを表す主成分負荷量を参考にします。

主成分負荷量

主成分負荷量(Loading)とは、主成分と各変数との相関係数のことです。各変数が主成分にどれくらい影響しているかがわかるので、主成分の意味の解釈に活用されます。

因子負荷量は「-1」から「1」の値をとり、どちらかに近いほど主成分に強く影響しています。

手順③ 分析結果をグラフにする

主成分を作成できたら、主成分得点グラフと固有値ベクトルグラフを作成します。

主成分得点グラフも固有値ベクトルグラフも、横軸を第1主成分、縦軸を第2主成分とします。

グラフを作成することで分析結果が視覚的にわかりやすくなります。もともと複雑で理解しにくかったデータ群を視覚的に理解しやすくすることも主成分分析のメリットのひとつです。

主成分得点

主成分得点(Principal Component Score)とは、ふつう主成分軸上の各データの座標の意味で用います。

第1主成分(z1)はもとの変数が3つの場合、以下の式で表します。

\(z1 = a1 * x1 + a2 * x2 + a3 * x3\)

上の式に各データを代入することによって、そのデータの第1主成分得点が求まります。同じように第2主成分得点、第3主成分得点…と求めることによって各データを座標平面で表すことができるようになります。

固有ベクトル

固有ベクトル(Eigenvector)は、数学的な説明を省けば、「主成分をつくるのに必要なもの」といえます。

固有ベクトルも、因子負荷量と同じく主成分の意味の解釈に用いられることがあります。

主成分(z1)はもとの変数が3つの場合、以下の式で表します。

\(z1 = a1 * x1 + a2 * x2 + a3 * x3\)

固有ベクトルとは上の式のa1・a2・a3のことです。これは座標平面上で傾きを決める成分なので、主成分となる射影軸はこの固有ベクトルによって決まります。

\Web広告運用のノウハウを身に付けたい方必見! /
タイトルとURLをコピーしました