メニュー

統計とは:統計の基礎知識1

統計の基礎知識

更新日:2019年2月1日(初回投稿)
著者:株式会社MEマネジメントサービス 代表取締役 マネジメントコンサルタント 技術士(経営工学)小川 正樹

統計とは、「集団における個々の要素の分布を調べ、その集団の傾向・性質などを数量的に統一的に明らかにすること。また、その結果として得られた数値(引用:新村出、広辞苑第6版、岩波書店、2008年)」と定義されています。統計は、世界中のさまざまな分野で、さまざまな目的に利用されています。本連載では8回にわたり、モノづくりにおける統計の考え方や使い方を解説します。初回となる今回は、分析の初歩と、統計が使えるメリットを取り上げます。

今すぐ、技術資料をダウンロードする!(ログイン)

1. 統計とは?

私たちの身の回りでは、どのように統計が使われているのでしょうか。大きく分類すると、雇用・消費・物価などの実態を把握するための統計と、研究や技術開発で仮説を立てて、検証するための統計の2つあります。

図1:統計の種類

図1:統計の種類

・実態を把握するための統計

国や都道府県、市町村などの行政機関は、経済問題、環境問題など国民の生活に関わる問題を明らかにするため、経済や環境の状況を数値で捉えるために統計調査(政府統計調査)を行っています。国民はどんなスポーツをしているか、日本に来る外国人はどこの国が多いかなど、さまざまな実態をデータで調べ、その実態を理解し、施策に役立てます。データは数値なので客観性があり、正しい実態を把握することができます。

・仮説を立てて、検証するための統計

研究者や技術者は、研究上重要な問題に対し、現象を科学的・客観的に捉える必要があります。そのためには、研究・技術開発の中で理論や仮説を立て、仮説が正しいかどうかを検証するために実験や観測によりデータを集めます。

2. 統計学の種類

テレビ番組で、視聴率が50%を超えたものがあったと報道されたとします。この数字は、テレビを見た人全員を調査した結果ではなく、何らかの方法で選んだ人たちについて調査した結果の50%です。すなわち、全体のデータではなく、一部分のサンプルから得たデータで全体を推定しているのです。このような統計を扱う学問を統計学といいます。統計学には、大きく分けて記述統計学と推測統計学の2つがあります(図2)。

1:記述統計学

記述統計学とは、得られたサンプルデータ(標本)が持つ情報をさまざまな側面から明確にし、データの持っている特性を把握することを目的とした統計学です。データの視覚化やデータの数値化で標本の特性を明確にし、標本の特性値から母集団の特性値の値がどれくらいかを具体的な1つの数値や範囲で推測します。

2:推測統計学

推測統計学とは、仮説を立てて検証するための統計学です。推定とは、標本の特性値から母集団の特性値の値がどれくらいかを具体的に数値や範囲で把握することです。視聴率でいうと、母集団の特性値としてあるテレビ番組の視聴率を考察し、その値を標本に表れた50%として推定したということになります。一方、検定とは仮説と呼ばれる母集団に関する記述が正しいかどうかを判断することです。例えば、男女で視聴率に差があるか、年齢別ではどのような傾向にあるかなどについて考察することです。

図2:統計学の種類と内容

図2:統計学の種類と内容

視聴率のようなサンプル調査では、分析対象全体のことを母集団、その母集団から何らかの方法で選んだデータをサンプル(標本)と呼びます。サンプル調査の実施に当たっては、まず母集団を明確に設定し、その母集団が調査目的に一致しているかどうかを確認する必要があります。サンプル調査で収集したデータが、質の悪いデータでは、本来の目的を達成することができません。知りたい内容と母集団とが一致していない場合、得られたサンプルからのデータは間違ったデータとなります。統計を行う場合は、次の7点を確認しましょう。

・知りたい内容と母集団が一致しているか
・母集団の設定に間違いはないか
・データをサンプリングしやすいといころや簡単なところから取ってないか
・計算違いのデータはないか
・データを検算するチェック体制が確立されているか
・都合の良いデータを棄却していないか
・目標に適合するデータを適当に作っていないか

3. データの種類と見える化

次は、データの種類、データ分布の見える化について説明します。ばらつきや分布の定義と、データ分布を把握する方法を確認しましょう。

1:データの種類

私たちは通常あまり気にすることもなく、数字や数値を一つのまとまりとしてデータと呼びます。データは、質的データ、量的データに分類されます(図3)。

図3:データの種類と内容

図3:データの種類と内容

・質的データ
質的データとは、分類や種類を区別するためだけのデータです。数字は、文字としての扱いを受けるもので、大小や順序としての概念はないものとして扱っています。いわゆる足し算・引き算・掛け算・割り算の四則演算をする対象にないデータです。この代表的なデータには、電話番号、郵便番号、クレジットカードなどの顧客番号などがあります。

・量的データ
量的データとは、数値で大小が与えられ計算が可能なデータです。部品の重さや長さ、売上金額や不良品の金額、年齢や世帯人数などが該当します。数値は、足し算・引き算・掛け算・割り算の四則演算ができるデータであり、計量値のデータと計数値のデータの2つに区分できます。計量値とは、寸法、重量、時間など連続した値を取るもので、測定して得られるものです。一方、計数値とは、クレーム件数のように個数として得られるデータです。

2:データ分布の見える化

データがいろいろな値を取ることをデータ分析の世界では、ばらつきと呼びます。ばらつきの様子を表すキーワードに、分布という言葉があります。分布とは、どのような値がどのような割合で出現しているかを表現したものです。分布の状態を知るためには、グラフなどを使って視覚的に表現する方法と、数学的手法を用いて数値により表現する方法があります(図4)。

図4:データ分布を知るための方法

図4:データ分布を知るための方法

データを視覚的に表現し分析する方法には、グラフ、ヒストグラム、パレート図、散布図などがあります。グラフは、関係のある2つ以上の数量を図に描いたもの、ヒストグラムは、度数分布を柱状グラフで表したもの、パレート図は、柱状グラフと折れ線グラフを組み合わせたもの、散布図は、縦軸、横軸に2項目の量や大きさなどを対応させ、データを点で表したものです。データ分布を知る方法には、メリット、デメリットがあるので、メリットをうまく生かしてデータを分析することが記述統計学を活用する近道です。

4. 統計を使えるメリット

統計を使えるメリットは、データの計量化により実態を数値で把握することができたり、仮説の検証ができることです。さらに、気温と家電製品の売上高、部品点数と組立時間など、相互の数値の傾向をつかめれば、未来を予測することが可能になります。

日本の製品の品質が良いといわれるのは、製品の品質を維持、向上させるため品質管理がしっかり行われているからです。近代的な品質管理を統計的品質管理(SQC:Statistical Quality Control)と呼んでいます。このように製品の品質を保ち、工場の工程や人の管理に使うためにも統計が用いられています。仕事ができる人は、数字で話をすることが多いようです。統計を身に付け、自分の専門分野でより効率的に仕事を進めてください。

いかがでしたか? 今回は、分析の初歩、統計が使えるメリットについて解説しました。次回は、グラフの種類と活用を取り上げます。お楽しみに!

株式会社MEマネジメントサービス
著者が執筆した原価管理などに関する書籍一覧

  • セミナー2月
  • 販促_無料出展

ピックアップ記事

tags

  • 特集バナー0204_01
  • 特集バナー0204_02
  • 特集バナー0204_03
  • 基礎知識一覧