• 朝野裕一

ビッグデータと個別のデータ

物事の傾向を見たりするとき、平均値という値を頼りにすることは、

よくあることだと思います。

でも平均値って実態を示しているとは必ずしも限りません。

とても簡単な例で言えば、

テストの得点が30点の人が10人、80点の人が10人いる集団があったと

しましょう。

平均値を出すとどうなるでしょう。

((30×10)+(80×10))÷20=55となり、平均点は55点です。

しかし実際は55点の人は一人もいず、30点と80点に分かれている、

二分されているのがこの集団の実態です。

ですから、平均点だけでこの集団の特徴を示すことは、できないことに

なります。

二つ以上の集団の平均値を比較する場合、その分散度が平均値の周りに

多い集団(釣鐘用の形)でなければなりません(↓)。

そうでないと平均値がその集団の特徴を示していないからです。

これを正規分布と呼びます。

無作為に多くのデータを集めていくと、比較的このような分散を持った

形に近づいていきます。

研究などを行う際に、ある集団と他の集団を比較するとき多くの例数を

集める必要があると言われるのはそのためです。

もちろんたくさん集めたから必ず正規分布になるとは限りません。

第一段階として少なくとも集団の例数はある程度以上に多い必要がある

というだけです。

さて、

ビッグデータという言葉が最近多く聞かれると思うのですが、

これは今まで行われてきた普通の(と言っていいのか分かりませんが)

研究とは比べ物にならないくらいの大量のデータのことを指します。

これだけたくさん集めると、ちょっと偏ったデータは+(プラス)側

にも、−(マイナス)側にも等しい確率で現れてくるので、それらは

いわば雑音として相殺されます。

そうすることで、

かなり正確な集団の特徴・特性を示すことが可能になります。

多数のデータはその対象の数(例えば人数)に限りません。

同じ人から各種のデータを取得すると、データ数はさらに膨大に

なります。

そこから思いもしない特性が浮かび上がってくることがあります。

一ヶ月ほど前に書いた「書を読みに街に出よう!」でお示しした、

読書と健康度の関係などはまさしくそれに当たります。

これはもう人の手を借りるのではなく、AIがこなす作業です。

では、

そんなビッグデータさえあればなんでも分かる?!のでしょうか。

実は人の特徴などを細かく見ていくと、個人個人で様々な特性を持って

いるわけで、ビッグデータで傾向は分かるもののその人特有の課題は

分かりません。

結論から言うと、

ビッグデータも個別データも使いよう、というところでしょう。

それぞれの利点・欠点をよく検証し、うまく両方を使うことができれば

一番良いと思います。

人工知能(AI)と人間の思考は結局両方が適材適所的に、兼用されていく

のではないかと思っています。

AIを必要以上に毛嫌いするのではなく、また必要以上に絶対視するので

もなく、うまくバランスを保って運用する知恵がヒトにはあると、

思っています。

今日も読んでいただきありがとうございました。また明日。