ConceptMinerの基本原理

ここではConceptMinerの基本原理を説明します。

ConceptMierは、定性情報分析と定量データ分析を数理的な方法で完全に統合し、柔軟でかつ精密な分析、有用な知見やアイデアを発見する分析を可能にします。

まず比較するべき従来の定性分析としては、KJ法やGrounded Theory Approach (GTA)などの手法が知られています。これらは、自然言語で表現される断片的でバラバラな(混沌とした)情報を組織化させることに重点が置かれています。手法による違いはいろいろとあるものの、本質的な原理に注目するなら、以下のような手順を経るところが共通しています:

  1. 情報の断片をその類似性によって分類することから開始して、
  2. 分類された各グループ内での共通特性を抽出し、
  3. グループ間や特性間の関係性を説明する。

なるべくシステマティックに定性分析を行おうと努力はするのですが、生身の人間が行うとどこまでも曖昧さがつきまといます。そして、躍起になって厳格なルールを当てはめようとすればするほど、思考は硬直化し非効率になるというのがこれまでの状況ではなかったかと思います。特定の手法で定められた手順を忠実に実践するよりも、むしろ自己流の方が効率的という場合も少なくなかったかもしれません。

定量分析のアナロジーで考えると、1.はクラスタ分析、2.はプロファイル分析(多重比較検定など)、3.はグラフィカル・モデリング(構造方程式モデリングやベイジアンネットワーク)などが対応するという連想が働くはずです。しかし、言うまでもなく、従来は、定性情報にこれらの定量手法を適用することはできませんでした。なぜなら、定性情報(=自然言語)は計算の対象ではなかったからです。ところが、この数年で状況が大きく変わりました。大規模言語モデル(Large Language Models、LLM)の普及により、埋め込みを容易に取得できるようになったからです。

LLMでは単語を”埋め込み(Embedding)”と呼ばれる高次元ベクトル(たとえば1536次元または3072次元など)で表現します。それにより、見かけ上異なる単語を使用していても、類似した意味を持つテキスト同士は、お互いに近い距離を持つベクトルとして表すことができるようになっています。埋め込み(超多次元ベクトル)を使用することにより、定性情報(自然言語)に含まれる情報の機微(ごくわずかな意味の違い)を精密に計算できるような数値に変換することができます。

これは人間が意識下で行っている膨大な情報処理を可視化しているとも言えます。人間の脳には、1000憶から1500憶の神経細胞があり、さらに1つの神経細胞に1万ほどのシナプスがあるとされています。つまり、身体としての脳は、少なくとも1万次元ほどの情報処理を行っているはずなのですが、残念ながら我々の意識は、その過程を理解することも説明することもできないのです。人間の意識はせいぜい3次元までの空間しか認知できず、頑張ってもマジックナンバーと呼ばれる7プラスアルファ程度の次元数(比較基準)でしか物事を考えることができません。比較するエンティティが数100、数1000となれば、意識の上で、それらを厳密に同じ方法で比較することもままなりません。

つまり、従来のKJ法でもGTAでも、本当の過程を説明することは不可能で、我々は下層の情報処理が出してきた結果をあとづけの辻褄合わせで説明することぐらいしかできないのです。定性分析の曖昧さの原因は、意識下で行われている情報処理が隠ぺいされていたからなのです。

定性情報をベクトルで計算できることにより、定性分析と定量分析のこれまでの位置づけ、地位は大きく変わろうとしています。たとえば、製品やサービスのエンティティをその説明文から取得した埋め込みにより意味空間に配置する場合、従来の定量手法であるPCAやコレスポンデンス分析でポジショニングするのと比べても、けっして劣るものではありません。従来の定量手法では、いくつかの測定可能な数値やアンケート調査の回答をもとにしており、それはそれらの属性で表現可能な”観点”での正確な計算結果を示しているに過ぎません。定量手法では、得てして重要な観点を見逃していたり、測定が困難だったりするものです。

ConceptMinerは、独自のデータマイニング・テクノロジーを使って、超多次元の埋め込み(ベクトル)を人間が理解可能なレベルに変換して可視化するものです。これにより、人間が意識下で行っている情報処理や人工ニューラルネットワークでの情報処理を、人間が理解できる程度に要約して表現することができます。それによって、我々人間は、やっと腹の底から「わかった」と納得できるというわけです。そして、さらに多次元ベクトル空間を使って、AIと対話することにより、AIの言いなりではなく、人間主導で方向付けをして、AIに新しいコンセプトを推論させることができるようになります。

定性調査で収集されたテキスト情報の断片(エンティティ)をベクトル化して、データマイニング・テクノロジーで組織化させることにより、各エンティティが意味空間に配置され、クラスタリングされます。ベクトルの次元は、人間が解釈できる程度に削減され、それぞれの次元の意味が解釈されているので、どのクラスタは、どの次元の値が高いかという解釈が可能になります。さらには、各エンティティに数値やカテゴリ値などの定量データを付与することにより、定量データから見た各クラスタの特徴を分析することができます。