ConceptMap-Text

ConceptMap-Textは、ConceptMinerのコア・アプリケーションで、多数のテキスト・チャンクを格納するCSVファイルを読み込んで、概念ネットワーク・モデルを構築します。

解釈次元: 入力されたテキストチャンクは、LLMにより埋め込み(Embedding)を取得しベクトル化されます。しかしながら、埋め込みは数1000次元あり、そのままでは人間が解釈できません。そのためUMAPという次元削減手法を用いて、人間が解釈できる程度の次元数に落として、新しくできた次元をさらにLLMによって意味付けします。

概念ネットワーク・モデル: ファジィ成長バッチ・ニューラルガス+MST(最小全域木)により、類似するエンティティが同じノードに収容され、ノード同士がMSTによりエッジで接続されます。自己組織化マップ(SOM)のトポロジーが2次元格子に固定されているのに対して、ニューラルガスはその制約が取り払われており、最終的にMSTでトポロジーが決定されます。結果としてより柔軟なトポロジーが検出できます。

クラスタリング: Ward法や密度ベース・クラスタリングをはじめ、さまざまなクラスタリング・オプションがありますが、エッジで繋がっているノード同士を同じクラスタに併合するというルールを付け加えることで、データ空間のトポロジーを考慮したクラスタリングを実現しています。

プロファイル分析: 選択されたクラスタまたはノード領域の統計的特徴(プロファイル値)を棒グラフで表示します。

クラスタ自動解釈: LLMを用いて各クラスタのメンバーの共通特性を抽出します。

ネットワーク可視化: 概念ネットワーク・モデルは、3Dおよび2Dで、クラスタリング、各次元の値を可視化します。またモデル品質として、量子化誤差および度数を可視化することもできます。

注意: 入力データ(CSV)には、テキスト・チャンクの列以外に、数値属性やカテゴリ属性の列を含めることができます。ただし、ConceptMap-Textではモデル(ノードの順序付け)に寄与するのは、テキスト・チャンクの列のみです。結果として、テキスト・チャンクに由来する概念構造に基づくクラスタや選択領域での数値属性やカテゴリ属性のプロファイル値を分析することができます。これにより定性情報と定量データを統合して分析することが達成されています。数値属性やカテゴリ属性もモデルに寄与させたい場合に対応するために、別途ConceptMap-Dataを準備中です。