AIクラスタリングとEmbeddingsを組み合わせた非構造化データの自動分類

「アンケートの山」を「宝の地図」に変える。AI分類が導く顧客インサイト発掘術

約14分で読めます
文字サイズ:
「アンケートの山」を「宝の地図」に変える。AI分類が導く顧客インサイト発掘術
目次

デスクを埋め尽くす「声」の山に、ため息をついていませんか?

プロジェクトマネジメントやシステム開発、あるいはマーケティングやカスタマーサクセスの現場において、非構造化データの処理は共通の課題です。キャンペーン後のアンケート、コンタクトセンターに日々蓄積される通話ログ、あるいは営業担当者が残す日報の数々。これらは企業のデータ資産の8割以上を占めると言われています。

しかし、現実はどうでしょう。

「Excelで『不満』という単語を検索して件数を数えるだけで、午前中が終わってしまった」
「目視でタグ付けを試みたけれど、担当者によって基準がバラバラ。先月のデータと比較すらできない」
「結局、分類しきれなかった3割のデータを『その他』というブラックボックスに放り込んで、見なかったことにしている」

もし、このような状況に心当たりがあるなら、安心してください。それは決して現場の能力不足ではありません。人間が手作業で処理できる認知の限界を、データの量が超えてしまっただけなのです。

ここでAIの出番となるわけですが、多くの技術書は「高次元ベクトル空間」や「コサイン類似度」といった数学用語のオンパレードです。「便利そうなのは分かるけど、中身がブラックボックスすぎて怖い」と、導入を躊躇してしまうのも無理はありません。AIはあくまで課題解決の手段であり、仕組みを正しく理解してこそ、ROI(投資対効果)を最大化する実用的な導入が可能になります。

そこで今回は、AIが言葉を分類する仕組みを、数式を一切使わずに「地図」と「磁石」のメタファー(例え)だけで論理的かつ体系的に紐解いていきます。仕組みさえ腹落ちすれば、ツールの選び方も、分析結果の読み方も劇的に変わります。

さあ、言葉の地図を広げる旅に出かけましょう。

なぜキーワード検索では「顧客の本音」が見えないのか

AIという新しい武器を手に取る前に、なぜ使い慣れた「キーワード検索」では戦えなくなったのか、その理由を直視する必要があります。ここを理解することが、AI活用の本当のスタートラインです。

「単語の一致」と「意味の一致」は別物

例えば、飲食業界のデータ分析において、「価格への不満」を抽出しようと、「高い」というキーワードで検索をかけるケースがよく見られます。

しかし、その検索結果には以下のようなものが混在し、課題が残ることが少なくありません。

  • 「値段が高い割に、味が普通だった」
  • 「クオリティが高いので満足です」

前者は確かに不満ですが、後者は称賛の声です。単なるキーワードマッチングでは、文脈を無視して機械的に拾ってしまいます。これを専門的には「同形異義語(Homonym)の問題」と呼びますが、実務の現場では「ノイズ」以外の何物でもありません。

さらに深刻なのは、検索に引っかからなかった「見えない声」です。

  • 「もう少しリーズナブルだと嬉しい」
  • 「お財布に優しくないですね」
  • 「給料日前にはちょっと来づらいかな」

これらはすべて「価格が高い」ことを訴えていますが、「高い」という文字は一つも含まれていません。キーワード検索に頼りきりになると、こうした表現を変えただけの本音を大量に取りこぼしてしまうのです。

表記ゆれと類義語という無限のモグラ叩き

日本語は、世界でも稀に見るほど表現が豊かな言語です。

「スマホ」「スマートフォン」「携帯」「iPhone」「Android」……これらをすべて網羅した検索条件(クエリ)を作るのは、もはや職人芸の世界です。しかも、新語や略語が出るたびにメンテナンスが必要になります。

私たちが本当に知りたいのは、文字面の一致ではなく、「顧客が何を言わんとしているか(意図・意味)」のはずです。この「意味」そのものをAIに理解させる技術こそが、今回解説する「Embeddings(エンベディング)」なのです。

原則1:言葉を「数字の地図」に変換する(Embeddingsの直感的理解)

原則1:言葉を「数字の地図」に変換する(Embeddingsの直感的理解) - Section Image

ここで登場するのが「Embeddings(埋め込み表現)」という技術です。OpenAI APIなどで提供される最新の埋め込みモデルをはじめ、現代のAIシステムの中核を担う技術ですが、名前の難しさに騙されないでください。やっていることは非常にシンプルです。

「言葉を、巨大な地図上の住所(座標)に変換する」

たったこれだけのことです。

AIにとっての「理解」とは、場所を知ること

コンピュータは、悲しいことに言葉そのものを理解できません。「愛」も「憎しみ」も、彼らにとってはただの記号の羅列です。しかし、数字なら処理できます。

そこでAIは、大量のテキストデータを読み込み、言葉と言葉の関係性を学習して、それぞれの単語に「地図上の位置」を与えます。

巨大なスーパーマーケットの陳列棚を想像してみてください。

  • 「りんご」の近くには「みかん」や「バナナ」が並んでいます(果物エリア)。
  • 少し歩くと「キャベツ」や「にんじん」があります(野菜エリア)。
  • もっと離れた別のフロアに「洗剤」や「シャンプー」があります(日用品エリア)。

AIが行うEmbeddingsも、これと全く同じことをしています。意味が似ている言葉には近い座標(住所)を与え、意味が異なる言葉には遠くの座標を与えるのです。

この地図上では、「リーズナブル」と「安い」は、文字は全く違いますが、お隣さん同士になります。だからAIは、「高い」という文字がなくても、「お財布に優しくない」という言葉が「価格」のエリアにあることを、計算によって認識できるのです。

「王様」-「男」+「女」=「女王」の計算式

この「言葉の地図化」がもたらす魔法のような性質があります。それは、言葉の意味を足し算や引き算で計算できることです。

2013年、Googleの研究者トマス・ミコロフ氏らが発表した有名な論文をご存知でしょうか。「王様(King)」という単語ベクトルから「男(Man)」を引き、「女(Woman)」を足すと、驚くべきことに「女王(Queen)」に近いベクトルになることが示されました。

これは、AIが単語をただの記号としてではなく、「意味を持った概念」として空間的に捉えている決定的な証拠です。

ビジネスの現場でも、この応用は無限大です。「製品A」の評判から「機能」の要素を引き算し、「サポート」の要素を足し算すると、どのような顧客の声に近いか。そんな高度な分析が、この地図の上では可能になるのです。

原則2:似たもの同士を磁石のように集める(クラスタリングの仕組み)

言葉を地図上の点(ドット)に変換できたら、次に行うのが「分類」です。ここで使われるのが「クラスタリング」という技術です。

教師データなしでグループを作る

従来のAI開発では、人間が事前に「これは不満」「これは要望」といった正解ラベル(教師データ)を何千枚も用意する必要がありました。これがAI導入の最大のハードルでした。

しかし、クラスタリングは「教師なし学習」の一種であり、正解を教える必要がありません。

イメージとしては、地図上に散らばった無数の点(顧客の声)に対して、強力な磁石をいくつか投げ込むようなものです(k-means法などのアルゴリズムがこれにあたります)。

磁石は、近くにある点を吸い寄せます。すると、自然といくつかの「塊(クラスター)」が出来上がります。

  • ある塊は「価格に関する意見」の集まり
  • 別の塊は「接客態度に関する意見」の集まり
  • また別の塊は「アプリの使い勝手に関する意見」の集まり

このように、AIが自律的に「似たもの同士」を集めてグループを作ってくれます。人間が事前に「こういうカテゴリがあるはずだ」と仮説を立てる必要がないため、人間が想定していなかった新しい話題や課題を発見できるのが最大のメリットです。

【事例】想定外の「解約理由」を発見したSaaS企業のケース

SaaSビジネスにおける解約理由分析の一般的なケースを考えてみましょう。当初、解約理由として「価格が高い」「機能が足りない」「サポートが悪い」の3つを想定し、アンケート項目を作成することが多い傾向にあります。

しかし、数千件の解約時コメント(自由記述)をAIでクラスタリングしてみると、想定していなかった「第4の塊」が見つかることがあります。

その塊の中心にあるのが、「担当者の異動」「引き継ぎの失敗」といった言葉であるケースです。機能や価格ではなく、「社内体制の変化によるツールの放置」が解約の大きな要因だったという事実です。

これは、事前にカテゴリを決めてチェックボックスで選ばせる形式のアンケートでは決して見つけられなかったインサイトです。AIに「白紙の状態」から分類させたからこそ発見できる、実用的なデータ活用の好例と言えます。

原則3:ノイズと「その他」を恐れない(外れ値の処理)

原則3:ノイズと「その他」を恐れない(外れ値の処理) - Section Image

AIに分類させると、必ず「どのグループにも属さないデータ」が出てきます。これをどう扱うかが、実務上の分かれ道です。

すべてのデータを無理に分類しない

真面目なプロジェクトほど「すべてのデータをきれいに分類したい」と考えがちですが、それは危険な罠です。

例えば、「あ」とか「特になし」といった意味のない回答や、全く関係のない個人的なつぶやきなどが混ざっていることはよくあります。これらを無理やりどこかのグループに入れようとすると、分析結果全体の精度(純度)が下がってしまいます。

ここで役立つのが、DBSCAN(Density-Based Spatial Clustering of Applications with Noise) という手法です。名前は呪文のように長いですが、考え方は「人口密度」に基づいています。

地図上で「人が密集しているエリア」だけを街(クラスター)として認定し、ポツンと一軒家のように離れているデータは「ノイズ」として扱います。k-means法のように無理やり全ての点をどこかのグループに入れるのではなく、「密度が低いものは無視する」 という勇気ある判断ができるのが特徴です。

「分類できないものは、分類しない」

この割り切りこそが、クリアなインサイトを得るための秘訣です。

意味のあるノイズと無意味なノイズ

ただし、外れ値の中には「宝」が眠っていることもあります。

大多数の意見とは異なるけれど、非常に具体的で熱量の高い少数意見。これらは将来のトレンドの予兆(ウィークシグナル)かもしれません。

食品業界の事例として、「パッケージが開けにくい」という意見がごく少数寄せられるケースがあります。全体の1%未満で、主要なグループには入りませんが、実は高齢者層からの切実な訴えである場合があります。これを「その他」として捨てずに拾い上げることで、ユニバーサルデザインを取り入れた新パッケージの開発につながるのです。

AIが「その他」としたものの中身を、たまに人間がざっと眺めてみる。そうすることで、AIが見逃した(あるいはあえて除外した)微細な変化に気づくことができます。

原則4:AIの分類結果を人間が「解釈」する(ラベリングのコツ)

原則3:ノイズと「その他」を恐れない(外れ値の処理) - Section Image 3

AIがデータを10個のグループに分けてくれました。しかし、AIは通常、「クラスター1」「クラスター2」といった無機質な名前しか付けてくれません。

ここからが、私たち人間の腕の見せ所……と言いたいところですが、最新のAIトレンドはここすらも高度に自動化しつつあります。

クラスターの中心にある言葉を見る

従来は、各グループの中心にある代表的なデータを人間が読み込み、「これはログイン認証トラブルだな」と名前をつけていました。しかし、数万件のデータとなると、クラスターの数も50個、100個と増えていき、これすらも重労働になります。

LLM(大規模言語モデル)に要約させる

現在、業界のスタンダードとなりつつあるのが、クラスタリングの結果をChatGPTClaudeのような最新のLLM(大規模言語モデル)に渡し、高度な要約とラベリングを行わせる手法です。LangChainなどのフレームワークを活用すれば、このプロセスを効率的に構築できます。

以前は単純な要約に留まっていましたが、最新のモデルでは「自律的な分析パートナー」として、以下のような高度な分析が可能になっています。

  1. 文脈を汲んだインサイト抽出
    「クラスター1に含まれる代表的な意見を10件渡すので、このグループの顧客が抱えている『真の課題』を20文字以内で要約して」とAIに指示します。プロンプトエンジニアリングを駆使することで、単なる単語の抜き出しではなく、背後にある意図や感情を言語化させることができます。

  2. 推論モデル(Thinking Models)の活用
    ChatGPTのThinkingモデル(oシリーズ等)やClaudeの最新モデルなど、深い推論能力を持つAIを活用することで、「なぜこのグループが形成されたのか」という背景要因まで深く分析させることが可能です。

このアプローチにより、「分類(クラスタリング)」から「要約(ラベリング)」まで、一連の流れをシームレスに連携させることが可能です。一般的に、この組み合わせによって、手作業では膨大な時間を要していたログ分析の工数を劇的に圧縮できると期待されています。

人間は、AIが生成したラベルと洞察を見て、「なるほど、今月はこういう話題が増えているのか」と最終確認し、必要に応じてAIと対話しながら微調整を行うだけで良くなるのです。これこそが、現代のプロジェクトマネジメントに求められるAI活用のベストプラクティスと言えるでしょう。

原則5:静的な分析から動的なモニタリングへ

最後に、AIによる分類を単発のイベントで終わらせないための視点をお伝えします。PoC(概念実証)で終わらせず、実運用に乗せることが重要です。

時間の経過による「意味の移動」を追う

言葉の地図は、時間とともに変化します。あるいは、地図上の「人口密度」が変わります。

例えば、サービスのアップデートを行った直後に、「使いにくい」というエリアの密度が急激に高まるかもしれません。あるいは、競合他社が新製品を出したタイミングで、「乗り換え検討」を示唆するエリアに点が増え始めるかもしれません。

定点観測で変化の兆しを掴む

一度分類モデルを作ったら、そこに日々新しいデータを流し込み続ける仕組み(MLOpsの観点を取り入れたパイプライン)を作りましょう。

「先月までは存在しなかった新しいクラスター(島)が誕生していないか?」
「既存のクラスターの大きさがどう変化したか?」

このように、地図上の地形変化をモニタリングすることで、市場の変化や顧客心理の推移を動的に捉えることができます。これこそが、静的な集計レポートにはない、AI駆動型分析の真骨頂です。

まとめ:まずはスモールデータから地図を描いてみる

ここまで、AIが言葉を分類する仕組みを「地図」と「磁石」に例えて解説してきました。

  1. Embeddings: 言葉を数値化して「地図上の座標」にする。
  2. クラスタリング: 距離が近い(意味が似ている)データを「磁石」のように集める。
  3. 解釈と活用: グループの意味を読み解き、変化を監視する。

この仕組みを理解していれば、高価な分析ツールを導入する際も、「どのようなロジックで分類しているのか」「自社のデータ特性に合っているか」を論理的に判断できるはずです。

いきなり全社のデータを分析しようとする必要はありません。まずは手元にある数百件のアンケート結果や、直近1ヶ月の問い合わせ履歴など、スモールデータから始めてみてください。

最近では、Pythonなどのプログラミング知識がなくても、CSVをアップロードするだけでこの「地図化」と「分類」を自動で行ってくれるノーコードツールも増えています。

データ整理という単純作業から解放され、そこから見えた「顧客の本音」と向き合い、次の戦略を練る。それこそが、私たち人間にしかできない価値ある仕事であり、ROIの最大化に直結します。

さあ、手元にあるデータの山を、宝の地図に変えてみませんか?

「アンケートの山」を「宝の地図」に変える。AI分類が導く顧客インサイト発掘術 - Conclusion Image

コメント

コメントは1週間で消えます
コメントを読み込み中...