昔の思い出
私、前職にて16年ほど前、「言語認識」ツールを検証したことがあります。
検証目的は、
- 現状の言語認識ツールの精度検証
- 言語認識ツールの適用業務検討
当時の言語認識ツールは、新聞記事のように「お手本となるべき文章」であれば、適用可能と言われていました。
- 標準語で記述されていること
- 主語、述語がしっかり記載されていること
- 基本となるべき文章形式を成していること
つまり、言語認識ツールの適用には、言語認識ツールを「意識した」文章作成が必要だということ。
既に社内に蓄積されていたテキストデータが、ツールを意識した文章作成となっているはずなどなく、様々な困難がつきまといます。
手順としては、
- 何も「指標:キーワード」を与えず、5つ以上のグループに分類する「クラスタリング」からスタート。
クラスタリングとは、人工知能技術を用いて「似たものを集めた結果」をグループ化するというもの。 - ツールにて分類された各グループの意味合いは、それぞれのグループに分類された「内容」を見て解釈。
※ クラスタリング結果を見て、インプットした「大量データの概要」を短時間で把握することが狙い。 - データの概要を把握した後、本格的にクラスタリング(グループ分け)実施
目的に合わせたグループを決め、グループ毎の「指標:キーワード」を設定し、クラスタリング実施
ご参考:クラスタリング(クラスター分析)
ひと昔前の「言語認識ツール」の精度・性能
ところが、この結果が酷かった。最初の「概要把握のためのクラスタリング」で躓くことになるのです。
- 確かに、インプットデータを指定するだけで、いくつかのグループに分類される。
- その後、それぞれのグループの特徴を把握するため、いくつかの文章をピックアップして確認する。
- この時、本来であれば5,6件、多くても20件ほど確認すれば、おおよその概要把握が出来るはずだった。
補足情報として、
- 検証が目的だったこともあり、インプットのデータは3000件程度と少な目。
- 5つのグループに分かれたとして、多い少ないはあっても、1グループ平均600件程度。
何件データを確認しても、さっぱりグループ化された意図が分からず、結果、ほぼ全件読破することになる。
検証用に利用していたデータは以下の通り。
- お客様相談データ :お客様からの電話問合せ情報を、テキストに起こしたもの
- 修理依頼データ :お客様からの電話修理依頼時、故障状況などをまとめたもの
- マーケティングレポート:営業マンが市場で得た情報を、様々な角度でレポーティングしたもの
ひと昔前の「言語認識ツール」の適用可能性
もちろん、当時のつたない技術であっても、全てのデータが全滅だったという訳ではありません。
しかし、「目的」も「フォーム」も決まっていない「お客様主体の電話受付情報」に関しては、壊滅状態。
唯一適用できそうだったのは「修理依頼データ」。
- 比較的短い文章だということ。
- 「電話受付した人」が、「修理担当者」に、「お困り事」を伝えるという目的がはっきりしていること。
適用可能性として、下記の可能性があったように思います。
- 同種(同グループ)の修理の 異常値検出のための閾値 を、予め設定しておく。
- 修理受付時、言語識別ツールで似たもの同志のグループに分類。
- 分類されたグループ毎の件数が 設定しておいた閾値 を超えた時、製造事業場にフィードバックする。
ただ、修理情報というのは、もとより事業場には日々(色んな用途で)フィードバックされており、
言語認識ツールを介しての警告通知は必要なかった・・・。
私の出した結論は、当時のレベルにおいては「人間による分類の方が信頼性が高く、早い」ということ。
1ヶ月余り、毎日ツールと格闘し、活字を読み続け、何かうまく活用する方法はないだろうか?と考えあぐねた結果、「言語認識ツール」アレルギーを発症。
「言語認識ツール」の凄まじい進化
そうこうするうちに、16年もの歳月が経過。
今や、AI(人工知能)は
- 小説を書き、
- 将棋をさし、
- 人がスマホに向かって話しかけることは、常識になってしまった。
こんな記事を発見しました。
ご参考:AIはどこまで進んだか?──AI関連10の有望技術と市場成熟度予測
とても前置きが長くなってしまいました。
要するに、たった16年で大きくテクノロジーは進化し、来年には言語の認識率は人間を超えるという。
その「AI技術」が「Webの検索エンジンに搭載」され、サイト内の掲載情報を診断しているということなので、誤魔化しは効かない。
今、情報発信に求められていることは、
- サイトテーマと掲載情報の整合性
- 掲載情報の独自性(ネット上に散乱している情報ではないこと)
- 学術的に、創造的に価値ある情報かどうか など・・・
要求レベルはとても高いようです。
ネットでの生き残りをかけた最終戦略
発信する情報は、量だけでなく、質も「高いレベルで」問われるということです。
それも全国レベルで比較されてしまう。なぜなら、人が判断するなら、比較対象は限られているけれど、
人工知能が判断するとなると、その情報量は無限大だから。
これがSEO対策を、ほぼ無効化してしまった理由。
反対に、探したい情報を、より早く、より的確に探し出せるエンジンである理由でもあるのです。
SEOを少し知っている人の中には、「沢山ブログを掲載してるんだけど、何の反応もない」と嘆く方がおられます。
- 沢山のレベルが違う
多くの場合は20件か30件掲載して「たくさん」だと思っている方が多い。 - 情報の質はもっと高い
多くの場合、自分の専門領域である「専門知識」を掲載している方が多い。自らの考え方や、表現方法への創意工夫がない場合、これらの情報はネット上に散乱している。
これが現実。テクノロジーの進化に脱帽です。