エクセルで効率的にテキスト分析する方法

今回の記事では、エクセルで効率的にテキスト分析できるように開発したエクセルツールを紹介します。

特許情報分析として、出願人等の人情報、出願日などの日付情報、IPCやFIなどを対象に分析ができますが、タイトル、要約、請求項などのテキストを使った分析をすることもできます。

しかし、特許文献での記載においてある技術を表すためにいろいろな表現が使われたり、上位概念や下位概念をまとめて扱いたい場合もあるため、テキスト分析をするときには技術概念を表すラベル語とこれに対応づけられるキーワード群とのセットを別途作成して管理し、キーワード群のいずれかに該当するときにラベル語を返すように集計するのが一般的です。このように、そのラベル語とキーワード群とのセットを用意しグループ化することを「名寄せ」や「クラスタリング」ともいいます。

そして、通常の名寄せやクラスタリングをエクセルで行う場合には、例えばラベル語とキーワード群とのセットを例えば集計するテキストとは別シートに用意しておき、分析するテキストに各ラベル語に対応づけられたキーワード群が含まれるか確認し、いずれかに含まれる場合には、そのラベル語の技術概念に関連するとして集計するような処理を行います。しかし、このような処理を行うとキーワード群の管理が面倒と考えて、簡易に同様の処理ができるようにしたのがこのツールになります。

すなわち、このツールでは、画像のように、1行目にカンマ区切りで入力したキーワード群をラベル語としてそのまま使用することで、各行のA列のテキストにこれらのキーワードのいずれかが含まれるときにはラベルに対応する列に「1」を表示し、それ以外は「0」とするように数式化を作成しています。


これにより、例えば画像に示す例では、D1のキーワードである「パッケージ」または「ダイスタック」がA3のセルに含まれるため、D3セルが「1」になります。

このような仕組みとすることで、キーワード抽出用テキストを参照しながらキーワードを追加することができるため、例えば別のシートに対応表を設ける場合と比べて効率的にキーワードを調整することができます。また、ラベル語とキーワード群とのセットを別シートで管理するようなことはしていないため、管理も簡素化できます。

そして、このような集計ができることで、エクセルのフィルター機能で関連キーワードを含む行(出願)だけ抽出してスクリーニングをしてもよいですし、COUNTIF(S)関数などの関数を使った集計をすることでキーワードに関する単純集計やクロス集計をすることもできます。これにより、例えば複数の技術概念についての出願件数の推移を比較するような分析もできます。

また、この例では名寄せをする対象をキーワードとしていますが、出願人でも特許分類でも集計できるので様々な分析に応用することができます。特にIPCの場合には、以前の記事で紹介した「配下の分類までリスト化するツール」を併用することで、配下の分類まで簡単にリスト化してラベル行に入力することができます。これにより、サブグループ内での階層構造も考慮した集計もできるようになります。

更に、このツールでは、当初TEXTSPLIT関数を使って数式を作っていたのですが、新しいエクセルでしか使えないと利用できるユーザーが限られるため、古いエクセルでも使用できるFILTERXML関数を使った代替関数を使うことでMicrosoft365以外のエクセルでも利用することができます。

ということで、今回のツールですが開発してから半月も経っていませんが、早速多くのケースで活用して成果が出せており、久しぶりによいツールができたと思っています。

今回の記事は以上です。

 弊所では今回説明したような手法・ツールなど様々な特許情報分析の手法を鋭意開発しており、クライアントの要望に沿った分析手法の開発も行っています(なお、弊所では顧問契約をしていただいているクライアント様には弊所開発のツールを自由に利用して頂いています)。

 また、このような分析手法に関する個別指導・セミナーや、個別の分析プロジェクトについても対応可能です。ご相談などありましたら管理人の特許事務所のページからお知らせください。

 よろしくお願いします。