PatBaseの分析用データの前処理

 今回はPatBaseで分析するデータをエクセルの新しい関数群を使って分析できるようにする前処理の話です。

 PatBaseでも他の特許データベースと同じように分析用のデータをダウンロードできます。しかもグローバルの出願をファミリー単位や出願単位などで自由に設定してダウンロードすることができるので、クライアントの分析目的に応じて分析をすることができます。

 このダウンロードで取得するデータは、ファミリー単位に1行のデータにまとめるか、1出願ごとに1行のデータにまとめるかを選択できます。
 例えば、10万ファミリーを超えるような母集団を分析するときには、ファミリー単位にまとめた方が便利です。
 また、1行のなかで各出願の情報を列に分けて出力したり、全ての出願の重要な情報を1列というか1つのセルにをまとめて出力したりすることができます。

 ここで、ファミリー単位でまとめつつ、全ての出願の情報を1つのセルにまとめると画像のようにとても多くの情報がまとまって出力されます。

 このように、1つのセルに単に複数のデータが区切文字で区切られて含まれるだけでなく、複数種類のデータの組み合わせであるデータセットがまとまっているようなときには、分析ツールで分析できるようにデータを前処理するのはなかなか骨が折れます。

 しかし、Microsoft365のエクセルで追加された新しい関数群を使うと分析できるように加工することができます。この例では、上の画像のように1セルにまとまっていたデータに対して所定の数式で処理することで、下の画像のように、データの種類を列方向にとり公報毎のデータセットを行方向に分割した配列にしています。

 なお、今回もMicrosoft365で実装された配列を扱う関数を使っています。Microsoft365よりも前のエクセルでも配列を扱う関数はあるのですが、1つのセルから1つの数式でこの形にするのは難しいです。

 さらに、このように配列化されたデータを使い、ユニーク値を算出したり所定条件の集計したりすることで、重複しない出願番号を抽出したり、ファミリー毎のステータスの集計をすることもできます。そしてこれらの数式は1行のなかで完結できるので、データが何万ファミリーあろうが基本的にはその数式を設定するだけ処理することができます。

 そして、このようにデータが整理されていれば、パテントマップEXZのような分析ツールに取り込んで自由に分析をすることができます。以上のように、よく分析する人であれば、これらの機能を使うためだけでもMicrosoft365をサブスクで導入する価値があると思います。

 さらに、PatBaseでは最近、特許の評価スコアを算出する機能も追加されました。
 この機能による分析用のデータでは、1つのセルに最小値、最大値、出願(公報)ごとの個別スコアのリストが含まれています。このようなデータで分析ツールでは直接分析することができないので、新刊数群を組み合わせた数式を使うことで最小値、最大値、リストからの平均値などを算出することができます。

 これにより、ファミリーのなかの一番高いスコアでファミリーを比較したり、ファミリー単位で合計スコアを算出して比較するようなこともできるようになります。

 8/25に開催予定の以下のセミナーでは、医薬品をテーマにした特許情報分析手法について説明しますが、分析事例としてグローバルのがん治療薬(A61P35)の出願についての分析例も紹介する予定です。上記した画像は、そのセミナーで説明するデータの取得例ですが、医薬品の特許では1ファミリーに含まれる出願件数が数百件と非常に多いものがあります。

医薬分野における特許情報分析入門講座【LIVE配信】 | セミナーのことならR&D支援センター (rdsc.co.jp)

 なお、このセミナーでは講師紹介で割引した価格での受講が可能ですので、特許事務所の[お問い合わせ]からご連絡いただければ割引価格で参加できる申込方法をお知らせできます。

 以上の手法を含め弊所では様々な特許情報分析の手法を用意しています。また、クライアントの要望に沿った分析手法の開発も行っています。
 このような分析手法に関する個別指導・セミナーや、個別の分析プロジェクトについても対応可能です。ご相談などありましたら管理人の特許事務所のページからお知らせください。
よろしくお願いします。