サイト内の現在位置を表示しています。

ブログ

OSS貢献活動

変化の激しいオープンソースソフトウェアのプロジェクトをカテゴリー分けする手法 (PICMET'22)

2022年9月7日公開

202287()11()に米国オレゴン州ポートランドで開催された国際会議「PICMET'22(2022 Portland International Conference on Management of Engineering and Technology)において、NECからA Methodology to Categorize Rapidly Changing Projects of Open Source Software(変化の激しいオープンソースソフトウェアのプロジェクトをカテゴリー分けする手法) と題した発表を行いました。本国際会議は、838の投稿があり、26カ国から約200の発表がありました。

本記事では、発表者である、私 (NEC 岩見 紫乃) が、内容の概要についてご紹介します。

この手法を行う背景として、以下の課題があります。

・OSSの数は年々増えており、人の手ですべてをカテゴリー分けするのは現実的ではない。
・OSSの数とともにOSSの盛衰も激しく、カテゴリー分けを人で頻繁に行うのは労力が膨大になる。

現在は、各組織が、自分の組織に縁の深いOSSに絞って、専門家の知識でカテゴリー分けを行っています。それぞれの組織で別の範囲で行うため、異なるカテゴリー分けになります。一つのOSSでも、組織が異なれば、別のカテゴリーに分類されるのです。

そこで、本発表では、OSSを自動でカテゴリー分けを行う手法を提案しました。

まず、図 1のように、1つのOSSのレポジトリにタグaとbが同時に存在する時、aとbは共起の関係にあります。他のOSSのレポジトリにおいても、タグaとb、あるいは、bとcのような別の関係が抽出できるので、これらの関係を繋ぎ合わせるとタグのネットワークができます。このネットワークをクラスタリングすることで、関連の深いタグは同じグループに配されて、ネットワークはいくつかのグループに分けられます。このグループ分けを、OSSのカテゴリー分けとして活用します。また、それぞれのグループ内における頻出語も、クラスタリングと同時に抽出して、グループ内容の特定に利用します。

1: この分析の作業ステップ.

この結果、図 2のように、GISなど地理関係のグループ(4位のクラスター)や、ビデオなどのマルチメディアのグループ(3位のクラスター)など、以前に手動で行っていたカテゴリー分けでは認識していなかったカテゴリーを発見することができました。

picmet22-02.png

2: クラスタリング結果の一例.

現在は、本手法によるOSSのカテゴリー分けを行った後、分類名のラベル付けは内容を精査して、人の手で付けています。今後は、専門家のサポートを得て、手法のさらなる自動化を確立し、一般に使えるように整備してまいります。

OSSに関するテーマ以外での発表

本国際会議では、は、OSS以外のテーマ発表を行ってきました。その中から、活発だった議論も紹介します。

・発表の一つに、PICMETの30周年を記念して、PICMETで採択された皆様のトピックの変遷を集計しました。前世紀は、「Knowledge Management」のテーマが最も多かったが、2005年以降は「Marketing」のテーマが一番に置き換わったことを発表しました。

・また、別の発表では、アンサンブル機械学習を用いて、GDPに相関の高い要因を特定しました。ある国で45-54歳の高等教育を受けたことがある率がGDPと相関が高いという結果と、彼らが意思決定層だからであろうという考察を述べると、聴講者から高等教育を提供する側として期待が持てる結果であると感想をいただきました。

・データサイエンスがどうして大量のデータから人の気づかない結果を導くか、分析の在り方について議論が及びました。データサイエンティストによる量的分析は、大量のデータを用いて比較的簡単に要因を見つけることができるが、その真偽(因果)については、個別の要因を深く分析するなどさらに調査が必要となります。一方で、社会学者の質的分析は一つの要因を深めることに注力するが、全体を見渡すには手が回らない状況にあります。お互いを組み合わせることで、より強力な分析ができるねと座長がまとめてくださいました。

講演者

岩見 紫乃 (Shino Iwami)
日本電気 (NEC Corporation)

工学博士、CISSP。OSSへの関わりを、データ・ドリブンで判断するための調査・分析と、そのシステム化を行っています。それら調査・分析の結果を題材に、NECのOSSにおける知名度を向上すべく、Open Source Summit JapanやIEEE IEEM等の産学の国際イベントで講演者を務めています。また、国際イベントの座長や査読委員を担当することもあります。(2022年9月時点の情報)

Shino Iwami