IBMは2021年5月11日(米国時間)、AIによるコードの理解と変換をサポートする大規模なオープンソースデータセット「Project CodeNet」を公開した。 このデータセットは、50以上のプログラミング言語で作成され、約1400万のコードサンプルで構成されている。コードの行数は総計約5億行に及び、AI向けのソースコードセットとして最大規模だという。C++やC、Java、Pythonのようなモダン言語で書かれたものが多いものの、COBOLやPascal、FORTRANといったレガシー言語によるものも含んでいる。 Project CodeNetの目的は? Project CodeNetは現在のコーディングにおける3つの主なユースケースに対応する。第一に「コード検索」(COBOLなどのレガシー言語を含む、コード間の自動変換)、第二に「コードの類似性」(異なるコード間の重複と類似性を特定す