自分はNLPのどんな部分が好きだったんだろうと最近ふと思うことがある。こんなことを書くと懐古厨や老人だと思われるかも知れないが、最近のLLMの急速な発展を横目に、before-LLMのあの頃の自分を振り返ることがたまにある。 あの頃は、LLMのような単一のモデルであらゆるタスクが解けることはなくて、翻訳なら翻訳、固有表現抽出なら固有表現抽出のモデル構造があり、それ専用にデータを収集し整備していた。モデル構造の複雑さはあまりなく基本的にはデータが全てであり、その元をたどれば機械学習のタスク設計のユニークさとそれを解くだけの専用のデータ量が鍵であった。だから、アカデミックで日々競われる王道のタスクやベンチマークが存在する一方、企業の中で独自に必要とされるタスクや、個人で利用するような用途の限られたモデルも作れる幅があった。機械学習モデルをサクッと作れるパッケージは存在したが、データ収集や前処理