前回に続く、AIアライメントに関する私的考察。寝る前の時間の殴り書きメモである。今日は、「AIアライメント問題」にはいくつかの種類がありそうだという話をしてみる。 なお、私がこのテーマについて書くことはすべて、素人の印象論にすぎないことをお断りしておきます。すでに専門家の間では議論されつくされているかもしれないことを、先行研究を調べる手間も取らずに、勝手に考えて書いている。そういうものでもちょっと読んでみようと思える時間的余裕のある方にだけ、目を通していただければ幸いです。 私の印象では、近年の「AIアライメント問題」として議論されている問題には、大きく二つの種類が混ざっているように見受ける。一つ目は、LLMなどの「入力を出力に変換する装置」としてのAIモデル/システムを対象に、その出力が人間の価値観や意図と整合させるにはどうすればようかという問い。「公平性」「バイアス」「説明可能性」など