はじめに これも1つの願いの鍵探し1、nikkieです。 先日tiktokenデビューし、ChatGPTのAPIを呼び出さずに入力トークン長が分かるようになりました。 その中で、ASCII以外の文字(例:日本語)については、トークン(bytesオブジェクト)がそのままでは読み解けませんでした。 読み解くための方法についてこのエントリでアウトプットします。 目次 はじめに 目次 前回のtiktoken! 英語の場合 日本語の場合 Encodingでデコードして得られたbytesのリストと、元の文字列との対応を取りたい nikkieが唯一知っていたこと:strとbytesは相互に変換できる 元の文字列をbytesに変換してみた 長さが3の倍数なら戻せる! 長さが3の倍数ではないとき(1文字が複数トークンに分割されているとき) 試行錯誤まとめ bytesを読み解き、元の文字列と対応を取るスクリプ