エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ChatGPTに日本語テキストを入力するとき、日本語テキストがどのように分割されてトークンに変換されるかをtiktokenでのぞく - nikkie-ftnextの日記
記事へのコメント4件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
ChatGPTに日本語テキストを入力するとき、日本語テキストがどのように分割されてトークンに変換されるかをtiktokenでのぞく - nikkie-ftnextの日記
はじめに これも1つの願いの鍵探し1、nikkieです。 先日tiktokenデビューし、ChatGPTのAPIを呼び出さず... はじめに これも1つの願いの鍵探し1、nikkieです。 先日tiktokenデビューし、ChatGPTのAPIを呼び出さずに入力トークン長が分かるようになりました。 その中で、ASCII以外の文字(例:日本語)については、トークン(bytesオブジェクト)がそのままでは読み解けませんでした。 読み解くための方法についてこのエントリでアウトプットします。 目次 はじめに 目次 前回のtiktoken! 英語の場合 日本語の場合 Encodingでデコードして得られたbytesのリストと、元の文字列との対応を取りたい nikkieが唯一知っていたこと:strとbytesは相互に変換できる 元の文字列をbytesに変換してみた 長さが3の倍数なら戻せる! 長さが3の倍数ではないとき(1文字が複数トークンに分割されているとき) 試行錯誤まとめ bytesを読み解き、元の文字列と対応を取るスクリプ
2023/04/27 リンク