タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

toolに関するgimonfu_usrのブックマーク (1)

  • GPT-4oの中国語トークンはポルノとスパムに汚染されている

    2024年5月にOpenAIの最新AIモデル「GPT-4o」が発表されました。テキストや音声、カメラの入力を人間と同じぐらいの速度で処理可能という高い性能であることが報じられているのですが、一方で、中国語ユーザーからは、トレーニングに大きな問題を抱えていて、トークンデータが汚染されていることが指摘されています。 Just wrote a script to further investigate how the corpus used to train the gpt4o tokenizer is polluted by Internet scams. The results are quite interesting... 🤦‍♂️🤦‍♂️🤦‍♂️https://t.co/Fc2T4rSHix https://t.co/Q1Syh9amJn pic.twitter.com/lQ1u

    GPT-4oの中国語トークンはポルノとスパムに汚染されている
    gimonfu_usr
    gimonfu_usr 2024/05/21
    "日本語のトークンに関しても「風吹けば名無し」など、5ちゃんねるや関連サイトをもとにしたデータが含まれて"
  • 1