タグ

社会と言語に関するsnjxのブックマーク (7)

  • トキポナ - Wikipedia

    一般的に、アクセントは単語の先頭の音節に置かれる。 音素の分布[編集] 統計的な母音の分布は、他の言語と比較するとかなり典型的である。単語を1回ずつ数えると、母音の32%が/a/、25%が/i/、15%強が/e/と/o/、10%が/u/である。10kBのテクストでの使用頻度はわずかに偏っており、/a/が34%、/i/が30%、/e/と/o/がそれぞれ15%、/u/が6%であった。 音節頭の子音のうち、/l/が最も一般的で、合計20%を占める。/k、s、p/が10%を超え、鼻音/m、n/(音節末のnは含まず)が続き、/t、w、j/が最も少なくそれぞれ5%強であった。/l/の頻度が高く、/t/の頻度が低いのは、世界の言語の中でもやや珍しい特徴である。[独自研究?] 文法[編集] 品詞[編集] 文脈によって単語の品詞が決定されるものが多く、あいまいさが大きい。 名詞[編集] 地名や言語名は修飾語

    トキポナ - Wikipedia
  • 大規模言語モデルの驚異と脅威

    2022年11月にOpen AIが公開したChatGPTが世界で注目を集めている。一般ドメインかつ多言語で、従来のチャットボットとはレベルの異なる高品質の対話をリアルタイムに実現するサービスを(Research Preview版ではあるが)無料で提供し、検索、金融、広告、教育、法務などの広範囲な分野の転換点となり得ることは、驚異的なことである。講演では、ChatGPTがベースにしているInstructGPTを中心に、大規模言語モデルやプロンプト、人間のフィードバックによる強化学習などの技術を概観する。また、ChatGPTのような生成型の人工知能が社会やビジネス、学術にもたらす脅威について述べる。 https://aip.riken.jp/sympo/sympo202303/

    大規模言語モデルの驚異と脅威
  • 野尻抱介の「ぱられる・シンギュラリティ」第17回 嘘つきは創造の始まり│ケムール

    007巻き方小津安二郎小説小野繙山ゴハン山梨ソロキャンプアワード山田勇魚川奈まり子工芸作家市川海老蔵対策幌倉さと平塚年齢制限店舗庭ゴハン廃番弥富マハ彫刻家彫金小林圭輔対処法御徒町奇才紳士名鑑増税変え方多崎ろぜ大園恵実大庭繭大手失われた青を求めて失敗女性向け寄木女流雀士女郎蜘蛛姉の結婚安い安さ実話怪談宮台真司家庭家族影響徹底坂上秋成旅行/レジャー故障教えて!「聖蘭(せいら)20歳」さん斜線堂有紀新作新幹線方山敏彦方法旅行星をみるひと改善映画時間暇つぶし書評最新月曜日のたわわ有楽町有限会社ファクタスデザイン朝藤りむ改正採用怖い話手塚大輔怪談怪談一服の集い恋は光成人成年年齢引き下げ成長戦野の一服手作り手巻きたばこ掌編小説手巻きタバコ手書き地図手順投稿怪談投資持ち方持ち込み捨て方掃除境貴雄地図木原直哉体験記付け方会津木綿伝説の92住宅ローン佐々木 怜央佐々木亮介佐々木愛実佐藤タイジ作家今日のほごに

    野尻抱介の「ぱられる・シンギュラリティ」第17回 嘘つきは創造の始まり│ケムール
  • 【徹底解説】『メッセージ』に隠された世界観の変容を物理学研究者が読み解く | Fan's Voice | ファンズボイス

    記事には映画『メッセージ』のネタバレが含まれます。 まずは簡単に『メッセージ』のあらすじを復習しておこう。 突如地球の各地に来訪した楕円状の黒い宇宙船。地球外生命体の訪問と人類は気づき、彼らとの意思疎通を図るため、世界的言語学者のルイーズ・バンクス(エイミー・アダムス)が派遣された。始めは、地球外生命体「ヘプタポッド」が扱う異質な言語の難解さに気が滅入っていたルイーズだったが、学ぶにつれて言語が内包していたヘプタポッドの世界認識を理解していく。人間は「原因が結果を生み出す」というように因果論的に世界を認識しているが、ヘプタポッドの認識は過去・現在・未来を同一視する、いわゆる同時的認識様式に基づいていた。同時的認識様式を獲得したルイーズは、自分の娘の死が未来に待ち構えていることを知りながらも、後の夫となる物理学者のイアン・ドネリー(ジェレミー・レナー)と共に過ごしていくことを選択する。い

    【徹底解説】『メッセージ』に隠された世界観の変容を物理学研究者が読み解く | Fan's Voice | ファンズボイス
  • 西暦2018年を他の元号で表すと2561年?4351年?それとも1439年? - QR Translator

    は今年西暦2018年(平成30年)を迎えましたが、来年には元号が変わると話題になっています。 先日、QR Translatorのコンテンツを制作していると、「クーポンの有効期限は2018年までです。」というテキストがありました。日語の他にも英語や簡体字、繁体字や韓国語などの多言語展開をしていた為、他の言語を見比べていると、なんとタイ語だけ数字部分が「2561」になっていました! タイ語だけ年号の数字部分に誤りがあったのかと思い、念の為調べてみたところ、タイには「タイ太陽暦」といった独自の換算方法が用いられていることが分かりました。 日でも西暦とは別に和暦(現在は「平成」)が使われていますが、他の国でも独自の表示が使われていることがあるようです。 元号(げんごう)は、特定の年代に年を単位として付けられる称号である。年号(ねんごう)とも呼ばれることもあるが、元号のみならず、紀年法の名称

    西暦2018年を他の元号で表すと2561年?4351年?それとも1439年? - QR Translator
  • ぼくたちのかんがえたさいきょうのi18n国家

    記事は下記のtweetから始まるスレッドに触発され、@qnighyや@na4zagin3からアイディアを拝借して書いた。 i18n力が最強の国は国内に複数の言語があり、そのうちいくつかは他国でも使われている言語の方言で、1バイト文字での代替表記が困難で、歴史的にISO-2022ベースの文字コードとUnicodeと独自エンコーディングが混在していて、フリガナなどの特殊な組版規則があり、右書き左書き縦書きを併用し、 — Masaki Hara (@qnighy) 2018年8月6日 皆さんのおかげで最強のi18n国家が建設されつつある。一瞬で滅びそう — Masaki Hara (@qnighy) 2018年8月6日 長い前置き ソフトウェアのi18nは難しい。自文化では当たり前と思っていてハードコードしてしまった仮定が崩れて、大幅な再設計を余儀なくされるからだ。気づいて再設計できればまだ良

    ぼくたちのかんがえたさいきょうのi18n国家
  • 絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama

    UnicodeのUTF-16エンコーディングではほとんどの文字(コードポイント)は2バイトで表現されるが、Unicodeに後から追加収録された文字の多くは4バイトで表現される。4バイト文字がうまく扱えないプログラムというのはわりとよくある。しかし世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に向かいつつある。それについて少し説明してみようと思う。 Unicodeが80年代から90年代初頭にかけてデザインされたときの目標の一つは、Unicodeに含まれる文字数を65536個以内に収めることだった。現代の文章を実用的なレベルで表すためには、漢字などを含めてもそれだけの種類の文字があれば十分だと考えられたのだ。当然これは1文字を2バイトで表すことを念頭に置いていた。つまりコンピュータの揺籃期から当時に至るまで単純に英語

    絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama
    snjx
    snjx 2017/11/13
    かくして、世界中の人間が表意文字を使うようになったのだ。
  • 1