タグ

日本語に関するturu_craneのブックマーク (66)

  • 最新のSafari 17.4、日本語の縦書き表示をサポート。Webkitのインラインレイアウトエンジンの全面的な書き換えが完了と報告

    AppleのWebブラウザ「Safari 17.4」で、日語の縦書き表示が可能になった。バージョンではWebKitのインラインレイアウトエンジンの全面的な書き換えを完了し、相互運用性やパフォーマンスが向上した。 Appleは、3月5日付けでリリースされたiOS 17.4、iPadOS 17.4、現在ベータ版のmacOS Sonoma 14.4などにバンドルされるWebブラウザ「Safari 17.4」で、日語の縦書き表示が可能になったことを明らかにしました。 AppleはこのSafari 17.4で、過去21年間使われてきたレンダリングエンジンであるWebkitのレガシーなラインレイアウトエンジンをついに廃止し、インラインレイアウトエンジンの全面的な書き換えを完了したことを報告しています。 これにより、最新のWeb標準での相互運用性が向上し、インラインレイアウトのバグが減り、パフォー

    最新のSafari 17.4、日本語の縦書き表示をサポート。Webkitのインラインレイアウトエンジンの全面的な書き換えが完了と報告
  • 「API」というワードを「資源」や「制限そのもの」のように使うことについて国語辞典編纂者の飯間浩明先生が考察

    飯間浩明 @IIMA_Hiroaki 1967年10月21日、香川県高松市生まれ。国語辞典編纂者(出版社社員ではありません)。『三省堂国語辞典』編集委員。著書『日語はこわくない』PHP、『日語をもっとつかまえろ!』毎日新聞出版、『知っておくと役立つ 街の変な日語』朝日新書、『ことばハンター』ポプラ社 他。『気持ちを表すことばの辞典』ナツメ社 も監修。 asahi-net.or.jp/~QM4H-IIM/ 飯間浩明 @IIMA_Hiroaki APIというのはインターフェイスの一種、非常にざっくり言えば「仕組み」の一種ですね。たとえば、ツイートを投稿したり閲覧したりする場合、ツイッター閲覧アプリはサーバからそのための「仕組み」を呼び出す。今回、その呼び出し回数に制限がかかった、ということと理解していいんでしょうね。 pic.twitter.com/Q3Obb1NNAV 2023-07-

    「API」というワードを「資源」や「制限そのもの」のように使うことについて国語辞典編纂者の飯間浩明先生が考察
  • 「視覴」の謎

    ChatGPTが「視覴」という新語を発明したらしいことをフガクラさんのツイート(2023-06-08 08:51:02 JST)で知る。 すでに「視覴」は、いくつかの最近書かれたWebページで使われていた。ChatGPTで生成されたページらしい。ざっと検索して見つけたページを列挙しておく。いずれも最近作られたか修正されたページである(1件だけ2020年のページがあるが、最近修正されたものかどうか不明)。 映像・音声編集におけるノーマライズの重要性!(2023-05-11)「視覴的・聴覚的な一貫性」「視覴的な効果を最大化」「視覴的な混乱を避け」(2回)なお、このページは現在消えて視覴とは?AIChatGPT)が出力した新しい言葉なのか?(2023-06-08)にリダイレクトされ、「弊社では、2023年3月より用語集作成に際しAIライティングの試験運用を行っておりますが、この度、「視覚」の誤

  • ChatGPTに日本語テキストを入力するとき、日本語テキストがどのように分割されてトークンに変換されるかをtiktokenでのぞく - nikkie-ftnextの日記

    はじめに これも1つの願いの鍵探し1、nikkieです。 先日tiktokenデビューし、ChatGPTAPIを呼び出さずに入力トークン長が分かるようになりました。 その中で、ASCII以外の文字(例:日語)については、トークン(bytesオブジェクト)がそのままでは読み解けませんでした。 読み解くための方法についてこのエントリでアウトプットします。 目次 はじめに 目次 前回のtiktoken! 英語の場合 日語の場合 Encodingでデコードして得られたbytesのリストと、元の文字列との対応を取りたい nikkieが唯一知っていたこと:strとbytesは相互に変換できる 元の文字列をbytesに変換してみた 長さが3の倍数なら戻せる! 長さが3の倍数ではないとき(1文字が複数トークンに分割されているとき) 試行錯誤まとめ bytesを読み解き、元の文字列と対応を取るスクリプ

    ChatGPTに日本語テキストを入力するとき、日本語テキストがどのように分割されてトークンに変換されるかをtiktokenでのぞく - nikkie-ftnextの日記
  • デジタル環境での日本語入力にまつわるちょっとマニアックな話

    馬場 久志 『仕事力を高めるデジタル文章術』(河口鴻三、日経済新聞出版社)を読んだのをきっかけに、最近考えたことや行なったことを書いてみます。といっても、書評ではありません。 日語とITに関する少々マニアックな内容ですので、適宜、ググるなり流し読みするなりしてくださいませ。 ■手書き派? キーボード派? 突然ですが、この星空文庫に投稿するような文章を書くとき、あなたは紙とペンで書きますか? それとも最初からPCなどにキーボードで入力しますか? 僕は昔から手書き派です。学生時代はルーズリーフにシャーペンという組み合わせが常だったため、授業以外で何らかの文章を書くときにもそれらを使うのが自然な流れでした。それに、言葉をひねり出すのにかかる時間が手書きのスピードにちょうど合っていたという事情もありました。 社会人になってからも、趣味で文章を書くときにはルーズリーフを使い続けて今に至ります。

  • 【速報】回文王、現る ガチですごい 想像の85倍すごい : 哲学ニュースnwk

    2022年11月13日14:00 【速報】回文王、現る ガチですごい 想像の85倍すごい Tweet 1: それでも動く名無し 2022/11/13(日) 10:49:06.99 ID:+DyNfKsAd えぐいな https://kaibun.jp/ 3: それでも動く名無し 2022/11/13(日) 10:49:50.18 ID:Tdecmx9X0 こういう長いのはしょうもないわ 美しくないね 4: それでも動く名無し 2022/11/13(日) 10:50:03.35 ID:uGR7qqJx0 ワイは好き 5: それでも動く名無し 2022/11/13(日) 10:50:16.22 ID:6xExIheM0 4位みたいな短文でおもろいのがええねん 9: それでも動く名無し 2022/11/13(日) 10:51:06.06 ID:DEd61DBNF >>5 同一人物ニキやで 23:

    【速報】回文王、現る ガチですごい 想像の85倍すごい : 哲学ニュースnwk
  • 開いたほうがよいと思う漢字 - ただいま村

    いくらスペースキーを押すだけで漢字に変換されるといっても、これはひらがなに開くのがいいんじゃないだろうかと思う言葉を集めてみた。 特に、漢字そのものは難しくないんだけれど、その読み方は難しいと感じるものを中心に。 特に難しいと感じるもの 仕事で受け取った原稿で使われていたら、問答無用で開いちゃうであろうもの。読めるぜ! みたいな自慢にもどうぞご利用ください。 弄る(もてあそる…?)→いじる 拙い(せつい…?)→まずい 惨い(さんい…?)→むごい 確り(かくり…?)→しっかり 扱く(あつかく…?)→しごく 漸く(ぜんく…?)→ようやく 暫く(ざんく…?)→しばらく 某か(ぼうか…?)→なにがしか 微か(びか…?)→かすか 態々(たいたい…?)→わざわざ 偶々(ぐうぐう…?)→たまたま 努々(どど…?)→ゆめゆめ 些か(さか…?)→いささか 労う(ろうう…?)→ねぎらう 零す(れいす…?)→こ

    開いたほうがよいと思う漢字 - ただいま村
    turu_crane
    turu_crane 2022/10/18
    大抵のひとが読めるけど開きたい漢字 だと「全て」は「すべて」に開きたい派閥。あとは「色々」とかかな
  • 日本語の『ん』の発音の違いの例文に『とんかつ専門店よ』が用意されるの面白い「それぞれ発音違うんか…」

    海野藻屑 @yoogoolt ベロが口腔内で浮く 唇がムッてくっつく 歯に近いとこの上顎に舌の先端がつく 上顎の中頃と舌の真ん中らへんが近づく なのかな 興味はあるけどこの辺の発音のちがいは難しすぎて分かんない。東北の民だから発音するとき意識しないとあんまり舌動かない twitter.com/rabdoslogos/st… 2021-11-01 01:27:31

    日本語の『ん』の発音の違いの例文に『とんかつ専門店よ』が用意されるの面白い「それぞれ発音違うんか…」
  • 「的を得る」と「汚名挽回」─三省堂国語辞典の訂正をめぐって─

    吉海 直人(日語日文学科 教授) 日語の慣用表現の中には、間違って使われていると思われているものが少なくありません。例えば「的を射る」と「的を得る」はいかがでしょうか。あなたはどちらが正しいと思いますか。普通には「的を得る」は誤用とされているのですが、既に江戸時代の『尾張方言』というに「的を得ず」とあるので、単純に誤用とは断言できそうもありません。 もともとこの表現は弓に関わるものですから、武士階級の中で生まれたものと思われます。ですから使用範囲は狭かったはずです。それが庶民に広がったことで、誤用が生じたのかもしれません。ただし必ずしも誤用ではなく、そこに方言が紛れ込んでいる恐れもあります。 政権が京都から江戸に移ったことで、関東の言葉が主流になっていきました。さらにそこに東北方言などが流入することになります。かつて会津藩出身の新島八重について調べていた際、「い」と「え(ゑ)」の区

    「的を得る」と「汚名挽回」─三省堂国語辞典の訂正をめぐって─
  • なか卯条件文の言語学(その1)

    「なか卯条件文」というのがあるらしい。 なか卯の券売機で、しばらく操作をしないと「選択が終われば、お金を入れてください。」という音声案内があるのですが、この、「〇〇れば、~してください。」という表現が聞きなれず、毎回違和感を感じてしまいます。 (Yahoo!知恵袋 2017/6/14) という相談が824回も閲覧され、3つも回答が来ているというのは驚異的なことだ。 また、言語学者のまつーらとしお氏のツイッターでも、 なか卯の券売機「選択が終われば、お金を入れます」って言うという発見(2017/10/2) と取り上げられている。 長年条件文研究を続けてきた身としては、ここを外したら、二度と注目されることはない、と、ひさしぶりにブロガーを開いた。あまりに久しぶりだったので、パスワードも忘れていて、設定に手間取った。 さて、この「なか卯条件文」だが、これは、現代日語の文法研究者の間では、そこそ

    turu_crane
    turu_crane 2021/09/17
    なか卯の券売機の文言について
  • 悟空訛り生成ツールをつくってなんでも悟空にしたい

    北海道在住の大学生。演劇サークルに所属していますが、やったことがあるのは音響担当・舞台装置担当・当日宣伝担当で、一度も演技をしたことがありません。好物はパステルのなめらかプリン。 前の記事:北海道の部屋の方が東京よりもちょっと暑い 悟空訛りを簡単につくりたい ドラゴンボールの主人公である孫悟空。「オラ」「ぜってぇ」「すっぞ」など、その喋り方はとても特徴的だ。「オラ、ワクワクすっぞ~」なんて言う人は現実にはほぼいないだろうが、悟空は確実に言う。 ふつうの文章を悟空訛りに変換できるツール、つまり「悟空訛り生成ツール」を作った。 恥ずかしいのでぼかしましたが、プログラミング言語のひとつであるPythonを使ってごりごり書きました ふつうの日語文を入力すると なんと悟空になって出力される 実はこれ、3年ほど前に大学での課題で作ったもので、最近PCのデータを整理しているときに偶然発掘。「懐かしいな

    悟空訛り生成ツールをつくってなんでも悟空にしたい
  • [PDF]横書き句読点の謎 渡部善隆

    y A B A B A B A B ([1]) A B y A case 1 case 2 case 3 B A B Vol.27,No.5 A B H.N K A B A 1 A [2] 20 |30 18 B A ( ) A B A B A punctuation punctuation 16 17 B A 1886 punctua- tion B A B A 39 (1906) B A 21 (1946) B A 19 B A 1) 2) (1946) A 2 : T ; T T T \ " T T ( ) { T T 21 ( \T" ) B A B A B A B A B A B A B A punctuation orthography B A B A 3 (1946) B A B A B A A B A B A 3 0 2 1 + 3 0 2 1 + 3 0 2 1 + 3

  • 洋画・海外ドラマの「吹替版ダジャレ」はどうやってできるの?プロに聞いてみた | オモコロ

    原語だとダジャレだけど直訳するとダジャレにならない…そんなときに作られる「吹替版ダジャレ」の謎に迫ります。 こんにちは、ライターの加味條です。 皆さんは、洋画や海外ドラマの吹替版を見ていて、こんなシーンに出会ったことはないでしょうか? この例のダジャレはちょっとあれですが、実際の洋画や海外ドラマにはたくさんのウィットに富んだジョーク・ダジャレが登場します。 しかし、ここで一つの疑問が浮かびます。 日語では言葉遊びが成立していますが、当然ながらそもそものオリジナル版は英語で作られています。 そのため英語のジョークをそのまま日語に訳したのでは、意味が分からないものになってしまうはずです。 しかし、実際の吹替版では日語のダジャレが成立している……。 つまり吹替版制作時に、 ①もともとは英語ダジャレになっていた箇所を、 ↓ ②日語に直訳したのではダジャレが成立しないから、 ↓ ③別の日

    洋画・海外ドラマの「吹替版ダジャレ」はどうやってできるの?プロに聞いてみた | オモコロ
  • Microsoft、文字起こしアプリ「Group Transcrib‪e‬」を公開 - iPhone Mania

    Microsoft文字起こしアプリ「Group Transcrib‪e‬」を公開 2021 3/16 Microsoftは3月上旬、対面での会議や会話のためのリアルタイムのテープ起こしと翻訳を提供する「Group Transcrib‪e‬(グループ転写)」のiOSアプリをリリースしました。会議の参加者がそれぞれのデバイスで使用することができます。 メモを取らずに会議に集中できる優れもの 最先端のAI音声・言語技術を搭載したGroup Transcribeで、会話の参加者は共有セッションを開始し、それぞれが携帯電話のマイクを使用して、リアルタイムで誰が何を言ったかを示す、非常に正確なトランスクリプトをキャプチャできます。 会話の高品質な記録に自信を持つことで、ユーザーはメモを取る必要がなくなり、会話そのものに注意を集中させることができます。トランスクリプトは、共有したり、再配置も簡単に行う

    Microsoft、文字起こしアプリ「Group Transcrib‪e‬」を公開 - iPhone Mania
  • 【マーティ&上坂すみれ 昭和・平成ソングって素敵じゃん】歌詞に交じる不思議な英語のワケ | 東スポの本紙企画ネタに関するニュースを掲載

    マーティが気になるコトを上坂(右)も一緒に考えてみた 昭和生まれのアラフォー~アラ還が懐かしむ歌手や楽曲を、平成生まれのアイドルと外国生まれのミュージシャンはどう聴くのか。マーティ・フリードマンと声優・歌手として活躍する上坂すみれが、今回は歌詞に交じる英語について考察する。曲を聴きながら読んでみてください。 【歌詞に英語が入る件】 マーティ 日の昔のヒット曲や最近のJ―POPを聴いてて、気になることがあるんですよ。歌詞に急に英語が入る曲が多いじゃん。ああいう時、聴いてる人は意味がわからなくなりませんか? 上坂 簡単な、理解できる英語であることが多いので、そんなに気にしていませんでした。わからない時は楽器の音みたいな感覚で流している感じですかね。 マーティ 僕は英語の曲にワンフレーズわからない言葉が入っていたら、すごく気になります。 上坂 確かに、マーティさんからすると、アメリカ英語曲の

  • 絶対に仏教由来語を使ってはいけない異世界

    「勇者さま、お願いします! どうかこの世界を」デデーン 光に包まれて気づいたら見知らぬ場所にいた。目の前には西洋の魔女崇拝を思わせる、しかしどこかエキゾチックな、装飾付きの黒衣を着た女が身の丈ほどの杖を持って立っている。彼女が口を開いて何か喋ったかと思うと、不安感を煽るような恐ろしい音がどこからともなく聞こえた。 ——召喚師 OUT 天の声が響き、広間の入り口から威圧的な覆面をつけた屈強な人物が入場する。その人物は黒衣の女を跪かせ、 ズバァン!! 「ッアァッ!」 持っていた弾力のありそうな棒で尻を打ち付けた。鈍い音と鋭い悲鳴が上がったのを確認して人物は来た方向へ帰っていった。 「勇者さま、どうかお救いください」 勇者とは自分のことらしい。とにかく、状況を把握しようとした。上からは太陽光と思われる光が差し込んでいる。広間の中で自分がいるところだけを明るく照らすように調整されているようだ。円形

    絶対に仏教由来語を使ってはいけない異世界
  • Wikipediaを元にした日本語の名寄せデータセットを作成しました - Sansan Tech Blog

    こんにちは、DSOC 研究開発部の奥田です。以前の私のブログ記事ではコーギーの動画を見ていると書きましたが、とうとうコーギーを家族として迎え入れ、現在生後6ヶ月の子犬と暮らしております。 さて私たちDSOCでは、SansanやEightの価値を高めるために様々な自然言語処理のタスクに取り組んでおります。例えばニュース記事からの固有表現抽出では、私たちのサービスに特化した固有表現を対象に研究開発しています。その他にも様々あるなかで、特に重要かつ困難とされているものの一つに「名寄せ」というタスクがあります。AI人工知能と呼ばれるものが発達した現代においても、人間には当たり前にできるタスクが機械には難しいことがまだまだ存在します。 今回は、その「名寄せ」というタスクにおける日語でのデータセットを作成してみました。これをきっかけに、日語での名寄せというタスクの研究が進み分野が活性化することを

    Wikipediaを元にした日本語の名寄せデータセットを作成しました - Sansan Tech Blog
  • 日本語ならではのアクセシビリティ 点字、ロービジョンユーザー向けノート、音声認識技術、UD書体

    青木秀仁Shamrock Records株式会社 代表取締役/一般社団法人Code for Nerima 代表理事/イベントスペースNerima Base 管理人 こんにちは。デザイナー/ディレクターの佐野です。 海外では、アクセシビリティに関連するさまざまなカンファレンスが開催されています。私たちも毎年海外カンファレンスに参加し、トレンドを吸収・発信してきました。 アクセシビリティの動向について海外と日を比較する際、どうしても法規制の有無が挙げられがちです。しかし「日語」のもつ特徴に目を向けてみると、日ならではの強みや海外との共通点が見えてきました。 今回は『日語ならではのアクセシビリティ』という観点から、点字、ロービジョンユーザー向けノート、音声認識技術、UD書体についてご紹介します。 サイボウズ株式会社 プログラマーの小林大輔氏、Cocktailz 代表の伊敷政英氏、シャムロ

    日本語ならではのアクセシビリティ 点字、ロービジョンユーザー向けノート、音声認識技術、UD書体
  • 「NHK 日本語発音アクセント新辞典」のiOSアプリを特別セール価格で販売します! | お知らせ | NHK出版からのお知らせ | NHK出版

    NHK語発音アクセント新辞典」のiOSアプリ、期間限定でセール価格に 「NHK語発音アクセント新辞典」のiOSアプリを期間限定(4/2~5/21)の特別セール価格で販売いたします。 18年ぶりに大改訂された「NHK語発音アクセント新辞典」(2016年発行)は、NHKが放送現場で使用する最新のアクセントを収録。 見出し語は約7万5000語。使用頻度の高い日・外国の地名や助数詞も充実させました。現代の日語の発音・アクセントを的確に捉えた必携版です! その「日語発音アクセント新辞典」を解説や資料もふくめ、まるごとアプリ化、さらにすべての語にアナウンサーによる音声を付けました。 アプリの主な機能と特徴 アナウンサーによる、10万を超えるアクセント音声を収録 発音とアクセントを解説した付録を完全収録 書籍の付録に収録されている複合名刺と助数詞(ものの数え方)も検索可能 第2

    「NHK 日本語発音アクセント新辞典」のiOSアプリを特別セール価格で販売します! | お知らせ | NHK出版からのお知らせ | NHK出版
  • 三省堂 辞書を編む人が選ぶ「今年の新語2019」

    言葉は生き物。 時代を映して生まれたり廃れたりします。 あるものは長く使われ、あるものは儚く消えますが、 いずれも私たちの同時代を物語る貴重な証言者です。 辞書のトップメーカーである三省堂が、 「今年の新語2019」を選んで、後世に遺します。 皆様から2019年に「よく見た」「よく聞いた」言葉を募り、 その中から辞書を編む専門家が「今年の新語2019」を審査・選定します。 ベスト10に選ばれた言葉には 国語辞典としての言葉の解説(語釈)をつけて発表します。 さあ、あなたも「今年の新語2019」に応募してみませんか。 言葉(新語)を公募します。 2019年に「よく見た」「よく聞いた」言葉をご応募ください。応募フォームまたはTwitterによるウェブ投稿をお待ちしております。異なる内容の投稿であれば、何度ご投稿いただいてもかまいません。

    三省堂 辞書を編む人が選ぶ「今年の新語2019」