タグ

日本語に関するvccのブックマーク (63)

  • SQLiteでLinderaを使った日本語全文検索 - *iroi*

    これは はてなエンジニアアドベントカレンダー2023 3日目の記事です。 はてなエンジニア Advent Calendar 2023 - Hatena Developer Blog はてなエンジニアのカレンダー | Advent Calendar 2023 - Qiita 昨日は id:pokutuna さんの blog.pokutuna.com でした。私も若い頃に同僚とGitHub上で白熱してしまい観光名所になってしまっていたような気がします。気を付けていきましょう。 さて、この記事では SQLiteでLinderaを使った日語全文検索をする話を紹介します。 モチベーション laiso.hatenablog.com 上の記事でも話題になっているように個人開発ではDBのコストは問題です。同様に全文検索したいときにもコストに頭を悩ませているのではないでしょうか? たとえば Amazon

    SQLiteでLinderaを使った日本語全文検索 - *iroi*
  • Windows Subsystem for Linuxガイド 第24回 WSLgの日本語入力を設定する

    WSLgで実現されるLinux GUIアプリ実行環境は、プレーンなLinuxの実行環境なので、そのままでは日本語入力が行えない。UTF-8による日語の表示に関しては、日フォントを設定してやることにより、簡単に行うことが可能だ。 しかし、WSL2は、仮想マシン内で動作するため、Win32側のWindows IMEは利用できず、WSL2ディストリビューション側に日本語入力環境を構築する必要がある。ここでは、その方法を解説する。ただし、WSLgでの日本語入力は、不完全な動作しか行えず、たとえば、変換時のキー割り当てなどを正しく行うことができない。とはいえ、かな漢字変換して入力を行う最低限の動作は可能だ。 なお、この記事では、WSLディストリビューションとしてUbuntu、あるいはUbuntu-22.04 LTSを想定している。Ubuntu系の他のディストリビューションでもほぼ同じ手順が使え

    Windows Subsystem for Linuxガイド 第24回 WSLgの日本語入力を設定する
  • 日本語の単語を適切な位置で区切って読みやすく改行してくれる軽量でオープンソースなライブラリ「BudouX」の機能&採用例&デモはこんな感じ、Chrome 119に実装予定で簡単に利用できる見込み

    語のページをブラウザで見ているとおかしな位置で改行されることが多いのですが、単語と単語の間にスペースを入れる英語などと異なり、日語では分かち書きがされていないのが原因。単語の途中で文章が折り返されてしまう原因になっています。BudouX機械学習モデルを利用して容量を抑えつつ、サードパーティーのAPIやライブラリに依存せずに分かち書きを行ってくれるオープンソースライブラリなので、読みやすい改行が実現できます。 Google Developers Japan: BudouX: 読みやすい改行のための軽量な分かち書き器 https://developers-jp.googleblog.com/2023/09/budoux-adobe.html BudouXの使用イメージは下図の通り。従来は画面幅によっては「最先端」や「テクノロジー」などの単語の途中で改行が行われてしまう事がありましたが、

    日本語の単語を適切な位置で区切って読みやすく改行してくれる軽量でオープンソースなライブラリ「BudouX」の機能&採用例&デモはこんな感じ、Chrome 119に実装予定で簡単に利用できる見込み
  • 無料公開の「日中韓共通語彙」が便利すぎると話題 語学学者も「すごい資料だ。震える」と有用さにびっくり

    語と中国語と韓国語をまとめて掲載することで、得意な言語と学習中の言語を横断できる資料「日中韓共通語彙」が便利だと話題になっています。誰でも無料で閲覧できるので、言語学習者の心強い味方になってくれそうです。 外国語学習に便利な資料が無料で公開されている(画像は日中韓協力事務局による資料「日中韓共通語彙」より) 韓国教育に従事しながら中国語を学んでいるゆうき(@yuki7979seoul)さんが、「すごい資料だ。震える」と紹介したことで話題に。 「日中韓共通語彙」では日語と中国語と韓国語を横断して確認でき、658語の単語と例文が収録されています。例えば「時間」という項目には「1 ある時刻からある時刻までの間」「2 時刻」「3 過去から現在を経て未来へと絶え間なく流れて行くもの」「4 一日の長さを24で割った長さ。60分の間」と、「時間」という単語の意味を解説しています。 さらに意味ごと

    無料公開の「日中韓共通語彙」が便利すぎると話題 語学学者も「すごい資料だ。震える」と有用さにびっくり
  • 文字コード | 衆議院議員 河野太郎公式サイト

    2023.05.10 官報に使われる「官報文字」というものがあります。 そこには渡辺さんの「辺」の異体字が140文字も登録されています。 日語の常用漢字には2136文字ありますが、そこには邉や邊などは入っていません。 そこでJISの第四水準までを含むJIS X 0213という標準を定め、スマホやパソコンではここまでを標準的に表示できるようにしています。 ところが我が国の戸籍で使ってもよいとされている文字はそれを遙かに超えていて、少なくとも55,270文字もあります。 全ての国民の氏名をコンピュータで扱えるようになることを目指して、戸籍統一文字や住基ネット用の統一文字を網羅した「文字情報基盤」を2011年に策定し、それにあわせたフォントを作成し、無償で提供しています。 この「文字情報基盤」(MJ)には、58,862文字が含まれています。 しかし、このMJを全庁的に採用している自治体は、川口

    文字コード | 衆議院議員 河野太郎公式サイト
    vcc
    vcc 2023/05/11
    戸籍で使ってもよい文字は55,270文字もあります。全ての氏名を扱えるように「文字情報基盤」(MJ)を2011年に策定し、それにあわせたフォントを作成し、無償で提供しています。
  • オンラインドキュメントと日本語全文検索

    自社では Sphinx というドキュメントツールを利用しているのですが、残念ながらこれに付属している検索機能の日語検索はかなり厳しいです。また残念ながら Sphinx 開発側も検索周りを改善するという予定は直近ではないようです。 そして検索というのはとても難しい技術なため自分のような素人では導入して「普通に期待する動作」をさせるまでの距離はとても遠いです。 ただ、なんとかして日語全文検索を実現したいという思いはここ10 年くらいずっと思っていました。これは自社の Sphinx テーマを作ってくれている社員ともよく話をしていたのですが、どうしてもリソースをつぎ込めずにいました。 まとめ日語検索に対応している Meilisearch を採用したドキュメントスクレイパーの実行は GItHub Actions (Self-hosted Runner) を採用した自社 Sphinx テーマの検

    オンラインドキュメントと日本語全文検索
  • なぜ「です・ます」で論文を書いてはいけないのか? 論文を却下されてしまった哲学者が導き出した“答え”とは | 文春オンライン

    『日語からの哲学 なぜ〈です・ます〉で論文を書いてはならないのか?』(平尾昌宏 著)晶文社 副題「なぜ〈です・ます〉で論文を書いてはならないのか?」は、〈です・ます体〉で書いた論文が却下された時に著者がいだいた疑問だ。書では〈です・ます体〉と〈である体〉、さらには〈だ体〉〈である体+だ体〉を視野に入れて話題を展開していく。 しかしタイトルは「日語からの哲学」で、「このは何のですか?」と問われたら「哲学のです」と答えるのがふさわしい。 著者は自身の立てた問いを丁寧に追う。まず自身の考えを整理する第1部「問題編」。次に、これまでどのようなことが主張されているかを、精緻に追いかけていく第2部「国語学・日語学編」。そして、哲学的な考察に入っていく第3部「日語からの哲学編」。さらに、第3部をもとにした第4部「異論と展開編」がある。 著者は「まえがき」で3~8章あたりは「流し読み」して

    なぜ「です・ます」で論文を書いてはいけないのか? 論文を却下されてしまった哲学者が導き出した“答え”とは | 文春オンライン
  • 4大自動翻訳サービスの実力比較と活用ポイント DeepLの弱点が明らかに

    自動翻訳サービスで近年急速にユーザーを増やしているのがDeepLだ。他の自動翻訳サービスと比較してみると長所もあれば短所もあり、無償版と有償版の違いもある。DeepLの特徴や品質、無料版と有料版の比較、複数サービスの効率的な活用についてを解説する。 自動翻訳サービスの中でも急速にユーザーを増やしているのが「DeepL」だ。その訳文を他の自動翻訳サービスと比較してみると、長所と短所が見えてくる。複数の自動翻訳サービスで短所を補完し合えば翻訳品質が高くなるが、その際にはどんなツールが利用できるだろうか。 ヒューマンサイエンスで翻訳事業に長く従事する中山雄貴氏がDeepLの特徴や品質、無料版と有料版の比較について、高野敬一氏が複数サービスの効率的な活用を語った。 DeepLGoogle、MS、Amazon、4大自動翻訳の特徴と比較 DeepLは2017年にドイツでリリースされ、2020年3月に

    4大自動翻訳サービスの実力比較と活用ポイント DeepLの弱点が明らかに
  • iPhone対応“自動文字起こし”アプリ「UDトーク」賢い使い方を開発者に聞いた (1/5)

    アプリや専用デバイスを使った、日語の「自動文字起こし」に関連するサービスには、近年多くの関心が集まっている。背景にはスマホやAIを活用する音声認識テクノロジーが飛躍を遂げたことや、コロナ禍の影響を受けてリモートワークが普及したことなどがある。iPhoneに対応する「UDトーク」も自動文字起こしに対応する注目のアプリだ。開発者に特徴を聞いた。 iPhone/iPadでも使える日語対応の自動文字起こしアプリ コミュニケーション支援・会話の見える化アプリをうたう「UDトーク」は、Shamrock Records(シャムロック・レコード)の代表兼エンジニアである青木秀仁氏が開発を手がけている。 モバイル版アプリはiOS/Android/Fire OSの各プラットフォームに対応する。ほかにも音声認識の結果を修正したり、事前に作成した原稿をスマホやタブレットに送信する一部機能を搭載するMac版/

    iPhone対応“自動文字起こし”アプリ「UDトーク」賢い使い方を開発者に聞いた (1/5)
  • PlemolJPか、それ以外か – プログラミング用フォント徹底比較!

    2021年7月24日。IBMから『IBM Plex Sans JP』がリリースされました。 「だから?」と思われた方、罰としてこのまま長い序文をお読みください。それ以外の方は次の見出しでお会いしましょう。 以前の記事でもお話ししましたが、これまでにリリースされてきた日語対応のプログラミング用フリーフォントは、一部を除いて『源ノ角ゴシック』と『M+』という2つのフォントから派生したもの。 なぜ他のフォントが使われないのか。それは選択肢が無いからです。この2つ以外で、 漢字を網羅しクオリティが高くライセンスフリーで使えるそんな都合の良いフォントはほぼありませんでした。あるとすればそれは、漢字を含まないフォントのみ。 ここに加わってきたのが『Plex Sans JP』という新たな選択肢です。 日常使いできる安定感、多彩なウェイト (太さ) 、そして商用利用可能なフリーフォントであるという大きな

    PlemolJPか、それ以外か – プログラミング用フォント徹底比較!
  • 「禍福は糾える縄の如し」ってどういう意味? - 知っておきたい日本のコトバ

    「禍福は糾える縄の如し」という言葉の意味をご存じですか? 書籍等で見た経験があるという方もいるかと思いますが、詳しい意味まではよくわからない――という方は多いのではないでしょうか。 記事では、「禍福は糾える縄の如し」という言葉の意味や使い方、例文・類語を紹介します。 語彙力の向上は、雑談力やコミュニケーション力の向上につながります。正しい言葉の意味を理解し、ビジネスシーンや日常生活で使えるようにしましょう。 「禍福は糾える縄の如し」をビジネスに活かしましょう 「禍福は糾える縄の如し」の意味 「禍福は糾える縄の如し」とは、「幸福と不幸は交互にやってくるものだ」という意味の故事成語です。読み方は「かふくはあざなえるなわのごとし」。 不幸で悲しみ嘆いていてもいつの間にか幸福になったり、逆に幸福な状態に甘んじていたらまた不幸になったりする――という様子を、紐をより合わせて作られる「縄」のようだ、

    「禍福は糾える縄の如し」ってどういう意味? - 知っておきたい日本のコトバ
  • 「自閉症は津軽弁を話さない」この謎に挑んだ心理学者が痛感したこと それは「タメ語と丁寧語」に似ている

    自閉症の子どもは津軽弁を話さない。そんなの一言をきっかけに、心理学者の松敏治氏はことばと心の謎の解明に乗り出した。松氏は「最初は軽い気持ちで調べていたが、にまとめるまで十数年がかかった。現場の人々の経験や感覚に目を向けることの大切さを痛感した」という――。 「ことばと心の謎」に迫る研究のきっかけ ある日、町の乳幼児健診から帰ってきた心理士のが、ビールを飲みながら「自閉症の子どもって津軽弁しゃべんねっきゃ(話さないよねぇ)」と言ってきました。 障害児心理を研究する私は、「それは自閉症(自閉スペクトラム症:ASD)の独特の話し方のせいだよ」と初めは静かに説明してやりました。しかしは、話し方とかではなく方言を話さないのだと譲りません。 やり取りするうちに喧嘩になり2、3日は口を利いてくれませんでした。こちらも長年、その道の研究職であるつもりでしたから、たとえでもこんな意見は聞き捨て

    「自閉症は津軽弁を話さない」この謎に挑んだ心理学者が痛感したこと それは「タメ語と丁寧語」に似ている
  • ドキュメントの文章校正には、textlintが便利 - Cybozu Inside Out | サイボウズエンジニアのブログ

    こんにちは! 開発部 テクニカルコミュニケーションチーム(以下、TCチーム)の原嶋です。 さてさて。 みなさん、ドキュメントの文章校正(以下、校正)ってどんな風にやっていますか? 目視チェックでバッチリだぜ!という方も もちろんいると思うのですが、チェックポイントが多いと指摘が漏れてしまいがちですよね。そして、会社の公式文書となれば、チェックポイントはあれもこれもと山のようになります。 TCチームでも長年 校正に頭をかかえていましたが、textlint と+αのツール を使って、校正の悩みを解決しました。 今回はその経緯をお話させてください。 校正って確認する項目がたくさん TCチームでは、サイボウズ製品のユーザーサポートコンテンツ(ヘルプやリリースノートなど)を作成しているのですが、 それらのコンテンツは会社の公式文書なので、毎回の校正でチェックする項目が多々あるんです。 校正おわったー

    ドキュメントの文章校正には、textlintが便利 - Cybozu Inside Out | サイボウズエンジニアのブログ
  • [半角/全角]キー不要に? WindowsのIME切り替えがMac方式に

    Windows日本語入力Mac風になる。[無変換]は[英数]に、[変換]は[かな]に読み替えよう。 Windowsで[かな]と[英数]の入力モードを切り替えるときは[半角/全角]キーを使ってトグルする。これが近々Macと同じ方式に変わりそうだ。 マイクロソフトWindows Blogの12月20日公開版によれば、Windows 10 Insider Preview 18305では、IMEのオン/オフを切り替える設定を強化しているという。これにより、スペースバーの左右にある[無変換]と[変換]キーの動作が変わる。 従来は再変換などが割り当てられていたが、今回の変更により[無変換]はIMEオフに、[変換]はIMEオンとなる。つまり、MacやiOSのJISキーボードと同じだ。 同ブログでは「フィードバックに基づき、[変換] キーを IME オンに [無変換] キーを IME オフにする設定を

    [半角/全角]キー不要に? WindowsのIME切り替えがMac方式に
  • Engadget | Technology News & Reviews

    Research indicates that carbon dioxide removal plans will not be enough to meet Paris treaty goals

    Engadget | Technology News & Reviews
    vcc
    vcc 2018/07/10
    “位置は日本語・英語・スペイン語・アラビア語など複数言語で表現可能。グローバルでの利用が前提で、日本語で表した位置は英語でも表現できます。”
  • 日本語OCRによる文字認識 ~WPFなどの.NET FrameworkアプリやUWPアプリからWindows 10のOCRエンジンを使う

    ※適用バージョン:Windows 10 version 1507(build 10240)以降 はじめに OCR機能を組み込めたら、どんなアプリが作れるでしょう? 名刺や葉書からデータを取り込む住所録アプリ レシートや領収書などからデータを取り込む家計簿アプリ 印刷された書類などをテキストデータ化するアプリ 商品名を読み取って通販サイトを検索するアプリ 電柱などの住所表示を読み取って現在地を検索するアプリ いろんなアプリのアイデアが浮かんでくることでしょう。でも、市販されている日語OCRライブラリは、けっこうなお値段がするので、個人開発者のレベルではちょっと使いにくいのです。そのようなライブラリは、辞書を使って読み取り精度を高めていたり、帳票の罫線を認識して誤認識を減らす工夫がしてあったりと、魅力的ではあるのですが。あるいは、最近になってメジャーどころも参入してきたOCRのWebサービス

    日本語OCRによる文字認識 ~WPFなどの.NET FrameworkアプリやUWPアプリからWindows 10のOCRエンジンを使う
  • 会話が見える! 世界最速の「リアルタイム字幕」にびっくり

    会話が見える! 世界最速の「リアルタイム字幕」にびっくり:水曜インタビュー劇場(瞬時公演)(1/5 ページ) 「UDトーク」というアプリをご存じだろうか。目の前の会話が次々に字幕になるサービスだが、その仕組みはどうなっているのか? アプリを開発した青木秀仁さんに聞いたところ……。 2月某日、幕張メッセ(千葉市)。記事のネタを探すために、記者はとあるセミナーを聴講していたところ、大きなモニターに釘付けとなった。 モニターには、登壇者の発言がリアルタイムで文字になって映し出されていたのだ。「ITmedia ビジネスオンラインって最高ね」と発言すると、瞬時に「ITmedia ビジネスオンラインって最高ね」と表示される。それだけではない。日語の横で、英語のスペルも次々に並んでいたのだ。 よーく見ると、ところどころで“おかしな日語”も登場する。例えば、「ITmedia ビジネスオンラインって再考

    会話が見える! 世界最速の「リアルタイム字幕」にびっくり
  • 物語テキストから動画自動生成テストの技術的解説

    これの技術解説をしたいと思います。まあ、中身は単純で 1日ちょっとで作れた簡単なものなんですけどね。 ■テキストの準備 まず、元となるテキストを用意します。今回は、 青空文庫『桃太郎』楠山正雄作 http://www.aozora.gr.jp/cards/000329/files/18376_12100.html を、使用しました。 ■テキストの分割 次に、テキストを1文単位に分割します。この辺りは、 物語自動生成プログラム『ジェネジェネちゃん』の作り方 基礎編 http://blog.vrai.jp/article/455677889.html こちらと同じですね。 ■述語項構造解析 そして、その1文を、 日語構文・格・照応解析システム KNP - 京都大学 黒橋・河原研究室 http://nlp.ist.i.kyoto-u.ac.jp/index.php?KNP を使って、述語項構造

    物語テキストから動画自動生成テストの技術的解説
  • アドビが無償フォント「源ノ明朝」の開発手法を明らかに

    左から、説明会の司会を務めたアドビ システムズの岩崇氏、米国チームのFont DeveloperのFrank Griesshammer氏、西塚涼子チーフ・タイプデザイナー、山太郎シニア・マネージャー、服部正貴シニア・フォントデベロッパー アドビ システムズは2017年4月10日、米グーグルと共同開発したオープンソースの無償フォント「源ノ明朝(Source Han Serif)」に関する記者説明会を開催。日中韓の異体字を持つフォントデータを25Mバイト未満の容量に抑える開発手法について語った。 源ノ明朝は、2014年に公開した、日語ではゴシック体に当たるサンセリフ体フォント「源ノ角ゴシック(Source Han Serif)」に続くオープンソースの無償フォント中国語簡体字/繁体字(C)、日語(J)、韓国語(K)を含む、いわゆるCJKフォントだ。フォントデータはソースコード共有サイト

    アドビが無償フォント「源ノ明朝」の開発手法を明らかに
    vcc
    vcc 2017/04/11
    日中韓の異体字を持つフォントを25MB未満に抑える開発手法。日本と中国で共通して使える基礎データとして「はね」や「はらい」といった特徴を持つ「エレメント」データを187個作成し、言語間の共通部品を各国ですり合
  • [ウェブサービスレビュー]ウェブの漢字にふりがなを付与--「ひらがなめがね」

    内容:「ひらがなめがね」は、ウェブページ上の漢字にふりがなをつけるサービスだ。URLを入力するだけでサイトのレイアウトを極力維持したままふりがなを付与してくれるので、読めない漢字が多い年少者や外国人が日語のウェブサイトを閲覧する場合に重宝する。 「ひらがなめがね」は、ウェブページ上の漢字にふりがなをつけるサービスだ。URLを入力するだけでサイトのレイアウトを極力維持したままふりがなを付与してくれるので、読めない漢字が多い年少者や外国人が日語のウェブサイトを閲覧する場合に重宝する。 使い方は、トップページのフォームにURLを入力して「GO」をクリックするだけ。同種のツールやサービスの中には、指定した小学校の学年でいまだ習っていない漢字だけにふりがなを追加するツールもあるが、サービスではあらゆる漢字を対象にふりがなを付与してくれる。またカタカナは変換されずにそのまま表示されるのも特徴だ。

    [ウェブサービスレビュー]ウェブの漢字にふりがなを付与--「ひらがなめがね」