タグ

ブックマーク / takeda25.hatenablog.jp (20)

  • まともな簡体字・繁体字変換 - アスペ日記

    まともな簡体字・繁体字変換(以下、簡繁変換)を作りました。*1 https://jfconv.netlify.app/ なぜ、 まともと言うのか? それは、簡繁変換というのは一対多変換であって、それを正しくできていない(しようともしていない)変換というのはまともではないからです。 まともでない簡繁変換 例えば、日語にもある単語で例を挙げると、「乾燥」「幹部」「干涉」というものがあります。 簡体字では「乾」「幹」は「干」になるので、これらは「干燥」「干部」「干涉」と書かれます。 これらを繁体字に変換すると、「乾燥」「幹部」「干涉」に戻ってほしいところです。 それが、「簡体字 繁体字 変換」と検索して上位に出てくるサイトでこれらを変換しても、だいたいうまくいきません。 あるサイトでは、「幹燥」「幹部」「幹涉」となります。「干→幹」という単純な置き換えしかしていないということです。 また、別の

    まともな簡体字・繁体字変換 - アスペ日記
  • 志村けんのパラドックス - アスペ日記

    みんな冷静に計算してほしいけど、東京都の新コロナ感染者数は現在171人。東京から無作為に200人をピックアップしたときに、その中に超有名人の志村けん氏が入ってる確率ってどのくらいだと思う? 現在の感染拡大ペースは我々の想像をはるかに超えてるよ。桁違いの感染者数になってるよ。— 森岡正博 (@Sukuitohananika) 2020年3月25日 このツイートと、 森岡正博 on Twitter: "みんな冷静に計算してほしいけど、東京都の新コロナ感染者数は現在171人。東京から無作為に200人をピックアップしたときに、その中に超有名人の志村けん氏が入ってる確率ってどのくらいだと思う? 現在の感染拡大ペースは我々の想像をはるかに超えてるよ。桁違いの感染者数になってるよ。" ブコメがひどい。水曜日のダウンタウンとやらによれば志村けんは日の知名度ランキング15位。そんな人が感染してるなら、実際

    志村けんのパラドックス - アスペ日記
    gfx
    gfx 2020/03/28
    面白く読んだ。
  • はてなーはお願いだから自閉症についての理解を深めてくれ - アスペ日記

    この記事を読んだ。 【追記あり】僕は異常だ とにかくブコメがひどい。 「中二病だろ」の声一色*1だ。 例の記事を読んで、ぼくとしては「あー」という感じだった。 人間エミュレーションじゃん、と。 ぼくの人間関係には自閉傾向の人が多い。 ASDの診断を受けた人もいるし、自閉グレーだと言われた人、PDD(広汎性発達障害)と言われた人もいる。 そういう人間関係の中でよく使われる概念が「人間エミュレーション」だ。 ぼくは人を「自閉傾向のある人」と「それ以外」に分けていて、脳内やツイッターではそれらを「我々」「人間」と呼んでいる(これも、読む人によっては中二病だろう)。 そして、「我々」はそのままでは多数派の「人間」とうまくやっていけないので、エミュレータを動かしてそれで「人間」のふりをしている… というのが、「我々」の多く*2の世界観だ。 さて、元記事の人にかける言葉としては、「ASDについて調べて

    はてなーはお願いだから自閉症についての理解を深めてくれ - アスペ日記
    gfx
    gfx 2019/08/13
  • ぼくはこうやって(8年前)Googleに入った - アスペ日記

    入って1年ちょっとで辞めたぼくだが、流れに乗って書いてみる。 正直なところ、ぼくが書く意味はないと思った。 「どうやって」という話になると「入社試験を受けたら入れた」ということになるし、それはもう他の人が書いているからだ。 しかし、他の人の記事を見ているうちに、これならぼくが書けば違った視点からの記事が書けるんじゃないかと思った。 テーマは「光と影」。 ぼくの生い立ちを少し語る。 両親は京大卒。 父親は大学教授(最終的に)。 母親はぼくが2歳のときに統合失調症を発症、17歳のときに自殺。 子供は姉(2歳年上)とぼくの二人。 母親が統合失調症で病院に出たり入ったりしていたため、ぼくは家で姉と二人になることが多く、壮絶にいじめられた。 自閉的傾向が強かったぼくは、姉からしたら気持ち悪い存在だったんだろう。 その当時(ぼくは1974年生まれ)は自閉症なんて知られていなかった。 ぼくはどこからどう

    ぼくはこうやって(8年前)Googleに入った - アスペ日記
    gfx
    gfx 2019/04/02
  • 実例に見る実用文のスタイル - アスペ日記

    印刷の日語は、非常に質が高い。編集者や校正者によってチェックされているからだ。 それに対して、ネットの日語は質がバラバラだ。書くことのプロでない一般人が日語を書くので、どうしてもそうなってしまう。 かといって、お金をもらうわけでもない文章にそんなに手間はかけられない。自分で気をつけるのが精一杯だ。 ここでは、気をつける時*1に参考になるようなことを、「森のくまさんの謎」を例として、特に「漢字と平仮名の使い分け」を中心に書いてみる。 ここでは、解説記事などの実用文を想定している。 また、この記事は「森のくまさんの謎」のようなスタイルを身につけたい人を対象としているので、もちろん誰かに強制するつもりはない。 漢字と平仮名の原則 大きな原則として、「意味の重いところは漢字で書き、軽いところは平仮名で書く」というものがある。以下では、それを具体的に解説する。 形式名詞は平仮名で書く また、娘

    実例に見る実用文のスタイル - アスペ日記
    gfx
    gfx 2019/03/25
  • 身の振り方を考えるついでに、日本語について考えた - アスペ日記

    Google を辞めてから、頭を冷やすためにゆっくり休んで、その間にいろいろ考えた。 辞めた時に勢いで書いた記事には「IME の会社を受けてみたい」と書いたけれど、それでいいのか確信もなかった。 だって、IME の会社というと、某国産 IME *1を作っている*2徳島の会社ってことになるんだけど、はっきり言うと…斜陽の匂いがするっていうか…。 一方で、ネットの日語表記に対する違和感のようなものが、だんだんと自分の中でふくらんでいた。やたらと漢字が増えててムカツク…。 自分で N-gram かな漢字・漢字かな変換のような実験的なものは書いてみたけど、頑張って IME にしたところで ATOK ほどの使い勝手にならないのはわかってるし…。 頭の中で、こうしたゴチャゴチャした思いが渦巻いていた。こういう時に行動を起こしても、いい結果にならない。Google に行ってしまったのは不幸なミスマッチ

    身の振り方を考えるついでに、日本語について考えた - アスペ日記
    gfx
    gfx 2019/03/25
  • 中学生にもわかるウェーブレット行列 - アスペ日記

    id:echizen_tm さんの記事「ウェーブレット木の効率的で簡単な実装 "The Wavelet Matrix"」から始まったウェーブレット行列ブームから半年以上が過ぎ、すでに枯れた技術として確立されつつある感があります。 …嘘です。 日以外ではあんまり来ていません。 理由としては、やはりアルファベット圏では単語境界が明確であるため、こちらの記事で書かれているような「キーワード分割の難易度」といったことがあまり問題にならないということがあるかもしれません。 まあ、そういうわけで局所的に来ているウェーブレット行列ですが、日語をはじめとする単語境界のない言語圏にとっては重要なネタであると思うため、解説記事を書き直して*1みようと思います。 ウェーブレット行列でできること 主となる操作は、文字列に対する 定数時間の rank() と select()*2 です。 rank() は、「文

    gfx
    gfx 2019/02/23
  • ちょまど氏をめぐる異常事態 - アスペ日記

    最近、Xamarinという製品についての勉強会で炎上騒動がありました。 初期の記事としては、以下のものがあります。 xamarinコミュニティの炎上について思うこと その後、主催者側や批判側からいろいろな記事が出て、泥沼の様相を呈していました。 以下はその例です。 JXUG 名古屋ハンズオンでの事実について 続ちょまど問題 これらの記事を見てもわかるように、ちょまど氏をめぐっては、アンチとファンが非常にはっきりと分かれています。 (アンチ・ファンというのは語弊がありますが、あえてこう書きます) どちらにも著名な人・技術的に優れた人がいるので、お互いに「あの人は技術的には尊敬できるのに、なんでこの問題ではあんななんだろう」と思うようなことも多いんじゃないでしょうか。 これは、はっきり言って異常事態だと思います。 一人の人間をめぐって、アンチとファンの間で分断が起こるということ自体、異常事態で

    ちょまど氏をめぐる異常事態 - アスペ日記
    gfx
    gfx 2016/12/05
    この件は無視を貫くつもりだったが、このエントリに感銘を受けたので支援。ぼくも、性を利用することなく、意識することなく仕事や関心ごとに集中できる社会を望む。
  • 機械翻訳と意味 - アスペ日記

    ここ最近、Google翻訳がリニューアルされ、性能が向上したという話が流れてきたので、さっそく試してみた。 ぼくが真っ先に試したのは、「母は、父が誕生日を忘れたので、怒っている。」だ。 なぜこの文が気にかかっていたかは後述する。 結果は次の通り。 "My mother is angry because my father forgot her birthday." すばらしい。 では、「母は、父が鞄を忘れたので、怒っている。」はどうだろうか。 "My mother is angry because my father forgot his bag." 完璧だ! 「誕生日を忘れた」の場合は「母の誕生日」と解釈し、「鞄を忘れた」の場合は「父の鞄」と解釈する。 これこそ、利用者が翻訳に求めるものじゃないだろうか。 しかし、ここまでだった。 次にぼくは、「父」と「母」を入れ替え、「父は、母が誕生日

    機械翻訳と意味 - アスペ日記
    gfx
    gfx 2016/11/12
    "人間と同じように考えられる機械ができるまでは、人間の補助を必要としない機械翻訳はできない"
  • 非公式PDF版SICP・新訳 - アスペ日記

    計算機プログラムの構造と解釈、通称SICPを一から翻訳し直しました。 ファイル: SICP非公式日語版 翻訳改訂版 リポジトリ: https://github.com/hiroshi-manabe/sicp-pdf また、今回の翻訳をするにあたって考えたことを別記事にまとめました。 腐った翻訳に対する態度について SICPはMITの有名なプログラミングの教科書です。詳しくはminghai氏の記事をご参照ください。 この翻訳改訂版は、minghai氏の非公式日語版(以降、minghai氏版)のあまりにも惨憺たる翻訳を見かねて、原著から翻訳をし直したものです。この翻訳を進めるにあたっては、minghai氏版の訳を置き換えていくというやり方で進めていきました。しかし、差分を取ればわかっていただけると思いますが、minghai氏版のテキストは痕跡をとどめていないはずです。この方式を採ったのは、

    非公式PDF版SICP・新訳 - アスペ日記
    gfx
    gfx 2015/10/30
  • なぜ誤訳指摘をしたか - アスペ日記

    善意のひどい訳についてについての補足を書く。 まず、「なぜ指摘を公開でやったのか」ということから。 「アスペ日記」というタイトルで日記を書いてはいるけれど、「こんなふうに誤訳指摘したら気ぃ悪い(感じ悪い)*1よなぁ」ぐらいの感覚はぼくにもあった。 じゃあ、なぜそうしたか。 その理由を箇条書きしてみる。 この記事を書くことで、id:ymotongpoo さんの傷口に塩を塗るようなことになるかもしれないけれど、許してもらえればと思う。 1. 翻訳記事の読み方について考えるきっかけになると思った。 元記事は、ぼくが最初に見たときは100ブクマも行っていなかったと思うけれど、みるみるうちに伸びて、300ブクマを超えた。 あれだけ誤訳の多い記事が、ただ漫然と消費される様子に疑問を持った。 日語だけ読んでもおかしなところがある(指摘箇所を見てもらえばわかると思う)翻訳なのに、みんな適当に目を滑らせて

    なぜ誤訳指摘をしたか - アスペ日記
    gfx
    gfx 2014/10/15
  • TeX の発音 - アスペ日記

    今さら、TeX の発音が話題になっているようです。 TeXはテック もう何度目だというぐらい目にしている気がするのですが、この問題は質的にややこしいのでどうしようもないですね。 この問題について書かれているページのひとつとして、以下のものがあります。 「TeX」の読み方はテフ、それともテック? これは非常に詳しく書かれていて、付け加えることなんてないようにも思えますが、ほかの言語の事情も含めて書いてみます。 まず、クヌース自身の書いていることから。 上記のページにある通り、彼は「TeXを知っている人は、TeXのχをxとは発音せず、ギリシャ語のchiのように発音する」と明確に書いています。 発音記号では [tex](「テッフ」のような音)となります。 この [tex] を正式発音と考えると話は簡単です。 いくつかの言語では、この正式発音をもとにして、それぞれの言語流の発音をしています。 ロ

    TeX の発音 - アスペ日記
    gfx
    gfx 2014/04/28
    ぼくの認識と同じだった
  • 「了解」は失礼か? - アスペ日記

    最近、「了解」は失礼だという説が出てきているようです。 どこの誰が言い出したのか知りませんが、ごく最近であることは確かです。 少し前のマナーには、そんなことは書いてありません。 たとえば、2003年のこれだけは知っておきたい! 改訂版 ビジネス・マナーハンドブックには、次のようにあります。 しかしそうしたルールができていない社外の人からのメールを受信したときには、「メール、受けとりました」「その件、了解しました」など、簡単でよいからすぐに返信し、… また、2005年の「こんなことも知らないの? 大人のマナー常識513」というマナーには、次のような記述があります。 内容に疑問のあるときにはその点を記して送信しますが、そうでなければ「メール拝見しました。○○の件は了解しました」などと簡単な返信でかまいません。 しかし、2008年の「信頼される社会人へのパスポート敬語検定」*1には、次のよう

    「了解」は失礼か? - アスペ日記
  • 「歳」「憶える」「嗤う」…それっぽい漢字 - アスペ日記

    最近、かっこいい漢字を見かける機会が増えました――というのは、前回の記事で書いた話ですが、今回は「訓読み」の話です。 その中でも、最近特に増えた感のある 歳(とし) 憶(おぼ)える 嗤(わら)う を取り上げてみたいと思います。 「年」と「歳」 「とし」という言葉には「年齢」という意味があり、「彼のとしは30を越えている」「としを取る」「もうとしだ」のように使いますが、この「とし」を書くのにどの漢字を当てるでしょうか。 年? 歳? 齢?*1 まあ、どれを使ってもいいでしょう。 日語と中国語は別の言語なので、日語の言葉にどの中国の文字を当てるかに正解はありません。 しかし最近になって、この「とし」が「歳」と書かれているのを見ることがだんだん多くなってきました。 まあ、確かに「歳」のほうが「年」よりもそれっぽいというのはわかるのですが、そのうち「年」を間違いだなんて思う人が出てくるんじゃない

    gfx
    gfx 2013/10/13
  • カッコイイほうの漢字 - アスペ日記

    「醱酵」って漢字、見たことあるでしょうか。 「発酵」の別の書き方です。 「日」「月」に対する「日蝕」「月蝕」などもあります。 難しい分だけ、かっこいいですよね。 これらの「かっこいいほうの漢字」のことを、ぼんやりと「旧字=来の字=正しい字」とか思っていたりしませんか? 最近、こういう「かっこいいほう」の漢字を見る機会が増えました。 マイナーなところでは、「○○年 没」を「○○年 歿」とか、「麻痺」を「痲痺」なんていうものもあります。 まあ、スタイルとしてならそれもいいでしょう。 私も中学校ぐらいのころは旧漢字の練習をしたりしていました。 でも、中二あたりを過ぎた大人で、上に挙げたようなものを「正しい」とか言っちゃってる人がいたら、恥ずかしい人ですので大いに笑ってあげてください。 (ところで、ここでは「嗤う」が正しいとか思ってしまうような人も「笑い」ものです) この記事を書こうと思った

    カッコイイほうの漢字 - アスペ日記
    gfx
    gfx 2013/09/15
  • JavaScript で有効数字 28桁の Decimal 型を書いた - アスペ日記

    JavaScript の Decimal 型を書いて、GitHub と npm で公開した。 https://github.com/hiroshi-manabe/JSDecimal https://npmjs.org/package/jsdecimal C# (っていうか .NET)には Decimal型 というのがあるらしい。 十進数で 28〜29桁(なんだその「28〜29桁」ってのは…後述)の精度を保証するとのこと。 それで、お金の絡む計算にはよく使われるそうだ。 で、人から聞いた話だけど、そういう計算をサーバ側でしていたのをクライアント側でもしたいということがあるようだ。 Ajax でも使って、サーバ側で計算させたものを取ってくればいいと思うのだが、そうもいかないこともあるらしい。 何に使うかというと、ちゃんとした計算はサーバでやるものの、プレビューみたいなものをユーザに見せたいとか

    JavaScript で有効数字 28桁の Decimal 型を書いた - アスペ日記
    gfx
    gfx 2013/07/18
  • 韓国の漢字 - アスペ日記

    韓国の漢字教育が「失敗」した理由という記事がちょっと話題になっていた。 かなりツッコミどころの多い記事だが、それはちょっと置いておいて、まず「韓国での漢字の実情」のようなものを書いてみたいと思う。 ぼくは韓国語がそれなりにできるし、Twitter韓国人をフォローしたりもしている。 そういうわけで、たまに日人が韓国人に「漢字がなくて不便じゃないの?」と質問しているのを見ることもある。 結論からいうと、まったく困っていないというのが彼らの答え。 彼らからしてみると、どうして日人がそういう疑問を持つのかというのが逆に疑問なぐらいだ。 漢字のない韓国語は平仮名だけの日語と同じ? 漢字がないというと、日語をオール平仮名で書いたようなものを思い浮かべる人が多いようだ。 だが、韓国語と日語ではだいぶ事情が違う。 主な要因を二つ挙げる。 同音異義語の多寡 一番大きな要因はこれだろう。 つまり

    韓国の漢字 - アスペ日記
    gfx
    gfx 2013/07/18
  • 翻訳の品質管理 - アスペ日記

    に住んでいると、あらゆる物・サービスの品質が高いレベルで保証されていることが自然に期待できる。 そんな日にいて、唯一*1品質に信頼がおけないものがある。 それが「翻訳」。 高校生ぐらいのころ、英語と日語訳を読むようになって、そのことに気がついた。 最初の経験は「バック・トゥ・ザ・フューチャー」のノベライズ。 バック・トゥ・ザ・フューチャー (新潮文庫)posted with amazlet at 13.03.30ジョージ・ガイプ 新潮社 売り上げランキング: 243,145 Amazon.co.jpで詳細を見る 最初に英語版を読んでから、この日語版を読んだ。 翻訳は全体として非常に読みやすい。 だが、ところどころ明らかに英語と違い、そのために意味が通らなくなっているところがある。 原文と突き合わせてみると、明らかな誤訳だ。 というものに対して、ある種の権威を感じていた自分に

    翻訳の品質管理 - アスペ日記
    gfx
    gfx 2013/03/31
  • なぜ広まった? 「『訊く』が正しい」という迷信 - アスペ日記

    タイトルはパクリ。 二つの疑問 タイトルを読んだ人の反応は、主に次の二つに分かれる*1だろう。 「訊く」が正しいなんて思っている人がいるの? 「たずねる」という意味では「訊く」が正しいんじゃないの? まず、「訊く」が正しいなんて思っている人がいるの? という人に対して。 当にいる。 Yahoo! 知恵袋の質問から引用。 聞く・聴く・訊く・・・「きく」の使い分けについて 噂を聞く (中略) 道を訊く 上記例で使用例は合っているでしょうか? 訊 字は、たづねるの訓があり、訊問(じんもん)という言葉もありますから、人に問うの意味で使うと考えて良いでしょう。 (中略) 質問者さんの挙げた例は、正しく使い分けられています。 こういう人は実際に「訊く」が正しいと思っているということだ。 そして、「訊く」が正しいんじゃないの? という人に対して。 小説から少し引用する。 まず、「坊っちゃん」の冒頭部分

    なぜ広まった? 「『訊く』が正しい」という迷信 - アスペ日記
    gfx
    gfx 2012/11/14
  • 地味すぎて気づかれにくい日本語の変化 - アスペ日記

    語の変化というと、「的を得る」とか人気ですよね。 「的を射る」が正しい!とドヤ顔して、ちょっとした満足感を得るのにお手軽です。 しかし、日語の変化というのは意外と地味なところで起きていたりします。 いくつか書いてみます。 1. 「す」から「せる」へ 金融界を揺るがせている 将来に思いを巡らせる 五感を研ぎ澄ませて楽しむ 名刺を切らせてしまった これらの表現に違和感があるでしょうか。 まったくないという人もいるかもしれません。 しかし、「揺るがせる」「巡らせる」等は、辞書を見てもないことが多いのです。 辞書には、「揺るがす」「巡らす」として載っています。 「揺るがす」のほうは、「す」という使役形を含んでいます。 これは、元々は下二段活用(否定は「せず」)だったのが、下二段活用がなくなるとともに、五段の「す」(否定は「さない」)と下一段の「せる」(否定は「せない」)に分かれた片割れです。

    地味すぎて気づかれにくい日本語の変化 - アスペ日記
    gfx
    gfx 2012/10/18
  • 1