タグ

認識に関するrichard_rawのブックマーク (175)

  • macOS のデフォルト状態でコマンドラインからOCR処理を行う - TeX Alchemist Online

    macOS 12 Monterey では,OSビルトインでのOCR機能が搭載されました。Preview.app で,画像やスキャンPDF(中身がスキャン画像のPDF)に対して,ただマウスでドラッグするだけで,中身の文字を認識して選択し,コピーできるようになっています。さらに,macOS 13 Ventura では,それが日語にも対応しました。 たとえば,(今や入手困難となってしまった)The TeXbook のアスキーによる日語版をスキャンしたものを Preview.app で開くと,何もしなくても,文字選択できます。 これをコピーして他のエディタにペーストすると, TEXの名称で気をつけなければならないことがほかにもある。Eの文字が不揃いになっていることだ。Eの文字を少し下げてあるのは、TeXが組版のためのシステムであることを印象づけるためであり、またほかのシステムの名称と区別するた

    macOS のデフォルト状態でコマンドラインからOCR処理を行う - TeX Alchemist Online
    richard_raw
    richard_raw 2023/07/04
    おお、使ってみたい。……が、我が家のMacBookがなぜかログインできない状態 orz
  • 袋の中から猫の鳴き声がしたら、もうそれは猫

    1986年埼玉生まれ、埼玉育ち。大学ではコミュニケーション論を学ぶ。しかし社会に出るためのコミュニケーション力は養えず悲しむ。インドに行ったことがある。NHKのドラマに出たことがある(エキストラで)。(動画インタビュー) 前の記事:夢の問題を現実で解決する(デジタルリマスター) > 個人サイト Twitter を作る いったいどういう思いつきなのか。簡単な仕組みである。 用意するのはBluetoothスピーカー、タオル、巾着袋 袋の中から声がするというので、スピーカーと袋は必須である。持ったときのやわらかさ(今回の最大限の生き物らしさ)を担保するためにタオルも用意した。 スピーカーをタオルで包んで こんなやわらかい感じにしておこう 巾着袋に入れて (鳴き声システム)の完成 Bluetoothスピーカーは予めPCと繋げておいて、動物の鳴き声が出るようにセッティングしてある。 つまり動物の

    袋の中から猫の鳴き声がしたら、もうそれは猫
    richard_raw
    richard_raw 2023/06/08
    つまり笑い袋(既出)の中には生首が!?
  • 第577回 Tesseract OCRで文字認識をする | gihyo.jp

    今回はオープンソースでマルチプラットフォームのOCRエンジンであるTesseract OCRを使用し、読み取り精度を確認してみます。 UbuntuでOCR? 「日語でOCR」と聞くと、プロプライエタリの牙城というか、高価なソフトを購入しないと実用に耐えないというイメージがあるかもしれません。あるいはないかもしれませんが、いずれにせよ日語の文字は難しいのでOCRで高い精度を出すのはなかなか難しそうに思えます。 少なくとも筆者はそう考えていたので、OCRで高精度の結果を出すのは困難、ましてやオープンソースで……と考えていました。そんなところに、Tesseract OCRのバージョン4.0以降では日語でもかなりの高精度で認識するという話を小耳に挟みました。実際に試してみると想定していた以上の結果だったので、ここで紹介することにします。 Tesseract OCRとgImageReader

    第577回 Tesseract OCRで文字認識をする | gihyo.jp
    richard_raw
    richard_raw 2023/01/24
    GUIフロントエンドのgImageReaderはWindows版もありました。便利。/斜体の認識率は低いですね。
  • くずし字認識アプリ『みを』で江戸時代の数学書『塵劫記』を読む

    古書市で、江戸時代の数学書『塵劫記』(じんこうき)を買った。 『塵劫記』は、くずし字で書いてあるので、文章はさっぱり読めない。しかし、最近はくずし字を翻訳してくれる便利なアプリがある。 アプリで文字を翻訳し、数学に詳しい人に見てもらえば、なにが書いてあるのか、だいたいわかるのではないか? 『塵劫記』を古書市で買った 少しまえに、神保町の古書市で、江戸時代の数学書『塵劫記』を購入した。 右の『塵劫記』(文化三年)は500円、左の『新編塵劫記大成』(寛政三年)は1500円だった かつて、江戸時代の日では和算という独自の数学が発展し、ヨーロッパなど先進的な地域の水準に劣らないほど発達したといわれる。教科書にも出てくる関孝和などはみなさまご存知だろう。 『塵劫記』は、江戸時代初期に、吉田光由が著した和算のテキストで、寺子屋でそろばんや初歩的な数学について学ぶさいに使われた。 江戸時代の数学入門書

    くずし字認識アプリ『みを』で江戸時代の数学書『塵劫記』を読む
    richard_raw
    richard_raw 2022/06/28
    文化3年の本が500円で買えるのか……(そこか)。
  • iPhone・Androidで高速に日本語音声入力するためのベストプラクティス

    先日Twitterで「大学生がスマートフォンでレポートを書いている」というツイートが話題になっており、それに対して反応している方達もほぼ全員が「スマートフォンでレポートを書くのは効率が悪い」という前提で話をしていることに大変違和感を覚えました。 なぜなら私はこのブログはもちろん、技術書を執筆するときでさえ主にスマートフォンで下書きをしているからです。 PCを使うのは、ほぼスクリーンショットの撮影と最後の仕上げだけです。 その方が、最初からPCで文字入力するのに比べて圧倒的に効率が良いです。 この記事では、iPhoneAndroidそれぞれで音声入力を効率よくおこなう方法について解説します。 iPhoneiPadの場合 先に結論から申し上げると、iPhoneiPadMacの日語音声入力は、AndroidGoogle音声入力に比べて認識精度が低く、認識できる単語が少ないです。 仕事

    iPhone・Androidで高速に日本語音声入力するためのベストプラクティス
    richard_raw
    richard_raw 2021/12/13
    話すの苦手なので音声入力しないかも。でも一応ブックマーク。
  • ブラウザで動くリアルタイム画像/音声処理アプリをStreamlitでサクッと作る

    Overview 画像/音声処理をリアルタイムで行う、Webブラウザから利用できるアプリをStreamlitで作る方法を解説します。 StreamlitのおかげでPythonだけでwebアプリが作れます。さらに、一番簡単な例なら10行程度のPythonコードで、webカメラを入力にしてブラウザから利用できるリアルタイム画像処理アプリケーションになります。 Webベースなのでクラウドにデプロイでき、ユーザに簡単に共有して使ってもらえ、UIもイマドキで綺麗です。 人物・物体検知、スタイル変換、画像フィルタ、文字起こし、ビデオチャット、その他様々な画像・音声処理の実装アイディアをデモ・プロトタイピングするのになかなかハマる技術スタックではないでしょうか。 Webブラウザから利用できる物体検知デモの例。実行中に閾値をスライダーで変えられる。オンラインデモ🎈 同様にスタイル変換デモの例。実行中にモ

    ブラウザで動くリアルタイム画像/音声処理アプリをStreamlitでサクッと作る
    richard_raw
    richard_raw 2021/12/10
    Pythonだけで色々作れそうですね。デプロイのところは自分で読むしかないか……。
  • 源氏物語が好きすぎてAIくずし字認識に挑戦でグーグル入社 タイ出身女性が語る「前人未到の人生」 | Ledge.ai

    サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。

    源氏物語が好きすぎてAIくずし字認識に挑戦でグーグル入社 タイ出身女性が語る「前人未到の人生」 | Ledge.ai
    richard_raw
    richard_raw 2021/10/08
    「好き」は最強だなあ。
  • リコー経済社会研究所 | リコーグループ 企業・IR | リコー

    「あれっ!こんなところを間違えてるよ」―。パソコン画面上で何回も確認して間違いがなかったのに、紙に印刷すると原稿のミスが...。こんな経験はだれにでもあるが、その理由がよく分からない。 画面よりも紙のほうが、間違いに気がつきやすい。これは今まで何となく経験してきた真理だ。新型コロナウイルスの感染拡大に伴い、リモートワークを始めてからは、より一層それを強く感じる。リモートワークではプリンターが無かったり、あってもその能力不足で印刷に手間取ったり。だから、紙でのチェックを怠りがちになり、ミスが生じて後で大きなしっぺ返しをらう。 もちろんできる限り間違いを減らし、仕事はスムーズに進めたい。紙と画面それぞれにおける、脳の働き方の違いなどを調べた上で、両者の使い分けを考察してみた。 「分析」の紙vs「パターン認識」の画面 メディア批評の先駆者、カナダのマーシャル・マクルーハン(1911~1980年

    リコー経済社会研究所 | リコーグループ 企業・IR | リコー
    richard_raw
    richard_raw 2020/09/17
    既出ですが、透過光と反射光の違いならば紙じゃなくても電子ペーパーか反射型液晶かプロジェクターでいいのでは。
  • 人種は存在しない…のか? - 道徳的動物日記

    gendai.ismedia.jp 上記の記事は3ヶ月前のものだ。ブコメは現時点で30ほどしか付いていないが、わたしを含めて、違和感を表明しているコメントが多い。 特に違和感があるのは、やはり、「人種は存在しない、あるのはレイシズムだ」というタイトルだろう。ここには、ある種の文系の"学問"や"社会学"に独特なレトリックと、市井の感覚との乖離が見出せる。今回は上記の記事を直接批判したり反論したりするわけではないが、このタイトルが象徴するような、"社会学的"なレトリックや議論に対してわたしたちが感じる違和感について、ちょっと書いてみたい。 人種の問題に限らず、ある種の社会学(あるいは、ある種の「哲学」や「思想」)では、"わたしたちが「自然」であったり「普通」であると思っている物事は社会的に構築されている"、ということが強調される場合が多い。 そして、多くの場合には、その社会的構築の背景には"レ

    人種は存在しない…のか? - 道徳的動物日記
    richard_raw
    richard_raw 2020/09/14
    「色は存在しない、あるのは色覚だ」みたいな感じでしょうか。
  • Self-Attentionを全面的に使った新時代の画像認識モデルを解説! - Qiita

    08/31 (2020): 投稿 08/31 (2020): 「畳み込みを一切使わない」という記述に関して、ご指摘を受けましたので追記いたしました。線形変換においては「チャネル間の加重和である1x1畳み込み」を実装では用いています。 08/31 (2020): 論文で提案されているモデルの呼称に関して認識が誤っていたためタイトルおよび文章を一部修正しました。 言葉足らずの部分や勘違いをしている部分があるかと思いますが、ご指摘等をいただけますと大変ありがたいです。よろしくお願いします!(ツイッター:@omiita_atiimo) 近年の自然言語処理のブレイクスルーに大きく貢献したものといえば、やはりTransformerだと思います。そこからさらにBERTが生まれ、自然言語の認識能力などを測るGLUE Benchmarkではもはや人間が13位(2020/08現在)にまで落ちてしまっているほ

    Self-Attentionを全面的に使った新時代の画像認識モデルを解説! - Qiita
    richard_raw
    richard_raw 2020/09/11
    さっぱりわからないがブックマーク。
  • WEB特集 「くずし字」AIが解読 ラーメン判別法も応用! | NHKニュース

    くずし字の解読は、文学や歴史学など「文系」の専門家の領域ですが、AIの開発は、日頃プログラミングやシステムの開発に携わる「理系」の研究者が得意とするところです。 そのうちの1人、国際コンペに参加した福岡県の土井賢治さんを訪ねました。土井さんはIT企業のエンジニアで、ネットオークションに出品された商品が物か偽物かを、投稿された画像から判断するシステムの構築に携わっています。 くずし字は「存在を知っている程度」だったということで、みずから読むことはできません。そんな土井さんが今回のコンペに参加した理由を聞いてみると、意外なきっかけがあったことが分かりました。 「ラーメンの画像から店を当てるシステム」を応用できると考えたというのです。 土井さんは、SNSに投稿されたラーメンの画像がどこの店舗で出されたのかを、数万枚の画像データをもとにAIが予測するシステムを運営していて、ファンの間で人気となっ

    WEB特集 「くずし字」AIが解読 ラーメン判別法も応用! | NHKニュース
    richard_raw
    richard_raw 2019/12/03
    資料が数億点……!
  • うつ病の人々は悲観的なのではなく「世界を正しく認識している」のかもしれない

    by Free-Photos 多くの人々はうつ病になると世界に対する認識がゆがむと考えており、「うつ病の人は物事を悲観的にとらえるようになってしまう」と思われています。しかし、うつ病を研究する専門家の中には、「うつ病の人々は悲観的なのではなく、むしろ世界を正しく認識している」という考えを支持する人が多くいるそうです。 Depressed People See the World More Realistically - VICE https://www.vice.com/en_us/article/8x9j3k/depressed-people-see-the-world-more-realistically 「うつ病の人はそうでない人よりも現実を正しく認識している」という考えは、「抑うつリアリズム」と呼ばれるものです。抑うつリアリズムの存在が事実だとすれば、うつ状態でない多くの人々は、現

    うつ病の人々は悲観的なのではなく「世界を正しく認識している」のかもしれない
    richard_raw
    richard_raw 2019/10/21
    故に人類は自己欺瞞と忘却を獲得したのです(タイトルしか読んでない)
  • ユニクロ、カメラで体を採寸してサイズを提案する「MySize CAMERA」

    ユニクロ、カメラで体を採寸してサイズを提案する「MySize CAMERA」
    richard_raw
    richard_raw 2019/09/10
    bodygramというのか。……そんな微調整できるサイズ展開でしたっけ。/おすすめタグどうした。
  • 「コピペできるようになったら神→対応しました」Google、驚異のリアルタイム文字変換の進化

    Search, watch, and cook every single Tasty recipe and video ever - all in one place! News, Politics, Culture, Life, Entertainment, and more. Stories that matter to you. 「コピペできるようになったら神→対応しました」Google、驚異のリアルタイム文字変換の進化2月にβ版がリリースされたGoogle製の音声文字変換(Live Transcribe)アプリ。もともと聴覚障害者のために作られたアクセシビリティ機能だが、精度の高さから文字起こしとしても使えるのではないかと話題だ。来日中のプロダクトマネージャー、ブライアン・ケムラー氏に話を聞いた。

    「コピペできるようになったら神→対応しました」Google、驚異のリアルタイム文字変換の進化
    richard_raw
    richard_raw 2019/09/03
    やっぱりテープ起こしに使いたくなっちゃいますよね。
  • 「くずし字」の認識に世界のAI研究者・技術者が挑戦 ―全世界的コンペティションをKaggleで7月から開催― - 国立情報学研究所 / National Institute of Informatics

    は、古典籍、古文書、古記録などの過去の資料(史料)を千年以上も大切に受け継いでおり、数億点規模という世界でも稀なほど大量の資料が現存しています。日歴史文化の研究や、過去の災害などの自然現象の解明を進めるには、これらの資料をデジタル化・オープン化するとともに、その内容を読み解く必要があります。ところが、現代のほとんどの日人は「くずし字」で書かれた過去の資料を読めなくなっており、大量のくずし字をどう読み解くかが重要な課題となっています。 そこでこの社会課題の解決にAI人工知能)を活用する方法を探るため、この7月から10月にかけて、世界最大規模の機械学習コンペプラットフォームである「Kaggle(カグル)」で、「くずし字認識:千年に及ぶ日の文字文化への扉を開く」と題する全世界的なコンペを開催します。コンペを通して画期的なくずし字認識手法の開発が進むだけでなく、くずし字データセット

    「くずし字」の認識に世界のAI研究者・技術者が挑戦 ―全世界的コンペティションをKaggleで7月から開催― - 国立情報学研究所 / National Institute of Informatics
    richard_raw
    richard_raw 2019/07/10
    「PR」かと思ったら改行だった。/それはともかく楽しみなコンペ。
  • 本がうまく読めなくなった。原因と対策 - 僕とコードとブルーハワイ

    が読めなくなった。 が読めないとはどういうことか 原因 を読むために。 自分を観察する 傾向をみてみる ① 前提知識があるものはあまり苦なく読める ② 絵や図解が多いと読める ③ 短い文章は読める(300文字くらいの塊) ④ 音読すると読める 対策をする おわりに 同じくがうまく読めなくなった人へ がうまく読めなくなったことがどういうことか知りたくてたどり着いた人へ なんとなくこの記事にたどりついた人 この記事は実験的に、 わざと段落をつけたり文章を細かく区切って書いてます。 Twitterが上手く読めなくなったことを書いたら、どういうことかと数人から問われました。 この記事は、文章が上手く読めなくなった人/それがどういうことなのか知りたい人 が 何か参考になればと私の事例を書いたものです。 が読めなくなった。 一年半前にとあることがきっかけで私は心身ともに不調をきたし、一

    本がうまく読めなくなった。原因と対策 - 僕とコードとブルーハワイ
    richard_raw
    richard_raw 2019/05/21
    私は特にきっかけはありませんがいつの間にか(得意分野以外の)本がうまく読めなくなっていました。やっぱり音読が効きそうですね。
  • 四角が丸に、魚が蝶に──“不可能立体”研究10年、杉原教授が導き出した「錯視の方程式」

    杉原教授は3月に明治大を定年退職するに当たり、12日に最終講座を行った。10年間の錯視研究で、「タネ明かしをしても脳は錯覚を修正できないこと」と「両目で見ても錯覚は起こる場合があること」に衝撃を受け、その上で1つの疑問が浮かんだと話す。 「非直角を直角に見せる」新たな立体トリックを考案 ペンローズの四角形に見える立体を作ったのは、杉原教授が初めてではない。従来も、実際にはつながっていない四角柱をつながっているように見せかける「不連続のトリック」や、四角柱を曲げてつながった立体を作る「曲面のトリック」といった立体化があったが、杉原教授は「直角に見えるところに直角以外の角度を使う」という方法を取った。 非直角のアプローチでは、四角柱は曲がらず、不連続にもならない。

    四角が丸に、魚が蝶に──“不可能立体”研究10年、杉原教授が導き出した「錯視の方程式」
    richard_raw
    richard_raw 2019/03/14
    私が生まれる前から不可能立体に取り憑かれていたとは……。
  • 「鏡の中の自分」がわかる魚を初確認、大阪市大 | ナショナルジオグラフィック日本版サイト

    ホンソメワケベラ(Labroides dimidiatus)には、鏡で自分の姿を認知する能力があるかもしれない。だとすれば、動物の知能や自己認識について多くの疑問が湧いてくる。写真ではフグのえらを掃除中。(PHOTOGRAPH BY CHRIS NEWBERT, MINDEN PICTURES/NATIONAL GEOGRAPHIC CREATIVE) 鏡に映った自分の顔に汚れがついていたら、ほとんど無意識のうちにぬぐい取ろうとするだろう。簡単なことのようだが、これができるのは人間以外にはオランウータンやイルカなど、ごく限られた賢い種だけだ。人間でさえ、幼児期にならないと鏡の中に見えるのは自分自身なのだと認知できない。 だが、大阪市立大学の幸田正典氏らが8月21日付けで論文投稿サイト「BioRxiv.org」に発表した研究で、小さな熱帯魚のホンソメワケベラ(Labroides dimidi

    「鏡の中の自分」がわかる魚を初確認、大阪市大 | ナショナルジオグラフィック日本版サイト
    richard_raw
    richard_raw 2018/09/19
    幸田先生だ!追試が楽しみですな。
  • AIが魚種を見分けるアプリ「フィッシュ」 約300万点の写真を人力でタグ付けて学習

    AIが魚の種類を判別するスマートフォンアプリ「フィッシュ」が登場。魚の画像を読み込ませると、名称や科目などを表示してくれる。 釣り船予約サイトなどを運営するB.Creation(兵庫県芦屋市)は7月11日、AI人工知能)を活用して写真に写った魚の種類を判別するスマートフォンアプリ「フィッシュ」(iOS/Android、無料)を公開した。11日時点で80種の魚を判別できるという。

    AIが魚種を見分けるアプリ「フィッシュ」 約300万点の写真を人力でタグ付けて学習
    richard_raw
    richard_raw 2018/07/12
    “約300万点の魚画像をデータベース化し、各画像の魚の種類を人力でタグ付け。” 凄い労力かかってますね……。
  • 物体セグメンテーションアルゴリズム"watershed"を詳しく - Qiita

    Watershed algorithm 接触する物体をうまい具体に分離(セグメンテーション)して認識してくれるアルゴリズム OpenCVでも利用可能 結構古典的なアルゴリズム watershed = 分水嶺? 画像の輝度勾配を山と谷の地形図に見立て、そこに水を流すイメージをした時に、水を貯める分水嶺(壁)を"輪郭"として判定する手法 参考: The Watershed Transformation 要は、"オブジェクトの輪郭"を正しく判定するアルゴリズム 実際に動かしてみる 以下、watershedの公式チュートリアルを追っていきつつ、補足内容を追加 ※ 以下、Jupyter notebook上で実行した結果を貼り付けているので、下記のアウトプットやコードの細かいところはJupyter notebook上の実行想定で。 以下、同内容のJupyter notebookをGithubにおいてあ

    物体セグメンテーションアルゴリズム"watershed"を詳しく - Qiita
    richard_raw
    richard_raw 2018/07/10
    watershedの解説。けっこう前準備が必要なんですね。cppのサンプルコードはもっと短かったような……と思って確認するとマウスイベント拾って処理するやつだった。/所々typoが。