タグ

OCRとdisabilitiesに関するdiet55のブックマーク (3)

  • GPT-4V(ision) System Cardをざっくり訳した - Qiita

    はじめに OpenAIが3月に発表していたものの実装していなかった、画像および音声を取り扱うことのできるマルチモーダルモデル「GPT4-V」のdeployが発表されました。当に全部この会社がやればいいんじゃないか? ChatGPTのPlus/Enterpriseユーザーに2週間かけて提供するそうです。最近ChatGPTのほうの処理能力が落ちつつあってGPT-4のAPIばっかり使ってるんですが、ChatGPT Plusは解約できそうにないですね。 GPT4-Vを中心としたV&LのLLMはDocumentUnderstandingの文脈での活用が期待されており、先日Googleを中心としたグループもLMDX: Language Model-based Document Information Extraction and Localizationという論文を発表していました。Geminiなん

    GPT-4V(ision) System Cardをざっくり訳した - Qiita
    diet55
    diet55 2023/10/06
    「Be My AIは(中略)Be My EyesプラットフォームにGPT-4Vを統合しました。」「これまでのマルチモーダルLLMでは光学文字認識(OCR)の能力がかなりイマイチなことが知られていますが、何らかの方法で改善したっぽいです。」
  • Google提供視覚障害者向けアプリ「Lookout」画像要約機能実装

    視覚障害者向け Android アプリ「Lookout」にアプリバージョン v4.0(v4.0_reveal_20230811.00_RC03 (arm64-v8a))アップデートが配信 2023 年 5 月にクローズドベータ機能として提供された画像要約機能「画像モード」を実装 そのほかの機能も最適化 2023 年 8 月 18 日(金)、視覚障がい者向け被写体認識 Android アプリ「Lookout(Lookout by Google)」に対し、プリバージョン v4.0(v4.0_reveal_20230811.00_RC03 (arm64-v8a))アップデートが配信開始されました。 今回の「Lookout」アプリ v4.0 では、2023 年 5 月にクローズドベータ機能として提供された画像要約機能「画像モード」が、ベータ版として実装されています。「Lookout」アプリの「画像

    Google提供視覚障害者向けアプリ「Lookout」画像要約機能実装
  • OCR技術の発展がすごい

    こんにちは,平林です。8月のはじめに発熱し,新型コロナウイルスに感染していることがわかりました。幸い軽症で,自宅療養中です。3回目のワクチンは接種しているものの,もう抗体がなくなってしまっていたところに出張をして油断しました。北海道出張はキャンセルで残念。元気になったけれど外には出られない。というわけで,時間ができたので最近すごいと思った機器についての記事を書こうと思います。 コロナにかかって自宅療養する中で,何度か自分が得ているこの情報にアクセスしにくい人がいるだろうなと感じる場面がいくつかありました。抗原検査のやり方・結果の見方,陽性になった場合の手続き,処方された薬の情報,ウェブから得られる情報もありますが,紙中心のものもたくさんありました。 画像から文字を抽出する技術のことをOCRといいます。文字を読むのが苦手な子どもたちはプリントが苦手です。プリントに書いてある文字は読みにくい・

    OCR技術の発展がすごい
    diet55
    diet55 2022/08/07
    「小学校3・4年生の年齢から子どもが自分でできるかといえばなかなか難しい」「次に会った時にそれを家に帰って(中略)多くの子どもは使っていませんでした。」①ペン型スキャナー辞書「NazoritAI Pro」 ②Googleレンズ
  • 1