並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 23 件 / 23件

新着順 人気順

OCRの検索結果1 - 23 件 / 23件

  • 自炊するな。ガチでやめろ。人生終わる。

    引越しをするついでに自炊――家の本の電子書籍化――を行った。以下はその時の作業メモ、および深い後悔についての記録である。短くまとめると、絶対に自炊はしてはいけない。自炊をすると最悪死ぬ。 具体的な自炊の方法が知りたい方はすぐさましかるべき場所までスクロールすればよい。そうやってインスタントに情報を知っていればいいんだ! ずっとそうしていればいい! だが覚えておけ、Q. そうやって得た知識が何になるというんだ! A. 知識になる 前書き 引越しをした。私は引越しを安上がりにするタイプで、おおむね宅急便 + 赤帽 + 自家用車による庶民的な引越しを行うことが多い。だが引越しの詳細についてはまた今度にしよう。 引越しをするついでに家にある本を大雑把に1. 重要な本、2. 持っておく本、3. くそどうでもいい本 の三つに分けた。 各カテゴリには、例えば次のようなものが含まれる。 重要な本 父親から

      自炊するな。ガチでやめろ。人生終わる。
    • PCの操作をすべて録画&文字起こしして過去の操作を丸ごと検索可能にするアプリ「Windrecorder」

      PCを使っていると、過去の操作内容やブラウザで閲覧していた情報を思い出したくなるタイミングが頻繁に発生します。そんな時に役立ちそうなPC操作記録アプリ「Windrecorder」がオープンソースで開発されています。 GitHub - yuka-friends/Windrecorder: Windrecorder is a memory search app by records everything on your screen in small size, to let you rewind what you have seen, query through OCR text or image description, and get activity statistics. https://github.com/yuka-friends/Windrecorder I made an o

        PCの操作をすべて録画&文字起こしして過去の操作を丸ごと検索可能にするアプリ「Windrecorder」
      • GPT-4oを使って2Dの図面から3DのCADモデルを作る

        はじめに 株式会社ファースト・オートメーションCTOの田中(しろくま)です! 先日、 OpenAIからGPT-4oがリリース されました。 いろいろGPT-4oに関して調べていると、スピードが速くなっていたり、音声も直接扱えてマルチモーダル化が進んでいたりするようなのですが、画像に関して GPT-4-turboに比べ、認識やOCRの精度が向上している ようです。 製造業という観点からすると、これは 設計図面などに活かせるようになるのでは? と思いました。 機械部品などの設計図面は以下のように、特定の方向から部品を2次元上に落とし込んだ形で書かれるのですが、部品本体を描いている図以外に、寸法や名称といった文字も含まれた画像になっています。 このような 図と文字の複合データにおいて、GPT-4oの進化は有効なのではないか と考えました。 ※画像元URL: http://cad.wp.xdoma

          GPT-4oを使って2Dの図面から3DのCADモデルを作る
        • OpenAIのGPT-4oを日本語OCRとして使ってみる

          昨日、OpenAIが生成AIの新しいモデルであるGPT-4oを発表しました。消費するトークン数の節約や、音声合成機能の改善、応答速度の向上など着実な品質改善を見せているようです。私も、特に音声合成(Text To Speech)の表現力について非常に興味を持っています。 私は以前、「OpenAIのGPT-4 Turbo with visionを日本語OCRとして使ってみる」で、GPT-4 Turboの画像認識機能の日本語OCRについて検証を行いました。その当時は、既存のコグニティブAI APIに比べて認識精度が十分でないという評価をしています。とはいえ、その後に出てきたClaude 3 Opusは驚くべき認識精度だったので、OpenAIも巻き返す可能性は十分にあると感じました。Azure OpenAI Serviceを使っている場合は、Vision enhancementという既存のコグニ

            OpenAIのGPT-4oを日本語OCRとして使ってみる
          • Evernoteはオワコンか?いや、ちょっと待って - paiza times

            <この記事の著者> ヨス - Tech Team Journal 業務効率を改善し、タイムパフォーマンスを高める時間最適化の専門家。「単語登録」の便利さを伝える「単語登録エバンジェリスト」。 最近はメモアプリとして「Notion」の勢いがすごいように見えます。SNSを見ていると、今まで「Evernote」を使ってきた人もどんどん移行しているように見えますよね。 そして「Evernoteはオワコン」という声を聞くこともありますが、それは本当でしょうか? 今回は2010年からEvernoteを愛用しているヘビーユーザーのわたしが、現在も使いつづけている理由についてお話しします。 【目次】 なぜEvernoteはオワコンだと言われているのか? (1)大幅な「値上げ」があったから (2)もはや有料版でないと使えないから (3)日本法人が解散したから それでもEvernoteを使いつづける理由 (1

              Evernoteはオワコンか?いや、ちょっと待って - paiza times
            • GPT-4o の画像認識能力がすごい!カロリー推定アプリを作ってみる - Qiita

              概要 食事のカロリー推定は非常に困難なタスクでした。 一般的なアプローチとしては、物体検知modelをfine-tuningし、料理画像から個々の料理の領域を判定することでカロリーを推定してきました。 GPT-4oを利用するとそのへんを飛ばして、いきなりカロリーが推定できます。精度の面では劣ると考えられますが、実装の容易さと未知のクラス (学習データセット内に含まれない料理) への対応を考えると、十分に利用価値があると思われます。 今回の記事では、実際のデモも紹介しているのですぐ利用することができます。 早速結果を見てみよう デモ 実装 カロリー推定 json-mode で処理をさせます。step-by-stepに推論を処理させるために、最初に雑な推論を記述させてから、各食品のカロリー量を推定させています。 # GPT-4にカロリーを推定させる (JSON-MODE) response =

                GPT-4o の画像認識能力がすごい!カロリー推定アプリを作ってみる - Qiita
              • AI導入で企業が挫折するのはなぜ?―AI「以外」の壁にどう立ち向かうか|Dory

                はじめにこんにちは、Doryと申します! あらゆる業務をAIエージェントで変革するべく、Algomaticという生成AIスタートアップで自社サービス開発や法人向けのAI導入支援に取り組んでいます。 この記事では、AI技術を現場の実業務に導入しようとしたとき、企業が高確率でぶつかる「3つの壁」について、自身の経験も交えて記載していきます。 【この記事には何が書いてある?】 ・AI技術を使って業務を変革しようとするとき、必ずぶつかるのは「AI以外」の壁であること ・3つの壁を乗り越えなければ、AIによる業務改革は進まないということ 【この記事の想定読者】 ・AIを自社にも取り入れたいと考えている経営者の方 ・AIの社内推進がミッションの、いわゆる「AI推進室・DX推進室」の方 ・その他、AIの力で自社を変えたい!と考えている方 以下、本文では簡単のため「AI」という表現を多用しておりますが、具

                  AI導入で企業が挫折するのはなぜ?―AI「以外」の壁にどう立ち向かうか|Dory
                • Amazon Kendra の Custom Document Enrichment と Amazon Bedrock で画像検索に対応する - Taste of Tech Topics

                  こんにちは、機械学習チーム YAMALEX の駿です。 YAMALEX は Acroquest 社内で発足した、会社の未来の技術を創る、機械学習がメインテーマのデータサイエンスチームです。 (詳細はリンク先をご覧ください。) 皆さんは、「前のプレゼン資料に使った、犬の画像はどこいったかな?あの画像が欲しいので、探してくれないかな?」と無茶振りされたことはありませんか? そんな時でも、「舌を出して喜んでいる」と検索すれば画像がヒットし、こんな無茶振りにも応えることができるシステムを Amazon Kendra (以下、 Kendra )で構築しました。 舌を出して喜んでいる犬 ちょっと待って Kendra は機械学習を利用した検索サービスで、ウェブサイトや S3 に保存したドキュメントなどをもとに、適切な検索結果を返します。 しかし、 Kendra で検索できるのはテキストだけで、画像を S

                    Amazon Kendra の Custom Document Enrichment と Amazon Bedrock で画像検索に対応する - Taste of Tech Topics
                  • あらゆる自動車を個別に追跡できる恐るべき公道監視カメラネットワークに対する批判

                    アメリカのノースカロライナ州では、民間企業が提供する自動車のナンバープレートを読み取るカメラシステムを導入しています。このシステムは通過する全ての車両のナンバープレートや特徴をキャプチャし、犯罪に関連する車両だけでなく一般市民の車両のデータも収集することができ、州内外の法執行機関のみが捜査目的でアクセスできるようになっています。しかし、このカメラシステムについて、プライバシー擁護派からは厳しい批判の目が向けられています。 Increase in roadside cameras brings more surveillance to NC | Raleigh News & Observer https://www.newsobserver.com/news/state/north-carolina/article286920890.html One Company Is Recording

                      あらゆる自動車を個別に追跡できる恐るべき公道監視カメラネットワークに対する批判
                    • 生成 AI を使用して従業員の生産性向上を支援する Amazon Q Business の一般提供開始 | Amazon Web Services

                      Amazon Web Services ブログ 生成 AI を使用して従業員の生産性向上を支援する Amazon Q Business の一般提供開始 AWS re:Invent 2023 では、Amazon Q Business のプレビューを行いました。Amazon Q Business は、エンタープライズシステム内のデータと情報に基づいて質問に答え、要約を提供し、コンテンツを生成して、タスクをセキュアに完了することができる、生成 AI 駆動のアシスタントです。 Amazon Q Business を使用することで、組織のユーザーが想像力、効率性、および生産性を高め、データに基づいて行動し、準備を整えることを可能にする、セキュアでプライベートな生成 AI アシスタントをデプロイできます。プレビュー中、私たちはお客様からたくさんのフィードバックをいただき、そのフィードバックを使用してサ

                        生成 AI を使用して従業員の生産性向上を支援する Amazon Q Business の一般提供開始 | Amazon Web Services
                      • Unlock a new era of innovation with Windows Copilot Runtime and Copilot+ PCs

                        I am excited to be back at Build with the developer community this year. Over the last year, we have worked on reimagining  Windows PCs and yesterday, we introduced the world to a new category of Windows PCs called Copilot+ PCs. Copilot+ PCs are the fastest, most intelligent Windows PCs ever with AI infused at every layer, starting with the world’s most powerful PC Neural Processing Units (NPUs) c

                          Unlock a new era of innovation with Windows Copilot Runtime and Copilot+ PCs
                        • 世界5400万ユーザー超え! 日本発のプロダクト「TimeTree」を支える、エンジニアとしての総合力

                          日本発の共有カレンダーサービスとしてグローバル展開しているTimeTree。今ではユーザー数が5400万人にも広がっている。これほどまでの大規模データを扱いながらもパフォーマンスを落とさない工夫や開発の醍醐味について、TimeTree CTO 河野洋志氏とSREチームを率いている金井栄喜氏に訊いた。 株式会社TimeTree CTO 河野洋志氏 世界に5400万ユーザーを抱える日本発のプロダクト「TimeTree」 ──自己紹介をお願いします。 河野洋志氏(以下、河野):CTOの河野洋志、ニックネームはScottです。TimeTreeの創業メンバーが新卒入社時の同期だった縁で、「TimeTree」がプロダクトとしてリリースされてから半年ほどで入社しました。それまではサーバーサイドやデータベースに携わっていました。2023年からはCTOとなり、エンジニアのマネジメントやスクラム開発導入などを

                            世界5400万ユーザー超え! 日本発のプロダクト「TimeTree」を支える、エンジニアとしての総合力
                          • Dataikuを使って完全ノーコードで、1時間でRAG作成→AIチャットボットを作ってみた(自動車保険の約款編) - Qiita

                            Dataikuを使って完全ノーコードで、1時間でRAG作成→AIチャットボットを作ってみた(自動車保険の約款編)chatbotragDataikunocodeLLM 目次 1.はじめに 2.完成形のご紹介 3.環境準備 4.PDF読み込み 5.PDF文字起こし 6.RAG作成 7.AIチャットボット作成 8.おわりに 1. はじめに 4/25に下記の通りプレスリリースでDataiku Answers発表しました。 Dataikuが、企業全体で生成AIチャットを可能に Dataiku Answersは安全でカスタマイズされた拡大可能な対話型AIを企業に提供 Dataiku Answersは、データチームがエンタープライズ規模で検索拡張生成(RAG)を使用して生成AIを搭載したチャット機能を構築するための新しい方法です。Dataiku Answersを使用することで、指定した大規模言語モデル(

                              Dataikuを使って完全ノーコードで、1時間でRAG作成→AIチャットボットを作ってみた(自動車保険の約款編) - Qiita
                            • microsoft/Phi-3-vision-128k-instruct · Hugging Face

                              Intended Uses Primary use cases The model is intended for broad commercial and research use in English. The model provides uses for general purpose AI systems and applications with visual and text input capabilities which require memory/compute constrained environments; latency bound scenarios; general image understanding; OCR; chart and table understanding. Our model is designed to accelerate res

                                microsoft/Phi-3-vision-128k-instruct · Hugging Face
                              • 東奔西走キャッシュレス(51) SIMスワップの対策と対面でのJPKI

                                この連載でこれまで何度か取り上げてきた本人確認の問題(第43回、第47回)。eKYCを悪用した銀行口座の問題に続いて、店頭での本人確認を回避した携帯電話の機種変更が話題になりました。いかに本人確認を確実にするのか、改めて確認したいと思います。 スマートフォンに挿入するICカードが、今回問題になったSIMカードです 勝手に機種変更されて携帯を乗っ取られる「SIMスワップ」 今回の問題は、東京都の風間ゆたか都議と大阪府八尾市の松田憲幸市議が相次いで被害に遭い、それをXに投稿したことで明るみに出ました。 2人とも、政治家として有権者の声を聞くために携帯電話番号を公開していたところ、その携帯電話の機種変更が他人の手によって行われ、SIMカードが交換されたことで「携帯電話の乗っ取り」が発生したという経緯のようです。 SIMカードは、携帯電話の契約情報が書き込まれたICチップです。SIMカードを入れ替

                                  東奔西走キャッシュレス(51) SIMスワップの対策と対面でのJPKI
                                • URLからテキストを抽出する自作APIアプリケーションの構築|youtube, PDF

                                  1. はじめに Webページや動画からテキスト情報を抽出することは、情報収集やデータ分析など、様々なタスクにおいて重要です。この記事では、DockerとFastAPIを用いて、URLからテキストを抽出するアプリケーションを構築する方法について解説します。Dockerは、アプリケーションの実行環境をコンテナ化することで、環境依存の問題を解消し、デプロイを容易にする技術です。FastAPIは、Python製のWebフレームワークであり、高速で効率的なAPI開発を可能にします。 この記事を活用するとできること youtubeから字幕(transcript)を取得して、Difyで要約させる WebサイトのURLから、テキストを出力して、Difyのワークフローに流し込む Web上のPDFからテキストを抽出して、DifyでQAチャットボットを構築する 2. 環境構築 2.1 Dockerfile 以下

                                    URLからテキストを抽出する自作APIアプリケーションの構築|youtube, PDF
                                  • GPT‑4oで面白かった・気になった事例まとめ - Qiita

                                    はじめに GPT‑4oが来ましたね!! 早速色々な使い方をされている方を見つけたのでまとめてみました。 公式ではリアルタイム翻訳や歌っている動画がありましたが、まだ試せないので、以下の事例には書いていません。 GPT-4o GPT-4o日本語まとめ 処方箋読み込み(OCR機能) 漫画を読解(OCR機能) GPT-4oに一瞬騙されかけた話(OCR機能…じゃなかった!) ペーパープロトタイピングから最初のHTML書き起こし 簡単なゲームを作成 カロリー推定アプリを作ってみる 終わりに まだ公開されて1日も経っていないので数は少ないのですが、これから続々と皆さんの試した結果が出てくると思います…! また思い立ったら更新しに来ます。 今後が色々楽しみですね!

                                      GPT‑4oで面白かった・気になった事例まとめ - Qiita
                                    • ChatGPT、更に進化をしてしまう : 哲学ニュースnwk

                                      2024年05月14日16:01 ChatGPT、更に進化をしてしまう Tweet 1: 名無しさん@おーぷん 24/05/14(火) 15:22:38 ID:u4QT これは凄い 津山三十人殺し←これ、インパクトあるよね 2: 名無しさん@おーぷん 24/05/14(火) 15:23:15 ID:eMqu もう人いらんやん 3: 名無しさん@おーぷん 24/05/14(火) 15:23:55 ID:Ie1z 底辺プログラマはもう職失うだろうね 4: 名無しさん@おーぷん 24/05/14(火) 15:24:08 ID:suDg はえーすっごい これgpt4.0なん? 6: 名無しさん@おーぷん 24/05/14(火) 15:24:29 ID:u4QT >>4 正確にはGPT4oってやつ 5: 名無しさん@おーぷん 24/05/14(火) 15:24:11 ID:u4QT 26: 名無しさ

                                        ChatGPT、更に進化をしてしまう : 哲学ニュースnwk
                                      • GPT4-Vで画面設計書から画面を生成させる - Qiita

                                        はじめに これまで設計書からプログラム、構成図からIaCなど、GPT4-Vで画像を使ったケースを取り扱ってきました。今回は画面設計書みたいなものから画面のコードを生成させてみたいと思います。 なお、生成するコードはSvelteコンポーネントです。 画面設計書 本当は日本語が良かったのですが、日本語OCRの精度に不安があったので英語で記載しました。なお、英語もChatGPTで日本語をもとに翻訳したものをそのままいれています。 DallePanel.svleteというSvelteコンポーネントについて、画面の構成と、動作に関する説明などを右側にいれています。右側の説明は画像にいれなくてもプロンプトに入れてもいいかなと思いましたが、とりあえず画像です。 ともすればfigmaとかでもいいじゃないかっていう話もありますが、動作含めて画像にすることを今回試します。 説明の内容は日本語(翻訳前)だと以下

                                          GPT4-Vで画面設計書から画面を生成させる - Qiita
                                        • [登壇レポート]「生成AI時代の必須スキル!RAGの回答精度向上のコツ全部教えます」で登壇しました | DevelopersIO

                                          新規事業部 生成AIチームの山本です。 2024/04/24にオンラインで開催した弊社セミナー「生成AI時代の必須スキル!RAGの回答精度向上のコツ全部教えます」にて登壇をしましたので、自分の発表資料を共有いたします。 資料 資料に関する補足 今回は、RAGを始めたい方や始めてすぐな方に向けて登壇を行いました メインの内容は、1~73ページです。 また補足として、既にRAGを導入し進めている方向けに、補足情報を74ページ以降に記載しました。 Q&A 以下、いただいた質問と、差し上げた回答の内容です。山本がメインで回答していますが、一部は(同じく登壇した)熊谷が回答しました。一部、本記事の記載に伴い補足を追加しました。 Q: LLMとragを活用し、毎日の1000人規模全社のeメール(参考ドキュメント)から、トラブルや不正予兆のあるメールを抽出することはできますか。なお、教師データ(メール)

                                            [登壇レポート]「生成AI時代の必須スキル!RAGの回答精度向上のコツ全部教えます」で登壇しました | DevelopersIO
                                          • Androidの「かこって検索」、iPhoneでも同じような機能が使えます! | GetNavi web ゲットナビ

                                            今年初め、グーグルはAndroid向けに、画面に映っているものを丸で囲むなどして検索できる「かこって検索」機能を発表しました。すでに同社のPixelデバイスやサムスンのGalaxyスマートフォンに展開されており、好評を呼んでいます。 ↑iPhoneでもほぼ同じように使える(画像提供/Google/YouTube) これとほぼ同じ機能が、GoogleレンズアプリとiOSのショートカットのおかげで、どのiPhoneでも再現できるようになりました。 かこって検索とGoogleレンズの主な違いは、前者がホームボタンあるいはナビゲーションバーを長押しして、どのアプリを開いていてもアクセスできること。それ以外は、同じ検索とOCR(光学文字認識)技術を使っています。 現在グーグルは、画面のスクリーンショットを撮影し、それをGoogleレンズに送信するショートカット「Search your Screens

                                              Androidの「かこって検索」、iPhoneでも同じような機能が使えます! | GetNavi web ゲットナビ
                                            • GPT-4o のマルチモーダル機能をさっそく試す - Qiita

                                              1. この記事の内容 OpanAI から 2024.5.15 に新しい大規模言語モデル「GPT-4o」が出たので、以前書いた「GPT-4V に入門してみる」記事と同様の検証をもう一回 GPT-4o でやってみて比較する記事となります 結論から言うと「GPT-4oが圧倒的に強い」です。(わかり切った話ですみません) 2. GPT-4o とは? すでに大量のニュース記事が出ていますので細かく紹介しませんが、以下の公式サイトを貼っておきます。 2-1. 料金 こちらのページを参照されたし 2-2. どのくらいの時点までの知識があるのか? 勿論上にある通りオフィシャルには2023年10月までなのですが、実際どのくらい最近のことまで答えられるのか聞いてみました。 最近の情報まで含めてめちゃくちゃ正確な回答です。いつの間にかWeb検索した情報を踏まえて回答するようになっていました。ハルシオン防止のため

                                                GPT-4o のマルチモーダル機能をさっそく試す - Qiita
                                              • 指数Watch:Week 2024/4/21 - 2024/4/27 - Be financial freedom. 経済的自由の探求

                                                S&P500 (SPX) などの指数の週次Watchです。 指数チェック|Weekly, 過去52週分 株価の動きチェック ヒートマップ セクター動向 感じたこと・思ったこと 参考書籍:FACT FULNESS, Hans Rosling 指数を見て ヒートマップから セクター動向 AI(ChatGPT4)との雑談 質問 回答 引用元 ランキング・宣伝など 指数チェック|Weekly, 過去52週分 株価の動きチェック ヒートマップ 1week セクター動向 買ってみたい&保有しているセクターなどの最近1年間の週足を眺めてみます。 グラフはInvesting.comで簡単に作れます。 感じたこと・思ったこと データを見た感想を書き留めていきます。 参考書籍:FACT FULNESS, Hans Rosling 「FACT FULNESS 10の思い込みを乗り越え、データを基に世界を正しく見

                                                  指数Watch:Week 2024/4/21 - 2024/4/27 - Be financial freedom. 経済的自由の探求
                                                1