並び順

ブックマーク数

期間指定

  • から
  • まで

201 - 240 件 / 1743件

新着順 人気順

OCRの検索結果201 - 240 件 / 1743件

  • 最大かつ高性能 AI モデル、Gemini を発表 - AI をすべての人にとってより役立つものに

    Google / Alphabet CEO Sundar Pichaiからのメッセージ すべてのテクノロジーの変化は、科学的探求を前進させ、人類の進歩を加速し、生活をより良くする機会となります。いま目の当たりにしている AI による変化は、私たちの人生で最も意味深いものになると確信しています。これは、これまでのモバイルやウェブへの移行よりも、はるかに大きなものになるでしょう。AI は、日常から非日常に至るまで、あらゆる場所の人々に機会を生み出す可能性を秘めています。AI は、イノベーションと経済発展の新たな波をもたらし、これまでにない規模で知識、学習、創造性、生産性を高めます。 世界中のあらゆる場所で、あらゆる人に AI を役立てられることが、私がとてもワクワクしている理由です。 私たちが AI ファーストを掲げ取り組みを開始してから 8 年近くが経ちますが、進化の速度はより一層早くなって

      最大かつ高性能 AI モデル、Gemini を発表 - AI をすべての人にとってより役立つものに
    • なぜ「LayerX 電子帳簿保存」を無料提供するのか|福島良典 | LayerX

      どうも、すべての経済活動を、デジタル化したいLayerXの福島です。 本日は来年1月1日に迫る電子帳簿保存法の施行に対応するためにリリースしました新プロダクト「LayerX 電子帳簿保存」を無料提供することにした背景についてです。この無料提供は一時的なものでなく、今後もずっと継続していきます。 要約- 「LayerX 電子帳簿保存」は法改正に対応するために必要な部分を無料で提供します。(期間限定の無料ではなくずっと無料です) - 請求書の保存だけでなく、領収書、発注書、見積書、納品書などの全ての形式の国税関係書類の保存に対応しております - サポート、OCRなどに関しては有料ですが、無料部分だけでも他社の有料プロダクトに見劣りしません。 - 無料でも低品質なものでなく高品質なものを提供します。「LayerX 電子帳簿保存」は「LayerX インボイス」の一機能を切り出したものであり、「La

        なぜ「LayerX 電子帳簿保存」を無料提供するのか|福島良典 | LayerX
      • マイナンバーカードの機能が多すぎる!|MORIDaisuke

        デジタル社会のパスポートとも呼ばれるマイナンバーカードは、対面・オンラインでの本人確認を行うための様々な機能を有しています。 私は公共業界でデジタルアイデンティティに関する仕事をしているのですが、マイナンバーカードは調べても調べても知らない機能が出てきて、いまだに全容を把握しきれていませんでした。 そろそろちゃんと整理して理解しなければと思いまして、自分用のメモとして公開情報を調べながら、このnoteにとりまとめていきます。 おことわりこのnoteは私が個人的に調査した公開情報をまとめたものです。業務上知り得た秘密情報や非公開情報は含んでおりません。 マイナンバーカードの仕様理解については素人に毛が生えたレベルですので、抜け漏れや誤りがあったら優しく教えていただけると嬉しいです。 予想よりも機能が多すぎて、かなり長い記事になってしまいました。斜め読み、読み飛ばし推奨です。 今回は物理カード

          マイナンバーカードの機能が多すぎる!|MORIDaisuke
        • 国立国会図書館、来春までに247万点・2億2300万枚超の資料を全文テキストデータ化へ | Ledge.ai

          LINE株式会社は、国立国会図書館(東京都千代田区)のOCRテキストデータ化プロジェクトに、同社の「CLOVA OCR」が採用されたと発表した。昭和前期以前の資料を中心にした247万点、2億2300万枚を超えるデジタル化資料が2022年3月までにテキストデータ化される。 国立国会図書館では「ビジョン2021-2025 国立国会図書館のデジタルシフト」の一環として、デジタルで全ての国内出版物が読める未来をめざし、デジタル化資料をテキストデータ化する取り組みを進めている。 今回テキストデータ化するデジタル化資料の多くは昭和前期以前の資料で、紙面のレイアウトが複雑だという。そのため、処理に多くの時間かかるうえに、学習機能のない既存のOCRでは読み取り精度が低かった。 CLOVA OCRは文書解析と認識に関する国際会議ICDARで評価された実績を持ち、ルビ・割注・割書きといった特殊な文書や、文字領

            国立国会図書館、来春までに247万点・2億2300万枚超の資料を全文テキストデータ化へ | Ledge.ai
          • 無償デスクトップ自動化ツール「Power Automate Desktop」でOCR処理を自動化する

            CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

              無償デスクトップ自動化ツール「Power Automate Desktop」でOCR処理を自動化する
            • 電卓を作らない|mri

              LayerX バクラク事業部でプロダクトのデザインを担当しています森です。 バクラク事業部では、法人の支出管理にまつわる、アナログな業務を効率化するプロダクト群を提供しています。 そのサービスのコアとなる技術の一つがOCRで、請求書や領収書などの情報を読みとり、今まで目視で確認、手入力していた業務を自動化するなどしています。 OCRで読み取られた請求書の情報は、入力フォームに自動的に入力される。バクラクのOCRの精度はかなり高いものですが、100%とはいかないため、読み取った他の金額を入力候補として表示することで、簡単に訂正できるようにしています。 金額の入力フォームでは、OCRで読み取った他の金額を入力候補として選択することができる。また、他の金額入力フォームでも利用することができるので、仕訳作業においては手入力を極力減らしています。 この機能は好評だったのですが、「計算機能が欲しい」と

                電卓を作らない|mri
              • NDL Ngram Viewer | NDLラボ

                サービスURL https://lab.ndl.go.jp/ngramviewer/ 概要 OCRによって作成されたテキストデータから、出版年代ごとの単語及びフレーズ(以下「キーワード」といいます。)の出現頻度を可視化・列挙することができるサービスです。 可視化グラフの縦軸は、年代ごとにキーワードが何回出現したかを表す出現頻度と、出現頻度を出版年代ごとの総ngram数で割った値を表す出現比率の2種類を切り替えることができます。 2023年1月現在の対象は、国立国会図書館デジタルコレクションで提供されているデジタル化済み資料のうち、図書約97万点及び雑誌約132万点のOCRテキストデータから集計した、約17億種類のキーワードです。 具体的な内訳は次の通りです 図書及び雑誌約230万点(約17億種類のキーワード) 図書約97万点(約8.5億種類のキーワード) 雑誌約132万点(約8.9億種類の

                • GPT-4Vのモデルを利用してOCRできるか試してみた - Taste of Tech Topics

                  こんにちは、安部です。 気温の上下に翻弄されて最近風邪をひいてしまいましたが、皆さま元気にお過ごしでしょうか。 今回は、GPT-4Vのモデルを利用して、OCRができるか試していきます。 GPT-4Vによって、「ChatGPTに目ができた」などと騒がれましたが、文字認識はどれくらいできるのでしょうか? 得意分野ではなさそうですが、GPTも進化が目覚ましいので分かりませんね。 検証では、日本語(漢字/ひらがな/カタカナ)・英語の2言語で精度など比較していきます。 また、手書き・活字での違いも見ていきましょう。 一番簡単に試せるChatGPT(Web版)でOCRをさせようとするとエラーになることが多かったので、 ここではAPIを使っていくこととします。 APIを呼び出すプログラム 以下のコードを使い、gpt-4-vision-previewというモデルを呼び出しています。 画像は個人のgithu

                    GPT-4Vのモデルを利用してOCRできるか試してみた - Taste of Tech Topics
                  • 表の画像からテーブルを自動で作成してくれる「Extract Table」

                    インターネット上にはさまざまな情報があふれており、有益な情報が表やグラフとして表示されているケースが多々ありますが、画像のままだと検索性に乏しいのが問題点。そんな画像の表をテキストデータ形式に変換したい時に便利なのが、表の画像からテーブルを自動生成できる「Extract Table」です。Extract Tableは画像上に写り込んだテキストや手書き文字を認識し、これをテキストデータとして自動抽出することができるAmazonの機械学習サービス「Amazon Textract」を駆使しています。 Extract Table https://extract-table.com/ 使い方は簡単で、まずはトップページ上部にある「参照」をクリック。 PC内に保存されたテーブル化したい表の画像を選択して「開く」をクリック。 Extract Tableに戻って「Submit」をクリック。 すると、表画像

                      表の画像からテーブルを自動で作成してくれる「Extract Table」
                    • データサイエンスグループで行っている論文輪読会について - Leverages データ戦略ブログ

                      はじめに レバレジーズのデータ戦略室で室長をしている阪上です。専門性向上を目的として、データサイエンスに関する論文輪読会を行っています。5ヶ月続けてみて色々と学びがあったので、簡単にこれまで読んだ論文の中で興味深いものを紹介しようと思います。 論文輪読会とは 週に1回30分の持ち回りで仕事で役に立ちそうなデータサイエンス系の論文を紹介するという取り組みで、専門性を向上させることを目的にしています。 通常の業務もあることから、各人の負担になり過ぎないように論文の概要を数分程度で述べ、特別に資料を作成するなどを想定しないものとして進めています。論文紹介のあとは、皆でその論文で扱われている手法に関して議論をします。主に半分以上の時間は議論に使われています。 以下のようにスプレッドシートに気になる論文を貼り付け、コメントを記した上で報告者がその論文の面白いポイントを述べるような形式で進めています。

                        データサイエンスグループで行っている論文輪読会について - Leverages データ戦略ブログ
                      • 日本のスタートアップにおける AI/ML 事例 | Amazon Web Services

                        AWS Startup ブログ 日本のスタートアップにおける AI/ML 事例 今や多くのスタートアップにおいて、人工知能 (Artificial Intelligence; AI) や機械学習 (Machine Learning; ML) は単なる話題作りではなく、データに基づく新たなビジネス価値の創出・自動化を行う上で欠かせないツールになっています。AWS をご利用中のスタートアップのお客様からも、多くのユースケースが紹介されています。本記事では、既に公開されている AI/ML 事例からアイディアを集め、読者の皆様が機械学習の第一歩を始めるための手がかりとなるようまとめたものです。 何から考え始めれば良いのか? まず機械学習は何から考え始めればいいの?という疑問に関して、ビジネスモデル (課題) ありきで、その上で手段として機械学習を捉えるのが良いでしょう。AWS でのベストプラクティ

                          日本のスタートアップにおける AI/ML 事例 | Amazon Web Services
                        • ScanSnapのGoogleDrive連携で学校のプリントを管理する - 日直地獄

                          学校、保育園のプリント管理のためにScanSnapを導入した。捨てにくく山積みになる問題を解決したかった。実際、結構解決している感じがあってめでたい。タイトルはAIに考えてもらいました。 買ったのはこれ。 富士通 PFU ドキュメントスキャナー ScanSnap iX1300 (最新/高速毎分30枚/両面読取/Uターンスキャン・リターン スキャン対応/Wi-Fi対応/USB接続/コンパクト/書類/レシート/名刺/写真) (White) ScanSnapAmazon 困りごと 良いとこ・悪いとこ プリントのチェック管理 困りごと 世の中にはこの悩みはよくあって、プリント管理アプリは結構あるっぽい。が、スマホで撮影する前提みたいなところがあって(自分調べ)、上手く撮りにくく時間がかかる上に全部自分でやらないといけない(子供にやらせられない)のがめんどくさい。 調べてみると最近の ScanSna

                            ScanSnapのGoogleDrive連携で学校のプリントを管理する - 日直地獄
                          • iOS 15の知られざる新機能15選 | ライフハッカー・ジャパン

                            ロック画面から「Spotlight」検索にアクセスImage: Pranay ParabiPhoneにいろいろなものをつめこんでいると、何を見つけるにも「Spotlight」検索に頼るようになりがちです。 嬉しいことに、Spotlight検索を使うためにわざわざiPhoneをアンロックする必要はもうありません。ロック画面で下方向にスワイプするだけで、おすすめアプリのリストと、その上部に検索バーが表示されます。 また、Spotlight検索から直接アプリを削除できるようになったのも気が利いています。 Spotlightで任意のアプリを検索してアイコンを長押しすると、「削除(Delete)」オプションを表示。 アプリを削除するためだけに、そのアプリが入っているフォルダを探し出すよりも、はるかに速く削除できます。 Safariのタブ切り替えを高速化Image: Pranay ParabiOS 1

                              iOS 15の知られざる新機能15選 | ライフハッカー・ジャパン
                            • 【2021年9月版】世界史関連の新刊50冊 - 歴ログ -世界史専門ブログ-

                              今月は歴史専門書の数が多いです 2021年7月~9月の世界史関連新刊紹介です。 本記事はざっと流し読みをして気になる本をメモしていただくか、ブックマークして書店を訪れた際に見返すかして使っていただけるといいかと思います。 今回は50冊あります。目下の国際関係を反映してか、中国関係の書籍が非常に多いのが特徴です。それではどうぞ。 注目の新書・選書 新書・選書からは9冊。個人的な注目は『高地文明―「もう一つの四大文明」の発見』『書物と貨幣の五千年史』です。 1.『日韓関係史』 木宮 正史 著 岩波新書 2021/7/20 税込924円 日韓関係史 (岩波新書 新赤版 1886) 作者:木宮 正史 岩波書店 Amazon 日韓関係は、なぜここまで悪化してしまったのか。交流が増えるにつれて、日韓の相互理解は進むはずではなかったのか。――その謎を解明するため、本書は一九四五年から現在に至る歴史を、北

                                【2021年9月版】世界史関連の新刊50冊 - 歴ログ -世界史専門ブログ-
                              • 2020年出版関連動向回顧と年初予想の検証 | HON.jp News Blog

                                (※1)「HAPPY PLUS」は、集英社の女性誌8つのサイトと、キュレーションサイト「HAPPY PLUS ONE」を合わせた「ウェブメディアプラットフォーム」という位置づけなので、この数字は9メディア合算と思われる(プレスリリース参照) (※2)どちらも「HAPPY PLUS」に含まれているサイト 上位20サイトのうち、前年比プラスは13サイトでした。伸びとしては「レタスクラブニュース」「現代ビジネス」「FRIDAYデジタル」が突出しています。「日経や朝日より上」と称賛された「文春オンライン」は確かにすごいのですが、3億PVを突破したのがこの後の2019年11月なので、今年に限って言えば高値安定推移だったと言えるでしょう。 逆に、まとめサイトや投稿サイトは? その一方で、いわゆる「まとめサイト」はすでに“衰退”と言っていい状況にあるのではないでしょうか。無断転載でDeNA「WELQ」な

                                  2020年出版関連動向回顧と年初予想の検証 | HON.jp News Blog
                                • 精度の高い日本語OCRを実現する技術 LINE BRAIN OCRのパイプラインを解説

                                  日本語におけるOCR Hwalsuk Lee氏:ここまでテキスト検出のお話をしてまいりました。これからは日本語におけるテキスト認識についてお話ししようと思います。 先ほど言いましたように、日本語というのはテキスト認識において、英語に比べると何百倍ものたくさんの文字を扱う必要があります。 そのため、たくさんのテキスト認識の論文を検証いたしました。 Scene Text Recognition(STR)とは何でしょうか? STRというのは、文字列を画像パッチ入力から認識するタスクです。 この場合は「UNITED」という文字列を認識するということになります。 STRについてはこれまでいろいろな研究がされてきました。ですが我々がその評価内容を見たとき、たくさんの問題を発見しました。STR手法の比較においてどんな問題があるのでしょうか。 こちらは先行研究の手法のリストです。このリストをご覧いただくと

                                    精度の高い日本語OCRを実現する技術 LINE BRAIN OCRのパイプラインを解説
                                  • 行政と紙とファクシミリ|miyasaka

                                    ファクシミリ(FAX)の利用度(正確には紙での利用度)が基準値2019年比で約95%にまで減ってきた。 FAXそのものは誰もが利用できる簡単さのある素晴らしい技術です。あまりに便利すぎて万能が故に、本来であればファックスではない技術や方法でやりとりする方が効率性が高いことにまでファックスを多用しているのが行政の現実です。 昨年の4月頃に、患者さんの数が急増した際に、保健所からのファックス連絡の業務フローが破綻して問題になりました。感染者数が少ない段階ではファックスという技術選択で問題なかったのですがある閾値を超えるとその技術では処理が回らなくなりました。またメディアのみなさんや都民のみなさんからものすごく多くのお叱りをいただきました。 それも一つの契機として構造改革チームが立ち上がりファックスだけでなくコピー用紙削減、現金をキャッシュレス、対面相談を非対面相談にという活動を開始することに。

                                      行政と紙とファクシミリ|miyasaka
                                    • GitHub - kha-white/manga-ocr: Optical character recognition for Japanese text, with the main focus being Japanese manga

                                      Optical character recognition for Japanese text, with the main focus being Japanese manga. It uses a custom end-to-end model built with Transformers' Vision Encoder Decoder framework. Manga OCR can be used as a general purpose printed Japanese OCR, but its main goal was to provide a high quality text recognition, robust against various scenarios specific to manga: both vertical and horizontal text

                                        GitHub - kha-white/manga-ocr: Optical character recognition for Japanese text, with the main focus being Japanese manga
                                      • 精度向上のために機械学習プロダクト全体をフルスクラッチで書き直した話

                                        2020年7月から医療スタートアップのUbieで機械学習エンジニアをしています。ようやく入社から半年くらいが経ちましたので、ここ最近やっていた仕事として、機械学習プロダクトの精度向上のためにシステム全体をフルスクラッチでかつ一人で実装し直した話をしたいと思います。 機械学習は既に様々な会社でプロダクトに組み込まれ始めていると思いますが、サービスとしてのリリースや長期運用、そして今回お話する継続的な精度向上とリファクタリングについては、公開されている知見はまだまだ少ないと思います。もし同じような境遇の機械学習エンジニアの方への参考になれば幸いです。 tl;dr 精度向上のために、機械学習プロダクト全体をフルスクラッチで書き直した 開発スピードを上げるためには、既存のコードを流用するより新規で書き直すほうが良いような特殊な状況だった 機械学習タスクの実装は、可視化やテストなどを活用しつつ小さく

                                          精度向上のために機械学習プロダクト全体をフルスクラッチで書き直した話
                                        • 自社OCRエンジン「NineOCR」の学習効率化のため SageMaker Training を導入した話 - Sansan Tech Blog

                                          はじめに NineOCR とは NineOCR が抱える課題 Amazon SageMaker Training とは SageMaker Training の始め方 事前準備 AWS が提供しているコンテナイメージを拡張する方法 独自のコンテナイメージに SageMaker Training Toolkit をインストールする方法 スクラッチでコンテナイメージを作成する方法 まとめ 学習ジョブの実行 学習結果の確認 終わりに はじめに こんにちは、研究開発部の石井です。 本エントリーでは、弊社の OCR エンジン「NineOCR」の開発フローに SageMaker Training を導入した話を紹介します。 NineOCR とは NineOCR は Sansan が独自に開発した名刺特化の OCR エンジンです。 名刺をデータ化するフローの中で実際に活用されており、タスクの高速化・高精

                                            自社OCRエンジン「NineOCR」の学習効率化のため SageMaker Training を導入した話 - Sansan Tech Blog
                                          • ラズパイとAI-OCRで生産日報を電子化する(前編)

                                            小型ボードコンピュータ「Raspberry Pi(ラズパイ)」を使って、低コストかつ現場レベルでIoT(モノのインターネット)を活用する手法について解説する本連載。第4回と第5回では、AI技術の活用事例として注目を集めるAI-OCRとラズパイの組み合わせによる生産日報の電子化について前後編に分けて解説します。 今回からは、小型ボードコンピュータの「Raspberry Pi(ラズベリーパイ、略してラズパイ)」と、機械学習などのAI(人工知能)技術を活用したOCR(光学的文字認識)である「AI-OCR」を組み合わせた事例となる「生産日報の電子化」をどのように実現するかについて、前後編に分けて解説します。 ⇒連載「ラズパイで製造業のお手軽IoT活用」バックナンバー 生産日報電子化の課題 生産日報は、全ての生産現場で、必ずといっていいほど記録されています。生産日報を記録することにより、生産現場の状

                                              ラズパイとAI-OCRで生産日報を電子化する(前編)
                                            • 【検索雑談】Googleの画像文字認識の精度がいつの間にか高くなっていた話

                                                【検索雑談】Googleの画像文字認識の精度がいつの間にか高くなっていた話
                                              • くずし字OCR等の動向を踏まえて、研究者の方々に期待すること - digitalnagasakiのブログ

                                                いま、日本近世研究、とくに文学研究のあたりがすごいことになっています。膨大な国費が投入されて数十万点の日本の歴史的典籍がデジタル化・公開されてしまっていますが、大半は江戸時代の版本のようですね。そして、さらに、そこに書かれたくずし字にOCRをかけたテキストが無料で公開されようとしており、一方で、グーグルが雇用している研究者が、フリーソフトでくずし字OCRソフトやアプリを開発・公開してくれています。さらに、お金があれば、凸版印刷もくずし字のテキスト化をしてくれるそうです。こういった流れを受けて、12月にはイギリスでもThe Digital Turn in Early Modern Japanese Studiesというシンポジウムが開催されるそうです。 実際のところ、そんなこと頼んでないのに…と思っておられる研究者の方々も多いのではないかと思います。が、他の周辺分野からみると、うらやましいと

                                                  くずし字OCR等の動向を踏まえて、研究者の方々に期待すること - digitalnagasakiのブログ
                                                • Power Automateをフルで活用した、業務プロセス改善フローの作成 ~受注業務プロセスの自動化 | gihyo.jp

                                                  デジタル人材への第一歩!「Power Automate」ではじめるローコードでの業務自動化 Power Automateをフルで活用した、業務プロセス改善フローの作成 ~受注業務プロセスの自動化 第3回では、Power Automate for desktopの特徴でもある、UI要素のセレクター編集を使った最適なフロー作成について解説しました。 最終回の第4回では、クラウドフローとAI Builderという機能を活用した業務プロセス全体の自動化の例と、その方法について解説します。 Power AutomateはWindows 11に標準搭載されているRPA機能の“⁠Power Automate for desktop⁠”が特に注目されています。ただ、組織内でのPower Automateの展開を考えると、有償ライセンスを導入した際に実現できる業務プロセス全体の自動化と運用方法について知るこ

                                                    Power Automateをフルで活用した、業務プロセス改善フローの作成 ~受注業務プロセスの自動化 | gihyo.jp
                                                  • Document AIを巡る技術とLayerXにおける可能性 - LayerX エンジニアブログ

                                                    初めまして。機械学習エンジニアの島越@nt_4o54です。現在はMLチームで日々、バクラクシリーズで用いられているAI-OCR機能の改善や新規機能の開発などを行なっています。 7月はLayerXエンジニアブログを活発にしよう月間ということで、自分からは表題にもある通り、「Document AI」と呼ばれる技術についての紹介と、またLayerXにおいてどういう応用先があるのかというお話をさせていただこうと思います。 ※ 同名のDocument AIというGCPのサービスがありますが、今回は一般的なDocument AIの話になります。 Document AIとは Document AIに用いられる技術 Optical Character Recognition (OCR) Document Classification Layout Analysis Document Parsing Tab

                                                      Document AIを巡る技術とLayerXにおける可能性 - LayerX エンジニアブログ
                                                    • goによるOCRエンジン実行のまとめ - freee Developers Hub

                                                      会計フリー周りのエンジニアをしているよーだ(@rtryoda)です。この記事は freee Developers Advent Calendar 2019 の11日目です。最近各ベンダーやOSSのOCRエンジンをgoで触る機会があったので、実行方法と結果をまとめました。 OCRとは OCRとは光学的文字認識(Optical Character Recognition)のことで、画像などに記されている文字を読み取りテキストデータに変換することです。例えば以下のような画像に対してOCRを実行すると"あいうえお 12345"と認識されることを期待します。 ※各OCRの実行にはこちらの画像を使用します。 今回試すOCRエンジン一覧 OCRエンジン 日本語対応 クライアントライブラリ(go) Google Cloud Vision API ○ googleapis/google-cloud-go A

                                                        goによるOCRエンジン実行のまとめ - freee Developers Hub
                                                      • LayerXのカルチャーと行動指針 (2021年版)|mosa

                                                        こんにちは!LayerXの榎本(@mosa_siru)です。 この記事では、LayerXのカルチャーについて紹介していきます。特に、2018年に創業したLayerXが、様々な事業の変遷を経て、行動指針がどう変わっていったかを話していこうと思います。 私達は、創業当初から 5 つの行動指針をもとに活動しており、それらがカルチャーの源泉となっています。 ・Be Animal ・Bet Technology ・Trustful Team ・Fact Base ・徳これらについては、3年前に書いた記事の後半でも説明しています。 3年たった今、これらの行動指針は、どうなっていったでしょうか?変わっていったのでしょうか? LayerXの変遷そもそも創業当初から、LayerXはどう変わっていったでしょうか。変わったことが多すぎるので、本当に一部だけピックアップしていきます。 2019年 ・オフィスを東日

                                                          LayerXのカルチャーと行動指針 (2021年版)|mosa
                                                        • GPT-4o の画像認識能力がすごい!カロリー推定アプリを作ってみる - Qiita

                                                          概要 食事のカロリー推定は非常に困難なタスクでした。 一般的なアプローチとしては、物体検知modelをfine-tuningし、料理画像から個々の料理の領域を判定することでカロリーを推定してきました。 GPT-4oを利用するとそのへんを飛ばして、いきなりカロリーが推定できます。精度の面では劣ると考えられますが、実装の容易さと未知のクラス (学習データセット内に含まれない料理) への対応を考えると、十分に利用価値があると思われます。 今回の記事では、実際のデモも紹介しているのですぐ利用することができます。 早速結果を見てみよう デモ 実装 カロリー推定 json-mode で処理をさせます。step-by-stepに推論を処理させるために、最初に雑な推論を記述させてから、各食品のカロリー量を推定させています。 # GPT-4にカロリーを推定させる (JSON-MODE) response =

                                                            GPT-4o の画像認識能力がすごい!カロリー推定アプリを作ってみる - Qiita
                                                          • OCRの精度を担保するテスト基盤アーキテクチャ - LayerX エンジニアブログ

                                                            こんにちは!LayerXバクラク事業部 OCRチーム ソフトウェアエンジニアの秋野(@akino_1027)です。 この記事では、バクラクシリーズの機能であるOCRのテスト基盤について紹介していきます。 ※本記事は LayerX Tech Advent Calendar 2022 11日目の記事となります。 背景 バクラクでは手入力ゼロを目指すべく、 OCR機能(文書の読み取り機能)を提供しています。 以下、OCRで書類が読み取られる様子 www.youtube.com OCR機能は「手入力不要」という価値に直結するため、OCR精度を常に高い水準で保っておく必要があります。 安心してコード変更を取り込めるように 今まで読み取れてたのに読み取れなくなった書類はないか 新たに読み取れるようになった書類はどれか を確認する仕組みが必要でした。 OCRテスト基盤の開発 そこでOCR精度を担保するた

                                                              OCRの精度を担保するテスト基盤アーキテクチャ - LayerX エンジニアブログ
                                                            • AI-OCRを支える非同期処理アーキテクチャ - LayerX エンジニアブログ

                                                              こんにちは!LayerXエンジニアの高際 @shun_tak です! この記事では、LayerX インボイスの請求書AI-OCRを支える非同期処理の仕組みについて解説したいと思います。 いきなりサマリーですが、今回お伝えしたいのは以下の2点です。 請求書は突然大量にアップロードされるので(大歓迎です!)、Amazon SQSとGoの machinery を活用して非同期処理しているよ! AI-OCRの処理は重たいけど、AWS Lambdaを活用してシステム全体の負荷を分散し、スケーラビリティと可用性を確保し、コストも抑えることができたよ! では早速ですが、前回のブログ LayerX インボイスにおける請求書AI-OCRの概要 の復習です。LayerX インボイスの請求書AI-OCRは、以下の図のように複数の処理によって構成されています。 図にするとあっさりしてますが、前処理も後処理も複数の

                                                                AI-OCRを支える非同期処理アーキテクチャ - LayerX エンジニアブログ
                                                              • アノテーションなのに手入力ゼロ!?バクラクのOCRを支えるアノテーション基盤(アプリケーション編) - LayerX エンジニアブログ

                                                                こんにちは、全ての経済活動をデジタル化したいTomoakiです。 今回はバクラクで内製しているアノテーション基盤を紹介します。 バクラクのOCR バクラクでは請求書や領収書をはじめ、国税関係書類に対してOCRを実行し入力のサジェストを行うことで、ユーザーが書類の内容を手入力する手間を省いています。例えばこちらの領収書、日付、金額、支払先を自動で読み取ってユーザーにサジェストをしています。 チームでランチに行った時のレシート なぜアノテーション基盤が必要なのか バクラクのOCRでは自前で機械学習モデルを作成しているため、学習用・検証用のデータセットが必要になります。 OCRの処理の概要 OCRに必要なこれらのデータセットはどのようにして作るのが良いでしょうか。 お客様が最終的に入力した値を正解ラベルとするのはどうでしょうか? 例えば冒頭のレシートの場合、私は7010円として経費精算を申請した

                                                                  アノテーションなのに手入力ゼロ!?バクラクのOCRを支えるアノテーション基盤(アプリケーション編) - LayerX エンジニアブログ
                                                                • 手書きOCR 無料 - 面倒なデータ入力をカンタン電子データ化

                                                                  無料ツールでございますが、高いセキュリティレベルにてデータは管理されています。 また、ご入力いただいたデータ、文字認識した情報を勝手に他の目的に二次利用することはございません。

                                                                    手書きOCR 無料 - 面倒なデータ入力をカンタン電子データ化
                                                                  • 機械学習で実現するヤフーのOCR(文字認識技術)〜 PayPayフリマ 本棚出品での活用事例

                                                                    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。ヤフーで画像処理エンジニアをしている吉橋です。この記事ではヤフーのさまざまなサービスで使われている独自の画像文字認識(OCR)技術と、特に最近のPayPayフリマ「本棚一括持ち物追加機能」での活用事例をご紹介します。 画像文字認識とは 皆さん、ウェブサイトを見ていて「このキーワード気になるな……よしコピーしてヤフーで検索してみよう! と思ったらこれ画像じゃん、コピーできないよ……」なんて困ったことはありませんか? ウェブで私たちが目にする情報は“テキスト”と“画像”の2種類が主なものです。 テキスト: 文字列としての情報を保持したデータであり、コピーやウェブ検索に利用したり解析したり、容易に活用できます。 画像データ:

                                                                      機械学習で実現するヤフーのOCR(文字認識技術)〜 PayPayフリマ 本棚出品での活用事例
                                                                    • TrOCRでファインチューニング - Qiita

                                                                      from transformers import TrOCRProcessor processor = TrOCRProcessor.from_pretrained("microsoft/trocr-small-printed") TrOCRProcessorは、特徴抽出器とトークナイザをラップしただけです。任意の特徴抽出器とトークナイザを使えます。google/vit-base-patch16-224-in21k や cl-tohoku/bert-base-japaneseなど 事前学習モデルを選択 事前学習モデルが9種類ありますが、すべて10epochsほど試し一番いいので学習させるのがよいかもです。 from transformers import VisionEncoderDecoderModel import torch device = torch.device("cuda"

                                                                        TrOCRでファインチューニング - Qiita
                                                                      • みを(miwo):AIくずし字認識アプリ

                                                                        アプリのインストール Android: Google Play - 「みを」で検索 iOS: App Store - 「みを」で検索 2021年8月30日、Android版とiOS版のアプリを正式公開しました。アプリの利用は無料です。くずし字資料をカメラで写真撮影し、認識ボタンを押すだけで、AIがくずし字を現代文字に変換してくれます。Google PlayまたはApp Storeからインストールし、スマートフォンやタブレットなどでご利用下さい。 [もっと詳しく..] 「みを」アプリに関する情報をシェアする際には、ハッシュタグ「#miwoapp」をお使いください。 X (Twitter) - #miwoapp 主な機能 ご利用にあたって 「みを」のご利用にあたっては、プライバシーポリシー/利用規約や、注意事項をお読みください。 「みを」のAIくずし字認識は決して完璧ではありません。くずし字認

                                                                          みを(miwo):AIくずし字認識アプリ
                                                                        • LLMベースの新しい言語『SUQL』が示唆する「非構造化データのクエリ」を処理するパラダイム | AIDB

                                                                          スタンフォード大学の研究者たちは、新しいプログラミング言語『SUQL』(Structured and Unstructured Query Language)を開発しました。 この言語は、SQL(Structured Query Language)の概念を拡張し、非構造化データのクエリ処理を可能にする新しいパラダイムを導入しています。構造化データ(例えばデータベース内のデータ)と非構造化テキストデータ(自由形式のテキストなど)の両方を処理する能力を持つ初めての言語として位置づけられています。 『SUQL』の開発は、データソースをより効果的に活用するための手法を模索する研究の一環です。従来の技術では、構造化データと非構造化データを一元的に処理することには課題がありました。 大規模言語モデル(LLM)に基づくプロンプトコンポーネントで構成される『SUQL』は、今後の開発トレンドを牽引する研究と

                                                                            LLMベースの新しい言語『SUQL』が示唆する「非構造化データのクエリ」を処理するパラダイム | AIDB
                                                                          • 「PowerToys」のOCR機能が表(テーブル)の読み取りに対応 ~v0.74がリリース/Microsoftがパワーユーザー向けに提供している無償ツール集

                                                                              「PowerToys」のOCR機能が表(テーブル)の読み取りに対応 ~v0.74がリリース/Microsoftがパワーユーザー向けに提供している無償ツール集
                                                                            • タダで使える漫画翻訳システムをつくったよ - Qiita

                                                                              ー タダほど高いものはない                       まっくす おはようございま数理工学!どうも、まっくす(@minux302)というものです。 こちらは創作+機械学習 Advent Calendar 2021 の24日目の記事です。 漫画翻訳システム「MANGA GLOBAL」を作りました。ハッカソンクオリティなのであしからず。 でもいくつかの問題が改善できれば普通に使えそう、という印象です。 リポジトリはこちらです。 1. あらすじ 自分は趣味で漫画を描きます。下記は Deep Learning フレームワークを擬人化した漫画です。 読んでいただけたらもうこの記事で伝え残すことはありません。対戦ありがとうございました。 上記の漫画は予想以上の反応をいただき大変嬉しかったです。 多くの人に自分の作品を見てもらえることがこんなに嬉しいことだとは思いませんでした。 この漫画

                                                                                タダで使える漫画翻訳システムをつくったよ - Qiita
                                                                              • MNTSQ社の開発環境のご紹介|yuki_nishimura

                                                                                MNTSQ社でソフトウェアエンジニアをやっております西村と申します。 弊noteへのご来訪まことにありがとうございます。 本日は弊社の開発環境をご紹介いたします。 開発言語弊社では基盤部分をRuby on Railsで開発しております。一部、OCR処理は都合でJavaを利用したり、機械学習はPythonが得意ですのでPythonを利用しております。 レビュー環境 リリースブランチや開発ブランチへの直接プッシュは禁止しております。GitHubでブランチを保護する方法につきましては、以下の記事などをご参考ください。 [GitHub] ブランチの保護設定を活用しよう 【レビューが通るまでマージさせんぞ】 | Developers.IO リリースブランチや開発ブランチに変更を加えるには、Pull Requestを介して行います。Pull Requestのレビューは必須となっており、少なくとも一名が

                                                                                  MNTSQ社の開発環境のご紹介|yuki_nishimura
                                                                                • 最新の深層学習技術による古典くずし字認識の現状と今後の展望 - May the Neural Networks be with you

                                                                                  こんにちは。@shunk031 です。 普段は最先端の技術が大好きなパソコンのオタクですが、京都へ旅行して古き良き日本の文化に感化されました。 この記事は 法政大応情 Advent Calendar 2020 21 日目の記事です。 From http://codh.rois.ac.jp/ 今回は日本古典籍の分類タスクについて取り組んでみようと考え、近年の日本古典籍における「くずし字認識」に着目して調査をしました *1。 日本古典籍といった古文書に対して、OCR 等の文字認識技術によって文字情報をデジタル化し、それらの情報をもとに解析を行う流れは現代では自然だと考えています。 しかしながら、一般的に OCR は難しく、また古文書を機械に解析させることはさらなる困難があるのは容易に想像できます。 くずし字認識に対して、近年の取り組みでは ROIS-DS 人文学オープンデータ協働センターが K

                                                                                    最新の深層学習技術による古典くずし字認識の現状と今後の展望 - May the Neural Networks be with you