並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 80 件 / 584件

新着順 人気順

文字認識の検索結果41 - 80 件 / 584件

  • 簡単に利用できる PDF 文字認識 OCR 比較まとめ ~ AI OCR の頭抜けた実力 - GMOインターネットグループ グループ研究開発本部

    D.M.です。今回は RPA にて PDF を OCR で読み取る検証をしたお話です。 TL;DR ・実用性は AI OCR しか勝たん。 ・AI OCR は Google vs Microsoft の構図。 両者精度高。 ・Google も Microsoft も API に無料枠があり Python などのプログラムで連携できる。 ・Microsoft は有料の RPA 連携機能が超絶楽勝なのでコードを書かない前提ならこっちも選択肢。非エンジニアでも楽々自動化できる。 ※関連記事 AI OCR でクレカ読み取りをやっています。 スマホNativeアプリでクレジットカード番号の読み取り機能の技術検証結果まとめ https://recruit.gmo.jp/engineer/jisedai/blog/technical_review_ocr_solutions_on_auto_detect

      簡単に利用できる PDF 文字認識 OCR 比較まとめ ~ AI OCR の頭抜けた実力 - GMOインターネットグループ グループ研究開発本部
    • 数式や文章がぐにゃぐにゃに曲がった論文PDFでもくっきり認識する画期的なOCR『Nougat』 | AIDB

      科学的知識は主に書籍や科学誌に保存されていますが、PDF形式が一般的です。しかし、この形式は特に数学的表現においてセマンティック情報の損失を引き起こします。この問題に対処するために、Meta AIの研究チームは『Nougat(Neural Optical Understanding for Academic Documents)』という新しいOCR(光学式文字認識)技術を開発しました。 Nougatは、数式や文章が複雑に配置された画像であっても、それをマークアップ言語に高品質で変換する能力を持っています。この技術は、新しい論文だけでなく、電子データが存在しない古い書類などの解析にも非常に有用です。 参照論文情報 タイトル:Nougat: Neural Optical Understanding for Academic Documents 著者:Lukas Blecher, Guillem

        数式や文章がぐにゃぐにゃに曲がった論文PDFでもくっきり認識する画期的なOCR『Nougat』 | AIDB
      • 機械学習の初心者がモチベーションを上げるために読む無料記事いろいろ - orangeitems’s diary

        機械学習の勉強とモチベーション 機械学習の扉を開いてみた・・のですが、いきなり数学が現れたりPythonが現れたりしてなかなか障壁が高そうな雰囲気です。でも、機械学習のさわりの部分すら知らないでいきなり数学から始めると、モチベーションがどんどん下がってきます。でも数学をわからないと先に進めない・・。 ということで、いやいや、とりあえず機械学習の超基本的なところをその道の達人から教えてもらう。また、こんなのは向いてないからねというアンチパターンも学ぶ。その上で、もし手を動かせるところまで来たらこんなことができるよ!という記事を集めてみました。 基本的な考え方を頭に入れるための資料 とりあえずこの2つの資料は繰り返し読んでおくと、次のステップでつまづきません。読みやすい記事なのでお勧めです。 一から始める機械学習 qiita.com 対象読者 ・機械学習について一から勉強したい人が対象です 目

          機械学習の初心者がモチベーションを上げるために読む無料記事いろいろ - orangeitems’s diary
        • 2019年、俺の読んだ論文50本全部解説(俺的ベスト3付き) - Qiita

          第一位 Focal Loss for Dense Object Detection 物体検知のためのFocal Loss これは不均衡データに対処するための損失関数Focal Lossを提案した論文なのですが, とにかくそのシンプルさにやられました. 画像のFLの式を見てください. たったこれだけです. ptは正解ラベルに対する予測値なのですが, ptが大きければ大きいほど損失値をしっかり抑えられるように設計された関数となっています. 正解ラベルに対して0.6と予測するサンプルを学習に重要視せず, 0.3とか0.1とか予測しちゃうサンプルにしっかりと重要視するのです. 自分も7月くらいまでは不均衡データに関する研究していたのですが, 自分が考えた多くのアイディアが結局Focal Lossの下位互換に帰結してしまうのです. しかもこの損失関数の汎用性は非常に高く, あらゆるタスクに入れること

            2019年、俺の読んだ論文50本全部解説(俺的ベスト3付き) - Qiita
          • 実在しない顔の画像3000点を無償配布、AI学習用データセットに 法人向け・商用利用可

            AI活用のコンサルティング事業を手掛けるAPTO(東京都渋谷区)とエイアイ・フィールド(東京都品川区)は10月5日、AIの学習データとして利用できる、実在しない男女の顔写真3000枚の無償配布を始めた。法人を対象に11月30日までの期間限定で提供し、商用利用も認める。「AI市場の加速に貢献できれば」(2社)という。 エイアイ・フィールドが自社の技術で自動生成した、実在しない10代~90代の男女の画像を提供。APTOが作成した年齢・性別などのアノテーション(画像を説明するテキスト情報)も付属する。申し込みは専用サイトで受け付ける。 もともとはエイアイ・フィールドが自社サービスで活用するために作成した画像だったが、6月に用途を研究目的に限った上で1000点を無料配布したところ、利用者からの反響があったことから、データを2000点追加し、商用利用を認めた上で再配布することを決めたという。 関連記

              実在しない顔の画像3000点を無償配布、AI学習用データセットに 法人向け・商用利用可
            • 凸版印刷、明治期から昭和初期の手書き文字を解読するAI-OCRを日本で初めて開発

              2022/11/11 凸版印刷、明治期から昭和初期の手書き文字を解読する AI-OCRを日本で初めて開発

                凸版印刷、明治期から昭和初期の手書き文字を解読するAI-OCRを日本で初めて開発
              • AIで“くずし字”の解読に挑む | NHKニュース

                日本で古くから使われてきた手書きの文字「くずし字」を、AI=人工知能を使って瞬時に今の文字に置き換えるシステムの開発を競う国際コンペが行われ、およそ300チームがより精度の高い解読に挑みました。 「くずし字」は平安時代から明治時代の初めごろまで広く使われていましたが、今の文字と形が大きく異なっていたり複数の文字が連続して書かれたりしていることから、正確に解読できる人には限りがあります。 このため「人文学オープンデータ共同利用センター」などは、AIを使ってくずし字を瞬時に今の文字に置き換えるシステムを開発し、そのうえで新たな発想を加えてさらに精度を高めようと国際コンペを行いました。 コンペでは、センターのシステムをもとに新たな手法を開発することで、数千枚の画像に書かれたくずし字をどれだけ正確に認識できるかが競われ、国内外の企業や研究者などおよそ300チームが参加しました。

                  AIで“くずし字”の解読に挑む | NHKニュース
                • 機械学習でなんとかしようと安易に考えるな - Qiita

                  世の中にはよい機械学習の結果が存在する。高い精度で推論(分類・検出)できるものがある。 だから、データの特性が、元々の想定から変わった時にも「機械学習だから、学習させればなんとかなるよね」と期待する人がいるかもしれない。 この文章は、そのような安易な考え方に立つことを戒めるために書く。 (もちろん、機械学習は今までになかった価値をいろんな分野にもたらす可能性が極めて高い。) (主張したいことは、 ビジネスとして見返りが期待できる内容の機械学習をすること。 100%の精度が期待できる機械学習は、そんなに多くない。それでも見返りが期待できる使い方をしてほしい。 1人のエンジニアに支援なしに丸投げするのではなく、チームとしての支援が有効であること。 最初の問題設定を疑ってかかること。手書き文字認識の強化で宅配便の伝票をなんとかするよりは、手書きを必要としない方がいい。 ) garbage in

                    機械学習でなんとかしようと安易に考えるな - Qiita
                  • 【2024年】AWS全サービスまとめ | DevelopersIO

                    こんにちは。サービス開発室の武田です。このエントリは、2018年から毎年公開しているAWS全サービスまとめの2024年版です。 こんにちは。サービス開発室の武田です。 このエントリは、2018年から毎年公開している AWS全サービスまとめの2024年版 です。昨年までのものは次のリンクからたどってください。 AWSにはたくさんのサービスがありますが、「結局このサービスってなんなの?」という疑問を自分なりに理解するためにまとめました。 今回もマネジメントコンソールを開き、「サービス」の一覧をもとに一覧化しました。そのため、プレビュー版など一覧に載っていないサービスは含まれていません。また2023年にまとめたもののアップデート版ということで、新しくカテゴリに追加されたサービスには[New]、文章を更新したものには[Update]を付けました。ちなみにサービス数は 247個 です。 まとめるにあ

                      【2024年】AWS全サービスまとめ | DevelopersIO
                    • Zero-shot Learning網羅的サーベイ:CLIPが切り開いたVision & Languageの新しい世界 - エクサウィザーズ Engineer Blog

                      こんにちは! 画像システムグループで機械学習エンジニアをやっている小島です。 この記事では、今ホットな「Zero-shot Learning」と「Vision & Language」に関する最新情報を、CLIPという研究を起点として網羅的にサーベイをしていきます。このために論文1000本に目を通し、70本程度を記事にしました。 Zero-shotやVision & Languageは、Stable Diffusionに代表される画像生成AIとも密接に関連している技術です。この記事を通して、Vision & Languageの奥深い世界を体感できるでしょう。 注意事項 この記事は非常に長いため、全部読むのに1時間以上かかる可能性があるので、休憩を取りながら、または必要な部分だけ読んでください。各セクションを個別に読んでも問題ありません。 また、文章中の画像は、特別な記載がない限り、引用元の論

                        Zero-shot Learning網羅的サーベイ:CLIPが切り開いたVision & Languageの新しい世界 - エクサウィザーズ Engineer Blog
                      • 〜OCR戦記〜適格事業者登録番号との戦い🔥🔥🔥 - LayerX エンジニアブログ

                        この記事はLayerXテックアドカレ2023の5日目の記事です。 昨日はmakogaさんがEngineering Career Ladderを作るときに気をつけたこと 其の一を書いてくれました。 次回はyuya-takeyamaさんがMicrosoft Graph APIについて書いてくれます!乞うご期待! こんにちは、機械学習を通じて誰かをラクにしたい yakipuです。 今回は、10月から始まったインボイス制度に伴う適格請求書発行事業者登録番号(以下「登録番号」と表記します)のOCR読み取りの戦いについて記したいと思います。 インボイス制度は、売手が買手に対して正確な税率や消費税額を示す適格請求書(インボイス)を交付することで、買手が仕入税額控除の適用を受けるために必要な制度です。売手側は登録事業者として登録番号などが記載されたインボイスを交付し、買手側はインボイスを保存する必要があり

                          〜OCR戦記〜適格事業者登録番号との戦い🔥🔥🔥 - LayerX エンジニアブログ
                        • 画像の中の文字を認識してくれるオープンソースのOCR「PaddleOCR」レビュー

                          画像に含まれる文字をテキストデータ化する光学文字認識(OCR)は、請求書やレシート、名刺などの印刷物をデジタル化する手法として広く使われています。そんなOCRをディープラーニングフレームワークで実現したのが、オープンソースのOCRシステム「PP-OCRv2」のデモ版となる「PaddleOCR」です。 PaddleOCR - a Hugging Face Space by akhaliq https://huggingface.co/spaces/akhaliq/PaddleOCR GitHub - PaddlePaddle/PaddleOCR: Awesome multilingual OCR toolkits based on PaddlePaddle (practical ultra lightweight OCR system, support 80+ languages recog

                            画像の中の文字を認識してくれるオープンソースのOCR「PaddleOCR」レビュー
                          • GAFAは「イノベーション」なんて目指してない、日本企業の現状認識は間違いだらけ

                            ソニー、ベイン・アンド・カンパニー、ウォルト・ディズニー、AOLなどを経て、アップル米国本社副社長 兼 日本法人代表取締役に就任。独自のマーケティング手法で「iPod mini」を大ヒットに導き、スティーブ・ジョブズ氏に託された日本市場でアップルを復活させた。リアルディアを設立し、セルフ・イノベーション事業を展開している。最新アプリ「DEARWONDER」は、創造的知性を磨く革新的なプラットフォーム。著書に『僕は、だれの真似もしない』(アスコム)などがある GAFAの戦略、AI分野でリードしている企業は? ──GAFAの戦略についてどう見ていますか。 僕も在籍していたアップルは今後、人工知能(AI)という領域ではGAFAのほかの3社、特にグーグルとアマゾンにはもう追いつけないと見ています。 なぜなら、ディープラーニングのための学習データ蓄積量がまったく違うからです。すでにアマゾン、グーグル

                              GAFAは「イノベーション」なんて目指してない、日本企業の現状認識は間違いだらけ
                            • 【保存版】課題から探すAI・機械学習の最新事例57選 | 宙畑

                              世の中の企業がどのように機械学習を活用しているのか事例を知り、業界全体や自社の目の前の業務で抱えている課題解決に活かせるかを考えるきっかけとなるよう、52種類の事例を紹介します。 近年、AIにおける要素技術のひとつである「機械学習」を活用したニュースを耳にすることが多く、漠然と自社でも活用したほうが良いのではないかと考えている方は多いのではないでしょうか。 世の中の企業がどのように機械学習を活用しているのか事例を知り、業界全体や自社の目の前の業務で抱えている課題解決に活かせるかを考えるきっかけとなるよう、57種類の事例を紹介します。 宇宙ビジネスメディアである本サイト「宙畑(そらばたけ)」では、そんな「機械学習」にインプットするデータの一つとして、俯瞰的・継続的にデータを取得可能な「衛星データ」を提案しています。事例と合わせて、「衛星データ」の可能性にも注目いただけると幸いです。 ※202

                                【保存版】課題から探すAI・機械学習の最新事例57選 | 宙畑
                              • LINE DEVELOPER DAY 2019 を開催しました

                                LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog Developer Relationsチームの三木です。 11月20日から21日にかけて、LINEのエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2019」を開催しました。社内外のエンジニアの皆様3,000名以上にご来場いただく大盛況なイベントとなりました。ご来場いただいた皆様、登壇いただいたゲストの皆様、運営に携わっていただいた皆様、誠にありがとうございました! 今年のLINE DEVELOPER DAYは、より深く幅広い分野に関連した内容を提供するために、二日間の構成としました。全部で68個のメイントーク、42個のショートトラック、9個のポスターセッション、6個のハンズオンセッション、19個のブー

                                  LINE DEVELOPER DAY 2019 を開催しました
                                • 著作権法第37条を使わない視覚障害者等向け読書支援サービス「YourEyes(ユアアイズ)」の衝撃【追記有】 | HON.jp News Blog

                                  《この記事は約 7 分で読めます(1分で600字計算)》 株式会社ポニーキャニオンは11月26日、視覚障害者や学習障害者(ディスクレシア)向けの読書支援サービス「YourEyes(ユアアイズ)」を来年2月から開始することを発表しました。これはどういうサービスで、著作権の問題をどうクリアしたのでしょうか? YourEyesとは? YourEyesは、本のページをスマホアプリで撮影すると、文章をOCR(光学文字認識)で読み取り、合成音声で読み上げることにより、耳で読書ができるというサービスです。詳しくは、こちらのサービス紹介動画をご覧ください。 利用者はまず、YourEyesポータルサイトでアカウントを登録、スマートフォンにYourEyesアプリをダウンロードします(iOS版のみ / 個人は月額500円、法人・事務所は月額2500円 / Android版対応は現在のところ予定していない)。アプ

                                    著作権法第37条を使わない視覚障害者等向け読書支援サービス「YourEyes(ユアアイズ)」の衝撃【追記有】 | HON.jp News Blog
                                  • 明治期の本もテキスト化、国立国会図書館が特注OCRに込めた狙い

                                    「(古い資料の)本文検索ができるようになれば、新たな本の価値を届けられる」。国立国会図書館次世代システム開発研究室の徳原直子室長は力を込める。 国立国会図書館(NDL)は2022年4月25日、新たに開発した「NDLOCR」をオープンソースとして公開した。NDLOCRは、書籍や雑誌などの画像データから本文のテキストデータを作成できるOCR(光学的文字認識)処理プログラム。明治~昭和期の独特なレイアウトにも対応しているのが特徴だ。古い資料でも本文検索ができるようになる。 NDLが蔵書のデジタル化に乗り出したのは2000年代に遡る。資料をスキャンし、主に「JPEG 2000」のフォーマットで保存、提供してきた。NDLが手掛けるオンラインサービス「国立国会図書館デジタルコレクション」から利用可能だ。 デジタル化を進める最大の目的は資料の保存にある。時がたつほど紙は劣化していくからだ。 ただし、ND

                                      明治期の本もテキスト化、国立国会図書館が特注OCRに込めた狙い
                                    • PDFからテキストを抽出するのはなぜ難しいのか?

                                      PDFファイルは、どんな環境のPCでもテキストや画像の表示を崩すことなく見られるデータ形式です。しかし、PDFからテキストデータをコピーしようとすると、うまく選択できなかったり、テキストの内容がおかしくなってしまったりすることがあります。なぜPDFファイルからのテキスト抽出が難しいのかを、PDFファイルのテキスト化およびデータベース作成を行う団体、FilingDBが報告しています。 PDF text extraction | FilingDB https://www.filingdb.com/pdf-text-extraction ◆読み取り保護 PDFファイルの中には内容が保護されているものが存在します。テキスト自体は正しく表示されていても、テキストをコピーしようとすると「Copying text was denied (テキストのコピーが拒否されました)」といった内容が表示され、テキス

                                        PDFからテキストを抽出するのはなぜ難しいのか?
                                      • 凸版印刷、“くずし字”を解読する画像認識AIを開発 研究機関向けに月額7万円から提供

                                        凸版印刷は2月16日、画像認識AIを活用して古文書に書かれた“くずし字”の解読を支援するツール「ふみのはゼミ」を開発したと発表した。オンラインで複数人による解読作業が可能で、解読精度は90%にも上るという。価格は月額7万円(税別、以下同)から。 くずし字は江戸時代以前に使用されていた文字の一種。凸版印刷は解読済みのくずし字の形を学習させた画像認識AIを生成。画像の文字を読み取ってテキストデータに変換するOCR(光学的文字認識)技術と組み合わせた。 古文書のスキャン画像からくずし字を指定すると、AIが自動的に解読する。目視による結果を再学習させることで、文字認識の精度を上げられるという。 解読した文字や単語へのコメント機能や、解読作業の参加者が交流できるチャット機能など共同作業機能も備える。

                                          凸版印刷、“くずし字”を解読する画像認識AIを開発 研究機関向けに月額7万円から提供
                                        • 「スマート」ガラスを用いた画像認識技術――電源も電子回路も不要 - fabcross for エンジニア

                                          「スマート」ガラスを通過する光線が、後方面(右端)で光エネルギー集中スポット・パターンを生成し、ディープラーニングにより手書き数字の識別が可能になる。 IMAGE COURTESY ZONGFU YU ウィスコンシン大学の研究チームが、電源や電子回路、センサーなどを必要としない「スマート」なガラスを用いた画像認識技術を考案した。サブ波長サイズの気泡や異相が多数配置されたガラス材料において、画像から発射された光が反射や回折、吸収を繰り返した後、ガラス後方面で一定の光エネルギー集中スポットを生じることを利用し、ディープラーニングを通じて画像認識を実現するというもので、研究成果は、2019年7月8日発行の『Photonics Research』誌8月号に掲載されている。 顔認識をはじめとして、人工知能ニューラルネットワークによる画像認識は、様々な分野で開発されている。画像認識におけるひとつの問題

                                          • エッジで機械学習ってなんだろう -ブラウザ、スマホ、IoT機器での推論を概観する- - Qiita

                                            本内容は、技術書典7 合同本『機械学習の炊いたん2』収録の、「エッジで機械学習」記事を公開したものです。内容は2019年9月時点の調査等に基づきます。 最近Raspberry Pi 4の検証結果などをみていると、エッジ、かつCPUでもそれなりの速度で動くケースもみられます。またこの後にM5StickV(K210)などを触りましたが、専用チップも使い所があります。今後、それらの動きもできれば補足したいと思います。 9/12-22に開催された技術書典9では、新刊『機械学習の炊いたん3』を頒布しました。私は、「AIエンジニア、データサイエンティストのための経営学、ソフトウェア工学」を寄稿しています。他にも機械学習のビジネス、エンジニアリング、数理までもりだくさん。気になられたら、ぜひご覧ください! 他にも、技術書典9「機械学習、データ分析」系の新刊リスト - Qiitaの通り、たくさんの本が出品

                                              エッジで機械学習ってなんだろう -ブラウザ、スマホ、IoT機器での推論を概観する- - Qiita
                                            • 機械学習の歴史 - AI.doll

                                              WikipediaのTimeline of machine learningというページに機械学習の歴史がまとめられた表があったので、あとから見返しやすいように全て日本語にしてみた。 日本語訳はガバガバかもしれないので心配な人は元ページを見てね。 ムムッってとこがあったらコメントで教えてほしい 年表 1763 ベイズの定理のベース トマス・ベイズ(Thomas Bayes)の著書, "An Essay towards solving a Problem in Doctorine of Chances"がベイズが死んだ2年後, 彼の友人により修正・編集され出版された. 1805 最小二乗 アドリアン=マリ・ルジャンドル(Adrien-Marie Legendre)が最小二乗(méthode des moindres carrés)について記述. 1812 ベイズの定理 ピエール=シモン・ラプ

                                                機械学習の歴史 - AI.doll
                                              • AIによる「超」軽量なOCR(文字認識)システムが登場【GitHub】 | AIDB

                                                光学式文字認識(OCR)システムは、文書の電子化・工場での文字自動検出・オンライン教育・地図作成など幅広く使用されています。 中国の巨大テック企業BaiduのYuning Duらは今回新たに、超軽量のOCRシステムである「PP-OCR」を提案しています。

                                                  AIによる「超」軽量なOCR(文字認識)システムが登場【GitHub】 | AIDB
                                                • 名刺管理のSansan、「ほぼ手作業」だったデータ入力はどう進化した? CTOが語った軌跡

                                                  名刺管理のSansan、「ほぼ手作業」だったデータ入力はどう進化した? CTOが語った軌跡(1/2 ページ) 「AWS Summit Tokyo 2019」のセッションに、Sansanの藤倉成太CTO(最高技術責任者)が登壇。創業時(2007年)から現在までの歩みを振り返った。かつてはオペレーターが名刺情報を手入力していた同社は、データ化の手法をどう進化させてきたのか。 「本当はテクノロジーに頼りたかったが、求める水準に技術が追い付かない場合は、勇気を出して他の手段を選ぶべきだと判断した」――。Sansanの藤倉成太CTO(最高技術責任者)は、アマゾン ウェブ サービス ジャパンの年次カンファレンス「AWS Summit Tokyo 2019」のセッションでこう明かした。 Sansanは2007年創業。クラウド型の名刺管理サービス「Sansan」(法人向け)と「Eight」(個人向け)を提

                                                    名刺管理のSansan、「ほぼ手作業」だったデータ入力はどう進化した? CTOが語った軌跡
                                                  • 「くずし字」の認識に世界のAI研究者・技術者が挑戦 ―全世界的コンペティションをKaggleで7月から開催― - 国立情報学研究所 / National Institute of Informatics

                                                    日本は、古典籍、古文書、古記録などの過去の資料(史料)を千年以上も大切に受け継いでおり、数億点規模という世界でも稀なほど大量の資料が現存しています。日本の歴史・文化の研究や、過去の災害などの自然現象の解明を進めるには、これらの資料をデジタル化・オープン化するとともに、その内容を読み解く必要があります。ところが、現代のほとんどの日本人は「くずし字」で書かれた過去の資料を読めなくなっており、大量のくずし字をどう読み解くかが重要な課題となっています。 そこでこの社会課題の解決にAI(人工知能)を活用する方法を探るため、この7月から10月にかけて、世界最大規模の機械学習コンペプラットフォームである「Kaggle(カグル)」で、「くずし字認識:千年に及ぶ日本の文字文化への扉を開く」と題する全世界的なコンペを開催します。コンペを通して画期的なくずし字認識手法の開発が進むだけでなく、くずし字データセット

                                                      「くずし字」の認識に世界のAI研究者・技術者が挑戦 ―全世界的コンペティションをKaggleで7月から開催― - 国立情報学研究所 / National Institute of Informatics
                                                    • 2022年の Flutter ロードマップ【要約】 - Qiita

                                                      最近、Flutterのロードマップが更新され、2022年のものが追加されました。 Flutterの最新情報は追いかけたい、でも英語読むのはめんどくさい! そんな方に向けて、本記事ではこのロードマップの要約を記載します。 あくまで個人の要約ですので、細かいニュアンスや詳細を知りたい方は、 下記の元記事を読んでください。 時間がない人向け 短くまとめると、以下の内容でした。 開発者体験向上させる デスクトップのサポートをstableチャンネルにする Webも色々向上、ページ埋め込み機能を実装予定だ Material 3のサポートとか色々予定 Dartに静的メタプログラミングの追加予定 全文の要約 2022年、尽力する部分 開発者体験 開発者が愛するSDKを作りたい。 例えば、 共通の問題を解決するwidgetやプラグインの追加 現状のAPIの整理 単純に多く使われるパターンのAPIの導入 エラ

                                                        2022年の Flutter ロードマップ【要約】 - Qiita
                                                      • Laboro.AI、日本語版「BERT」モデルを開発--オープンソースで公開

                                                        印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます オーダーメイドのAI(人工知能)を開発・提供するLaboro.AIは4月17日、自然言語処理モデル「BERT(Bidirectional Encoder Representations from Transformers)」を独自に事前学習させた日本語版モデル「Laboro.AI BERTモデル」を開発し、オープンソースとして公開したと発表した。 自然言語処理は、機械学習の技術領域の一つである。人が日常的に使用する言葉や文字など、テキスト情報をAIに処理させる分野になる。手書き文字の読み取りを行うOCR(光学文字認識)やテキストで会話するチャットボットのほか、スマートスピーカーにも技術が活用されている。 BERTは、2018年10月にG

                                                          Laboro.AI、日本語版「BERT」モデルを開発--オープンソースで公開
                                                        • 番外編|あなたの文字認識を拡張する。ドット世界の彫刻家たちー4社のドット書体を味わう。|造字沼ブックス/文字の本を発掘して読みとく

                                                          当連載では、漢字改良に挑んだひとりの人生をその著書を通じて書いてきたが、今回は文字自体に焦点をあてる。とりあげるのは前回に引き続きビットマップフォントだ。 前回の記事で明らかになったのは、次のような結論だ。 ビットマップフォントは何かを差し引くではなく、線を重ね合わせ、シェアすることでドットに複数の役割をもたせる。極限まで省略されているようで、実は何も省略していない。 世の中に明朝体と呼ばれる書体が複数ある。同じようにビットマップフォントもさまざまな企業からリリースされている。8ドットや9ドットのビットマップはギリギリまで削減されているように見えた。しかし、このギリギリのなかに取りうる選択肢がフォントの数だけ存在するのだろうか?それとも概ね同じ形に収斂されてゆくのだろうか? 収斂されてゆくのであれば、それが(9ドットの)究極の到達点であり興味深い。また大きな違いが生じるのであれば、簡略化の

                                                            番外編|あなたの文字認識を拡張する。ドット世界の彫刻家たちー4社のドット書体を味わう。|造字沼ブックス/文字の本を発掘して読みとく
                                                          • 無料&ブラウザ上でPDF・JPEG・PNG・GIFファイルからOCRによるテキスト抽出ができる「OCR PDFs and images directly in your browser」

                                                            PNG・JPEG・GIFといった画像ファイルやPDFファイルから、TesseractによるOCR(光学文字認識)でテキストを抽出できる「OCR PDFs and images directly in your browser」をエンジニアのサイモン・ウィルソン氏が公開しました。OCR PDFs and images directly in your browserはすべての処理をブラウザ上で実行するため、ファイルをどこかのサーバーにアップロードすることがないというのが大きな特徴です。 OCR PDFs and images directly in your browser https://tools.simonwillison.net/ocr Running OCR against PDFs and images directly in your browser https://simon

                                                              無料&ブラウザ上でPDF・JPEG・PNG・GIFファイルからOCRによるテキスト抽出ができる「OCR PDFs and images directly in your browser」
                                                            • [簡単にできる!] Power Automate for desktop(RPA)で PDF請求書をまとめてエクセルに転記する。 - Qiita

                                                              [簡単にできる!] Power Automate for desktop(RPA)で PDF請求書をまとめてエクセルに転記する。PDFOCRPowerPlatformPowerAutomateDesktop 今回は、オフィスの業務課題を想定して、Power Automate for desktop(RPA)で、月末営業から届く大量の請求書(PDF)の内容をOCRを使って文字認識させて、エクセルに転機して売上一覧を作成することを自動化します。 この自動化は、PDFから取得する文字の位置が違うとデータが取れませんので、レイアウトが基本同じであることが条件です。よくあるのは、合計金額を表示する位置が、見積もりの項目数により位置が変わる場合などは取得が難しいです。 Power Automate for desktopはWindows10や11に無償で提供されていますが、時間で定期的に起動したり、何

                                                                [簡単にできる!] Power Automate for desktop(RPA)で PDF請求書をまとめてエクセルに転記する。 - Qiita
                                                              • 「いちばんやさしいPython機械学習の教本」は、機械学習の実践的入門書 - ビープラウド社長のブログ

                                                                「いちばんやさしいPython機械学習の教本」をビープラウドのメンバーで執筆し、上梓しました。 いちばんやさしいPython機械学習の教本 人気講師が教える業務で役立つ実践ノウハウ 作者: 鈴木たかのり,降籏洋行,平井孝幸,株式会社ビープラウド出版社/メーカー: インプレス発売日: 2019/06/21メディア: 単行本(ソフトカバー)この商品を含むブログを見る 本書をおすすめしたい人 機械学習の基本理論を学びたい人 将来、AIを活用して仕事を楽にしたい人。そのために基礎を学びたい人 いつかはAIを開発してみたい人。そのために基礎を学びたい人 AIリテラシー(AIについて知識を持ち、活用・応用する能力)を身につけていきたい人 Web開発者でAI・機械学習についての知識を身つけたい人 本書執筆の背景 本書のタイトルにある「機械学習」とは、AIを実現するための技術のことです。 機械学習という名

                                                                  「いちばんやさしいPython機械学習の教本」は、機械学習の実践的入門書 - ビープラウド社長のブログ
                                                                • Google BardでOCR文字認識してみた【画像認識】 - Qiita

                                                                  まず、英語版のバードに行きます。 画像をアップロードしてほしい情報を入力すると教えていただけます。 生年月日について聞いてみました "平成元年3月31日生"と正しく認識できてます フォーマットも指定可能です 有効期限も聞きました "2025年3月31日まで有効"と正しく認識できてます 4桁の番号を教えて 何キロカロリーありますか? まとめ 言われたことしかできない人は、仕事がAIに取られるかもしれません。 信じるか信じないかはあなた次第です 引用 Register as a new user and use Qiita more conveniently You get articles that match your needsYou can efficiently read back useful informationYou can use dark themeWhat you ca

                                                                    Google BardでOCR文字認識してみた【画像認識】 - Qiita
                                                                  • 最大かつ高性能 AI モデル、Gemini を発表 - AI をすべての人にとってより役立つものに

                                                                    Google / Alphabet CEO Sundar Pichaiからのメッセージ すべてのテクノロジーの変化は、科学的探求を前進させ、人類の進歩を加速し、生活をより良くする機会となります。いま目の当たりにしている AI による変化は、私たちの人生で最も意味深いものになると確信しています。これは、これまでのモバイルやウェブへの移行よりも、はるかに大きなものになるでしょう。AI は、日常から非日常に至るまで、あらゆる場所の人々に機会を生み出す可能性を秘めています。AI は、イノベーションと経済発展の新たな波をもたらし、これまでにない規模で知識、学習、創造性、生産性を高めます。 世界中のあらゆる場所で、あらゆる人に AI を役立てられることが、私がとてもワクワクしている理由です。 私たちが AI ファーストを掲げ取り組みを開始してから 8 年近くが経ちますが、進化の速度はより一層早くなって

                                                                      最大かつ高性能 AI モデル、Gemini を発表 - AI をすべての人にとってより役立つものに
                                                                    • 産業用途で活用が進む「Raspberry Pi」の最新動向~ラズパイIoTの基礎から事業化のコツまで

                                                                      2021年4月にソラコムが開催したSORACOM Device Meetup #3では、「ラズパイ初心者から経験者まで役立つIoTのいろは」をテーマに、ラズパイ活用をよく知る4社が登壇、ラズパイの産業利用について紹介しました。150名が参加した本イベントから、ラズパイの産業利用のコツを紹介します。 昨今、ビジネス用途の業務の可視化や、生産性向上のための取り組みに、Raspberry Pi(ラズパイ)を使っているというニュースを見かけるようになりました。ラズパイは、もともと教育用途で開発された超小型コンピュータで、リーズナブルな価格で入手しやすいことからDIY、プロトタイピング用途で使うものと思われがちです。しかし、ラズパイの仕様は、新しいモデルがでる度に向上しパソコン相当となっており、その出荷数の6割が産業用途です。Raspberry Pi 3から通信機能も強化され、最近ではセルラー通信を

                                                                        産業用途で活用が進む「Raspberry Pi」の最新動向~ラズパイIoTの基礎から事業化のコツまで
                                                                      • GPT-4Vのモデルを利用してOCRできるか試してみた - Taste of Tech Topics

                                                                        こんにちは、安部です。 気温の上下に翻弄されて最近風邪をひいてしまいましたが、皆さま元気にお過ごしでしょうか。 今回は、GPT-4Vのモデルを利用して、OCRができるか試していきます。 GPT-4Vによって、「ChatGPTに目ができた」などと騒がれましたが、文字認識はどれくらいできるのでしょうか? 得意分野ではなさそうですが、GPTも進化が目覚ましいので分かりませんね。 検証では、日本語(漢字/ひらがな/カタカナ)・英語の2言語で精度など比較していきます。 また、手書き・活字での違いも見ていきましょう。 一番簡単に試せるChatGPT(Web版)でOCRをさせようとするとエラーになることが多かったので、 ここではAPIを使っていくこととします。 APIを呼び出すプログラム 以下のコードを使い、gpt-4-vision-previewというモデルを呼び出しています。 画像は個人のgithu

                                                                          GPT-4Vのモデルを利用してOCRできるか試してみた - Taste of Tech Topics
                                                                        • 実装初心者向けにディープラーニングの全体像、実装手順をわかりやすくまとめてみた - Qiita

                                                                          対象者 機械学習、ディープラーニングを一通り勉強したが、実装するときにどう関連するのかわからない人。 頭の中を整理したい人。 詳しい数学的な説明はchainerチュートリアルを参照すると良い。 解説内容 ディープラーニングでもっとも一般的な教師あり学習の手順を解説する。また、それに伴う周辺知識を説明する。 ディープラーニングのモデルになったもの ディープラーニングは人の神経細胞における情報伝達の仕組みを真似て作られた。これにより、精度が飛躍的に向上した。 ニューラルネットワークの仕組み ニューロンのモデル化 ニューラルネットワークでは、人間の神経細胞の動きをコンピュータで再現した数式モデルを作る。個々の神経細胞は簡単な演算能力しか持たないが、お互いに繋がり連動することで高度な認識、判断をすることができる。行列や特別な関数の計算をしながら情報伝達の仕組みを数式で再現していく。 ニューロンのモ

                                                                            実装初心者向けにディープラーニングの全体像、実装手順をわかりやすくまとめてみた - Qiita
                                                                          • スマホが高性能ICレコーダーに!使ってわかったLINEの無料AI音声認識アプリ「CLOVA Noteβ」の実力|@DIME アットダイム

                                                                            ビジネスパーソンに必須といえる〝会議〟。 会議には議事録がつきものですが、できることなら機械に任せたいもの。しかし、音声認識をして文字起こしするソフトやサービスは昔からありましたが、高額かつ低認識率のものも多かったです。 そんな中、奇跡のスマホアプリが出現しました。まだベータ版(試用版)ですがいずれ正式版がリリースされるはずです。 それでは、LINEの無料AI音声認識アプリ「CLOVA Noteβ」についてご紹介します。 楽するだけではない! 議事録を書かなくて済むメリットとは? 「CLOVA Noteβ」は、録音しながらまずは話の概要をざっくり聞き、録音・文字認識が完了した二周目に「CLOVA Noteβ」で音声を「耳」で聞きます。そして自動文字起こしされた「文字情報」を目で確認できるのです。つまり、会議の内容を熟考できて知識が深まるのが最大のメリットです。 「CLOVA Noteβ」を

                                                                              スマホが高性能ICレコーダーに!使ってわかったLINEの無料AI音声認識アプリ「CLOVA Noteβ」の実力|@DIME アットダイム
                                                                            • ラズパイとAI-OCRで生産日報を電子化する(前編)

                                                                              小型ボードコンピュータ「Raspberry Pi(ラズパイ)」を使って、低コストかつ現場レベルでIoT(モノのインターネット)を活用する手法について解説する本連載。第4回と第5回では、AI技術の活用事例として注目を集めるAI-OCRとラズパイの組み合わせによる生産日報の電子化について前後編に分けて解説します。 今回からは、小型ボードコンピュータの「Raspberry Pi(ラズベリーパイ、略してラズパイ)」と、機械学習などのAI(人工知能)技術を活用したOCR(光学的文字認識)である「AI-OCR」を組み合わせた事例となる「生産日報の電子化」をどのように実現するかについて、前後編に分けて解説します。 ⇒連載「ラズパイで製造業のお手軽IoT活用」バックナンバー 生産日報電子化の課題 生産日報は、全ての生産現場で、必ずといっていいほど記録されています。生産日報を記録することにより、生産現場の状

                                                                                ラズパイとAI-OCRで生産日報を電子化する(前編)
                                                                              • 【検索雑談】Googleの画像文字認識の精度がいつの間にか高くなっていた話

                                                                                  【検索雑談】Googleの画像文字認識の精度がいつの間にか高くなっていた話
                                                                                • Document AIを巡る技術とLayerXにおける可能性 - LayerX エンジニアブログ

                                                                                  初めまして。機械学習エンジニアの島越@nt_4o54です。現在はMLチームで日々、バクラクシリーズで用いられているAI-OCR機能の改善や新規機能の開発などを行なっています。 7月はLayerXエンジニアブログを活発にしよう月間ということで、自分からは表題にもある通り、「Document AI」と呼ばれる技術についての紹介と、またLayerXにおいてどういう応用先があるのかというお話をさせていただこうと思います。 ※ 同名のDocument AIというGCPのサービスがありますが、今回は一般的なDocument AIの話になります。 Document AIとは Document AIに用いられる技術 Optical Character Recognition (OCR) Document Classification Layout Analysis Document Parsing Tab

                                                                                    Document AIを巡る技術とLayerXにおける可能性 - LayerX エンジニアブログ