並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 302件

新着順 人気順

OCRの検索結果1 - 40 件 / 302件

  • さようなら、全てのエヴァーノート - 本しゃぶり

    2011年6月10日、Evernoteを使用開始。 2014年9月19日、有料プランに加入。 2024年3月23日、クソみたいなメールが届く。 プラン、廃止 いつも Evernote をご利用いただき、ありがとうございます。このたびは今後の Evernote 登録プランに関する変更についてご案内させていただきます。 お使いの Evernote アカウントは Plus から Personal に移行されました。Evernote Plus など、一般のお客様に数年間ご利用いただけなかった従来の登録プランが廃止となったためです。この変更により、Personal プランで利用可能な機能すべてをご利用いただけます。 今後はAnnualの登録プランが現在の Evernote Personal プランの料金 129.99 USD/Yearに合うように更新されます。この料金は次の更新日である2024/4/

      さようなら、全てのエヴァーノート - 本しゃぶり
    • 2023年、特に感動した・気に入った フリーソフト

      本日は、2023 年中に紹介したフリーソフト の中から 特に感動した・気に入った というものを、22 個 ピックアップして紹介しようと思います。 2022年、特に感動した・気に入った フリーソフト 2021年、特に感動した・気に入った フリーソフト 2020年、特に感動した・気に入った フリーソフト / ウェブサービス パスワード管理 動画キャプチャー、OCR RSS リーダー 動画 音楽 画像 5 ちゃんねる リモートコントロール 絵文字入力 翻訳 アプリ管理 マウス操作視覚化 ファイル共有 生成 AI パスワード管理 KeePassXC KeePassXC クロスプラットフォームに対応した高機能パスワードマネージャーです。 ウェブサイトのユーザー ID / パスワード / メモ をはじめ、重要な個人情報等を暗号化されたデータベースに保管しておけるようにしてくれます。 定番のパスワードマ

        2023年、特に感動した・気に入った フリーソフト
      • 「チョレギサラダ」の謎

        はじめに日本ではすっかり定番となった「チョレギサラダ」。 ざっくり言えば「レタスをごま油と塩ダレで和えたサラダ」である。 ワカメや海苔を入れたり、ドレッシングが醤油ダレだったりすることも多い。 韓国料理だと思っている人もいるだろうが、実はこのサラダは韓国には存在しない。 そもそも韓国人に「チョレギ」と言っても通用しないらしいのである。 では「チョレギ」とは何なのか? インターネット上ではいくつかの語源説が流布されている。 ちぎる説かつて多かったのは「チョレギ」=「ちぎるという意味の韓国語」という説明である。 https://www.seoulnavi.com/special/5000619 チョレギサラダのチョレギとは、手でちぎるという意味。その名のとおり、レタスなどをちぎって作るサラダなのです。 しかし実際に調べてみると、韓国語で「ちぎる」は「뜯다(トゥッタ)」や「찢다(チッタ)」と言う

          「チョレギサラダ」の謎
        • 自炊するな。ガチでやめろ。人生終わる。

          引越しをするついでに自炊――家の本の電子書籍化――を行った。以下はその時の作業メモ、および深い後悔についての記録である。短くまとめると、絶対に自炊はしてはいけない。自炊をすると最悪死ぬ。 具体的な自炊の方法が知りたい方はすぐさましかるべき場所までスクロールすればよい。そうやってインスタントに情報を知っていればいいんだ! ずっとそうしていればいい! だが覚えておけ、Q. そうやって得た知識が何になるというんだ! A. 知識になる 前書き 引越しをした。私は引越しを安上がりにするタイプで、おおむね宅急便 + 赤帽 + 自家用車による庶民的な引越しを行うことが多い。だが引越しの詳細についてはまた今度にしよう。 引越しをするついでに家にある本を大雑把に1. 重要な本、2. 持っておく本、3. くそどうでもいい本 の三つに分けた。 各カテゴリには、例えば次のようなものが含まれる。 重要な本 父親から

            自炊するな。ガチでやめろ。人生終わる。
          • GPTが人知れず既存の名刺管理アプリを抹殺していた話 - Qiita

            抹殺は言い過ぎかもしれませんが簡易な名刺管理アプリであれば自作で十分という時代がきていたようです これで紙の名刺からはきっとバイバイできるでしょう! 名刺管理アプリ作ってほしいといわれた それは2/22のお話。 ことの発端は別の部署からかかってきた一本の電話でした。 新規事業の部署でいろいろな取引先様と付き合いがあるものの、紙の名刺が非常に多く管理に困っているとのことのことです。 私は小売業に勤務しているしがない一社員で、現在Eコマースの戦略立案に関する部署に所属しています。 電話先の方は、以前一緒の部署で勤務したことがある方です。現在新規事業のプロジェクト推進をしており、冒頭のような課題感を持っているため既存の名刺管理アプリ導入を考えたのですが、あまりのお値段の高さに卒倒して私に藁をもすがる思いで連絡されたようです。 これまでのアプリは名刺の識別専門のAI()を使っていた 話を聞いてみた

              GPTが人知れず既存の名刺管理アプリを抹殺していた話 - Qiita
            • pdfからtextを抜き出す試行錯誤のメモ|Kan Hatakeyama

              これは二段構えの構成を持っています。この二段構えを正確に検出し、テキストを理解することが望ましいです。 Unstructuredを使うPythonのライブラリであるUnstructuredを試してみましょう。 参考記事 導入は非常に簡単です。 pip install 'unstructured[pdf]' 実装も簡単です。 解析コード: from unstructured.partition.pdf import partition_pdf pdf_elements = partition_pdf("pdf/7_71_5.pdf") 表示コード: for structure in pdf_elements: print(structure) 結果: 残念ながら、2段組のカラムを正確に検出することはできませんでした。 Grobidを使うGrobidは、peS2oというオープンアクセス論文のコ

                pdfからtextを抜き出す試行錯誤のメモ|Kan Hatakeyama
              • PCの操作をすべて録画&文字起こしして過去の操作を丸ごと検索可能にするアプリ「Windrecorder」

                PCを使っていると、過去の操作内容やブラウザで閲覧していた情報を思い出したくなるタイミングが頻繁に発生します。そんな時に役立ちそうなPC操作記録アプリ「Windrecorder」がオープンソースで開発されています。 GitHub - yuka-friends/Windrecorder: Windrecorder is a memory search app by records everything on your screen in small size, to let you rewind what you have seen, query through OCR text or image description, and get activity statistics. https://github.com/yuka-friends/Windrecorder I made an o

                  PCの操作をすべて録画&文字起こしして過去の操作を丸ごと検索可能にするアプリ「Windrecorder」
                • macOS のデフォルト状態でコマンドラインからOCR処理を行う - TeX Alchemist Online

                  macOS 12 Monterey では,OSビルトインでのOCR機能が搭載されました。Preview.app で,画像やスキャンPDF(中身がスキャン画像のPDF)に対して,ただマウスでドラッグするだけで,中身の文字を認識して選択し,コピーできるようになっています。さらに,macOS 13 Ventura では,それが日本語にも対応しました。 たとえば,(今や入手困難となってしまった)The TeXbook のアスキーによる日本語版をスキャンしたものを Preview.app で開くと,何もしなくても,文字選択できます。 これをコピーして他のエディタにペーストすると, TEXの名称で気をつけなければならないことがほかにもある。Eの文字が不揃いになっていることだ。Eの文字を少し下げてあるのは、TeXが組版のためのシステムであることを印象づけるためであり、またほかのシステムの名称と区別するた

                    macOS のデフォルト状態でコマンドラインからOCR処理を行う - TeX Alchemist Online
                  • RAGの性能を改善するための8つの戦略 | Fintan

                    近年、OpenAIのGPT-4やGoogleのGemini、MetaのLLaMAをはじめとする大規模言語モデル(Large Language Model:LLM)の能力が大幅に向上し、自然言語処理において優れた結果を収めています[1][2][3]。これらのLLMは、膨大な量のテキストデータで学習されており、さまざまな自然言語処理タスクにおいて、タスクに固有なデータを用いてモデルをファインチューニングすることなく、より正確で自然なテキスト生成や、複雑な質問への回答が可能となっています。 LLM-jp-eval[4]およびMT-bench-jp[5]を用いた日本語LLMの評価結果。Nejumi LLMリーダーボード Neoより取得。 大規模言語モデルは近年急速な進歩を遂げていますが、これらの進歩にもかかわらず、裏付けのない情報や矛盾した内容を生成する点においては依然として課題があります。たとえ

                      RAGの性能を改善するための8つの戦略 | Fintan
                    • そあん(soan):古活字画像を用いて現代日本語テキストをくずし字画像に変換/共有するサービス

                      ライブラリのアプリ化 現代のニュースをくずし字で読んでみませんか?内容がわかるテキストをくずし字で読んでみると、くずし字に対する印象が変わるかもしれません。 edomi ニュース その他の事例については、活用事例を参照してください。 構成 古活字とくずし字 そあん(soan)で用いる「古活字」とは、今から400年ほど前に使われた印刷技術に由来する言葉です。一方「くずし字」とは、くずして書かれた文字を指す言葉です。くずし字は、印刷では古活字版だけでなく整版印刷にも使われましたし、写本などの手書きの文字(草書体)も、その多くはくずし字です。一方、古活字の中には、文字を崩していないものもあります。このように、古活字は印刷技術を指す言葉、くずし字は文字の形を指す言葉、という違いがあります。 そあん(soan)は、テキストをくずし字画像に変換する方法として、古活字画像を組み合わせる方法を用いるサービ

                        そあん(soan):古活字画像を用いて現代日本語テキストをくずし字画像に変換/共有するサービス
                      • WEB+DB PRESS総集編[Vol.1~136]

                        2024年4月18日紙版発売 WEB+DB PRESS編集部 編 B5判/128ページ 定価3,300円(本体3,000円+税10%) ISBN 978-4-297-14156-1 Gihyo Direct Amazon 楽天ブックス ヨドバシ.com 『WEB+DB PRESS』全号のバックナンバーを収録 Webアプリケーション開発のためのプログラミング技術情報誌「WEB+DB PRESS」は,2000年から2023年までの23年間という長きにわたり,現場で活躍するWeb開発者の方々に向けた技術情報を提供してまいりました。そして2023年8月発売のVol.136をもって,隔月刊誌としては休刊いたしました。 本総集編には,WEB+DB PRESSVol.1から隔月刊最終号となるVol.136までのバックナンバーと,今まで刊行した総集編7冊の書き下ろし記事を収録しています。1冊1ファイルの記

                          WEB+DB PRESS総集編[Vol.1~136]
                        • 【Obsidian】2023 年でオススメのプラグイン 66 選

                          この記事で使用している画像は、公式の github から引用したものです。今回、あまりにも数が多いため引用リンクは省略しています。一部、自身で撮影したものもあります。 ファイル Recent Files ★★★ 最近開いたファイルの一覧を表示してくれるプラグイン。何故これがデフォルトで無いのかがよくわからない。絶対に入れておきたい。 Auto Template Trigger ★★★ 新しいノートを作成する際にテンプレートを選択して挿入できるプラグイン。ノートを書く敷居を下げてくれるので重要。 Quick Explorer ★★★ エクスプローラー機能を強化するプラグイン。ノートが増えてくると非常に便利。 Tag Wrangler ★★★ Tag pane から rename や merge などができるようになるプラグイン。 Quick Switcher++ ★★ ファイル移動のプラグイ

                            【Obsidian】2023 年でオススメのプラグイン 66 選
                          • GPT-4oを使って2Dの図面から3DのCADモデルを作る

                            はじめに 株式会社ファースト・オートメーションCTOの田中(しろくま)です! 先日、 OpenAIからGPT-4oがリリース されました。 いろいろGPT-4oに関して調べていると、スピードが速くなっていたり、音声も直接扱えてマルチモーダル化が進んでいたりするようなのですが、画像に関して GPT-4-turboに比べ、認識やOCRの精度が向上している ようです。 製造業という観点からすると、これは 設計図面などに活かせるようになるのでは? と思いました。 機械部品などの設計図面は以下のように、特定の方向から部品を2次元上に落とし込んだ形で書かれるのですが、部品本体を描いている図以外に、寸法や名称といった文字も含まれた画像になっています。 このような 図と文字の複合データにおいて、GPT-4oの進化は有効なのではないか と考えました。 ※画像元URL: http://cad.wp.xdoma

                              GPT-4oを使って2Dの図面から3DのCADモデルを作る
                            • ChatGPT APIのFunction callingを使って、請求書の構造化データを抽出する | gihyo.jp

                              いまからわかる!ChatGPT活用プログラミング ChatGPT APIのFunction callingを使って⁠⁠、請求書の構造化データを抽出する 先月、OpenAIからFunction calling(関数呼び出し)機能がリリースされました。これが何なのか、何のために使うべきなのか、ちょっと見ただけでは分かりづらいと思います。 今回は請求書から情報抽出をするというよくありがちなケースを題材に、Function callingの利便性を示してみます。 Function callingとは OpenAIが2023年6月13日にリリースしたChat APIの追加機能です。主にできることとして以下の3つが挙げられています。 外部ツールを呼び出して質問に答えるチャットボットを作成する 自然言語を内部APIの呼び出しやSQLに変換する テキストから構造化データを抽出する たとえば天気予報と血液型

                                ChatGPT APIのFunction callingを使って、請求書の構造化データを抽出する | gihyo.jp
                              • OpenAIのGPT-4oを日本語OCRとして使ってみる

                                昨日、OpenAIが生成AIの新しいモデルであるGPT-4oを発表しました。消費するトークン数の節約や、音声合成機能の改善、応答速度の向上など着実な品質改善を見せているようです。私も、特に音声合成(Text To Speech)の表現力について非常に興味を持っています。 私は以前、「OpenAIのGPT-4 Turbo with visionを日本語OCRとして使ってみる」で、GPT-4 Turboの画像認識機能の日本語OCRについて検証を行いました。その当時は、既存のコグニティブAI APIに比べて認識精度が十分でないという評価をしています。とはいえ、その後に出てきたClaude 3 Opusは驚くべき認識精度だったので、OpenAIも巻き返す可能性は十分にあると感じました。Azure OpenAI Serviceを使っている場合は、Vision enhancementという既存のコグニ

                                  OpenAIのGPT-4oを日本語OCRとして使ってみる
                                • 雰囲気でEvernoteをやめた人がもう一度使い始めるかもしれない14の機能

                                  先だって無料ユーザーの作れるノートの上限を50個に制限して大いに顰蹙を買ったEvernoteですが、このほど有料のEvernote PersonalやEvernote Professionalプランに含まれる機能14種を全ユーザーに開放すると発表されています。 もともとEvernoteはフリーミアムモデルの、無料で多くの機能を使わせる会社として有名でしたが、だんだんそれが時代に合わなくなっていましたので、これは現在のEvernoteのオーナーであるBending Spoons社が、サービスを今どきの普通の会社に変えてゆくプロセスなのかもしれません。 ちょっと寂しい気もしますが、逆に昔のEvernoteなんて知らない、いま情報をとにかく大量に保存して整理できるサービスはないのかと探している人には、試しやすくなったともいえると思います。無料で使ってみて、気に入ったら課金してね!というわけです。

                                    雰囲気でEvernoteをやめた人がもう一度使い始めるかもしれない14の機能
                                  • 国立国会図書館デジタルコレクションを使えば生存している人類の中でなにかに一番詳しい人間になれるけど - 山下泰平の趣味の方法

                                    「はてなブログ×codoc連携サービスのプロモーションのため、はてなからの依頼を受けて投稿しています」が普段通りの記事で、有料部分には愚痴のようなものが書かれている。 国立国会図書館デジタルコレクションは素晴らしい 使い方は使えば分かる 生存している人類で一番詳しくなれないこともない時代 時代とジャンルで区切ると簡単に詳しくなれる 素養、学識、予備知識 デジタルデータとアナログデータ 詳しくなっても意味はない 他人の意見はあまり参考にならない 他の分野から学ぶ 多くの予想は当たらないし他人の思い込みは嫌になるし生きてる人の本が読みにくくなり、やはり他人の意見はあまり参考にならない 国立国会図書館デジタルコレクションは素晴らしい 国立国会図書館デジタルコレクションは素晴らしい。 dl.ndl.go.jp 『国立国会図書館で収集・保存しているデジタル資料を検索・閲覧できるサービス』で、四〇万点

                                      国立国会図書館デジタルコレクションを使えば生存している人類の中でなにかに一番詳しい人間になれるけど - 山下泰平の趣味の方法
                                    • Macで毎分スクリーンショットを撮って手元に貯めておくスクリプト - hitode909の日記

                                      書いてたテキストエリアがどっかいく、みたいなことがたびたびあって、スクショを定期的に取っていればこんなことにならないのに…と思っていた。 先日、Redash用に、がんばって書いたSQLがどっかいってしまい、ものすごく悲しい、という出来事があったのであ、あまりに悲しさに、重い腰を上げてスクリプトを書いた。 きのうがんばって書いたRedashクエリを保存せずに消してしまった悲しみから、Macの画面のスクリーンショットを撮り続けるスクリプトを書いて、xbar経由で毎分実行してキャプチャし続けている。Macに入ってるOCR機能も呼び出して検索できるようにしたい https://t.co/ibVVCLZszg— 趣味はマリンスポーツです (@hitode909) 2023年11月30日 やっていること 画面全体のスクショを撮って、デスクトップ内のフォルダに置いていく 複数ディスプレイを使ってる場合も

                                        Macで毎分スクリーンショットを撮って手元に貯めておくスクリプト - hitode909の日記
                                      • Evernote firing lots of staff?!

                                        Any comments on this https://news.ycombinator.com/item?id=36609641&fbclid=IwAR3YRlw36bgKlSR3oV9wKNkaIcC0o8eMWBX2-DWS4TkNYph9uOsp0nHBIrQ ? As I'm using Evernote to OCR and search/organize tens of thousands of pages of historical documents for my dissertation, I'm somewhat concerned about Evernote's long-term viability. I've been a paid user— my wife too, also wrote her diss using Evernote— for year

                                          Evernote firing lots of staff?!
                                        • 2万字なら、2時間話すくらいの分量だから余裕でいける。 2週間で1年分の学費..

                                          2万字なら、2時間話すくらいの分量だから余裕でいける。 2週間で1年分の学費(=100万以上するでしょ)を稼ぐと思ったらやる気出ない? ・まずは5日でその本を読む。文字認識しないと言うことだけど、Google翻訳アプリもダメ?無料OCRツールは試した?原書読むより入力するほうが早いなら、最悪手打ちで入力して翻訳にかけたら? ・1日で論文の構成を考える。ここはChatGPTと相談しながらできるでしょ。 ・その翌日、Wordの音声認識を使ってガーっとしゃべっていく。とにかくしゃべる。 ・できた文を直し、切り張り切りはりして、整える。ここに2日かける。 ・時間が余ったら先行研究とかざっとネットで見る。それをちょいちょい引用・追加していく。(ちゃんとそれを残す=アピールポイント) やれたら自信になると思うよ。そして社会人になると、2万字くらいのレポートは1週間ももらえないんだよね。

                                            2万字なら、2時間話すくらいの分量だから余裕でいける。 2週間で1年分の学費..
                                          • Evernoteはオワコンか?いや、ちょっと待って - paiza times

                                            <この記事の著者> ヨス - Tech Team Journal 業務効率を改善し、タイムパフォーマンスを高める時間最適化の専門家。「単語登録」の便利さを伝える「単語登録エバンジェリスト」。 最近はメモアプリとして「Notion」の勢いがすごいように見えます。SNSを見ていると、今まで「Evernote」を使ってきた人もどんどん移行しているように見えますよね。 そして「Evernoteはオワコン」という声を聞くこともありますが、それは本当でしょうか? 今回は2010年からEvernoteを愛用しているヘビーユーザーのわたしが、現在も使いつづけている理由についてお話しします。 【目次】 なぜEvernoteはオワコンだと言われているのか? (1)大幅な「値上げ」があったから (2)もはや有料版でないと使えないから (3)日本法人が解散したから それでもEvernoteを使いつづける理由 (1

                                              Evernoteはオワコンか?いや、ちょっと待って - paiza times
                                            • 専用ブラウザでの5ちゃんねる閲覧が不可能に、JaneStyleなど一部は「Talk」への対応を開始

                                              巨大掲示板サイト「5ちゃんねる」(旧2ちゃんねる)が、サードパーティー製専用ブラウザで軒並み閲覧不可能になる事態となっています。すでに、主要な専用ブラウザの1つだったJane Styleは5ちゃんねる(5ch.net)への対応を終了し、「Talk」(talk.jp)という新しい掲示板の専用ブラウザに姿を変えています。 5ちゃんねる https://5ch.net/ Jane Style公式サイトは以下のように、すでに「Talk専用ブラウザ」を名乗っています。 Talk専用ブラウザ 「Jane Style」 http://janesoft.net/janestyle/ 更新履歴を見ると2023年7月10日公開のVer5.00でTalkに対応、5ch.netのサポートを終了しています。 iOS向けの「Twinkle」も同様の対応で、起動するとアップデートを求められ、アップデート後、継続使用する

                                                専用ブラウザでの5ちゃんねる閲覧が不可能に、JaneStyleなど一部は「Talk」への対応を開始
                                              • 古文書を解読できるiOSアプリ、凸版印刷が無料配信 手書きや木版のくずし字に対応 解読率は90%

                                                凸版印刷(東京都文京区)は6月1日、くずし字解読アプリ「古文書カメラ」(iOS)の配信を始めた。AI-OCR技術を活用したアプリで、スマートフォンで撮影したくずし字をその場で解析できる。アプリのインストールは無料、解読機能は、1日に10回まで利用可能。 書簡などの手書きと木版印刷で作られた版本、それぞれのくずし字に対応したAI-OCRエンジンを搭載しており、解読率は90%に及ぶという。AIが全ての文字を自動で検出し、解読する「フルオートモード」と、文字候補を提案することでさらに詳細な解読を可能にする「範囲選択モード」を備える。 もしAIの解読結果が間違っていた場合、ユーザーが修正できる。修正内容はAIが再学習し、解読精度を向上させられるという。解読結果は画像とテキストデータで保存可能。 同社ではこれまでも古文書解読事業を進めており、今回のアプリもその一環。古文書のほとんどはくずし字で書かれ

                                                  古文書を解読できるiOSアプリ、凸版印刷が無料配信 手書きや木版のくずし字に対応 解読率は90%
                                                • 数式や文章がぐにゃぐにゃに曲がった論文PDFでもくっきり認識する画期的なOCR『Nougat』 | AIDB

                                                  科学的知識は主に書籍や科学誌に保存されていますが、PDF形式が一般的です。しかし、この形式は特に数学的表現においてセマンティック情報の損失を引き起こします。この問題に対処するために、Meta AIの研究チームは『Nougat(Neural Optical Understanding for Academic Documents)』という新しいOCR(光学式文字認識)技術を開発しました。 Nougatは、数式や文章が複雑に配置された画像であっても、それをマークアップ言語に高品質で変換する能力を持っています。この技術は、新しい論文だけでなく、電子データが存在しない古い書類などの解析にも非常に有用です。 参照論文情報 タイトル:Nougat: Neural Optical Understanding for Academic Documents 著者:Lukas Blecher, Guillem

                                                    数式や文章がぐにゃぐにゃに曲がった論文PDFでもくっきり認識する画期的なOCR『Nougat』 | AIDB
                                                  • 情報の海をハックするカギは「捨てる」こと。LayerX松村氏に学ぶ、価値ある情報を取りこぼさないコツ

                                                    情報の海をハックするカギは「捨てる」こと。LayerX松村氏に学ぶ、価値ある情報を取りこぼさないコツ 2023年12月20日 株式会社LayerX 機械学習・データ部 機械学習グループ マネージャー 松村 優也 1993年生まれ。2018年3月、京都大学大学院情報学研究科 社会情報学専攻修士課程修了。在学中の起業経験を経て、新卒でウォンテッドリー株式会社に入社、推薦システムチームの立ち上げに関わる。2021年にはWantedly VisitのPdM、開発組織のEMを兼任。2022年9月に株式会社LayerXに機械学習エンジニアとして入社。2023年には機械学習チームのリーダー、現職に就任。 X(Twitter) Speakerdeck 技術や業界など仕事についての情報収集の基盤として多くのエンジニアを支えていたTwitter(現X)が、以前とは異なる姿となってゆく今、必要な情報を過不足なく

                                                      情報の海をハックするカギは「捨てる」こと。LayerX松村氏に学ぶ、価値ある情報を取りこぼさないコツ
                                                    • 「LLM」を活用したプロダクト開発に必要な能力とは何か “機械学習の民主化”でますます注目される「MLPdM」の重要性

                                                      大規模言語モデル(LLM)を、実際にプロダクトや実務に役立つかたちで利用している各社が見た使いどころや、実践の上での工夫について学び合うためのイベント第二弾。今回のテーマは「大規模言語モデルがつくる新しい顧客体験」。ここで登壇したのは、株式会社LayerXの松村優也氏。機械学習の民主化とMLPdMの重要性について発表しました。 LayerX社・機械学習チームのマネージャーの松村優也氏 松村優也氏:それでは、LayerXの松村優也が「機械学習エンジニアから見るプロダクト開発におけるLLM」を副題として、「機械学習の民主化とMLPdMの重要性」というタイトルで10分お話しします。お願いします。 簡単な自己紹介ですが、あらためて、松村です。(スライドの)右上の黒いアイコンでよくSNSをやっています。「Twitter」などのIDはご覧のとおりです。 バックグラウンド的には、もともと京都大学で情報検

                                                        「LLM」を活用したプロダクト開発に必要な能力とは何か “機械学習の民主化”でますます注目される「MLPdM」の重要性
                                                      • 【2024年】AWS全サービスまとめ | DevelopersIO

                                                        こんにちは。サービス開発室の武田です。このエントリは、2018年から毎年公開しているAWS全サービスまとめの2024年版です。 こんにちは。サービス開発室の武田です。 このエントリは、2018年から毎年公開している AWS全サービスまとめの2024年版 です。昨年までのものは次のリンクからたどってください。 AWSにはたくさんのサービスがありますが、「結局このサービスってなんなの?」という疑問を自分なりに理解するためにまとめました。 今回もマネジメントコンソールを開き、「サービス」の一覧をもとに一覧化しました。そのため、プレビュー版など一覧に載っていないサービスは含まれていません。また2023年にまとめたもののアップデート版ということで、新しくカテゴリに追加されたサービスには[New]、文章を更新したものには[Update]を付けました。ちなみにサービス数は 247個 です。 まとめるにあ

                                                          【2024年】AWS全サービスまとめ | DevelopersIO
                                                        • 〜OCR戦記〜適格事業者登録番号との戦い🔥🔥🔥 - LayerX エンジニアブログ

                                                          この記事はLayerXテックアドカレ2023の5日目の記事です。 昨日はmakogaさんがEngineering Career Ladderを作るときに気をつけたこと 其の一を書いてくれました。 次回はyuya-takeyamaさんがMicrosoft Graph APIについて書いてくれます!乞うご期待! こんにちは、機械学習を通じて誰かをラクにしたい yakipuです。 今回は、10月から始まったインボイス制度に伴う適格請求書発行事業者登録番号(以下「登録番号」と表記します)のOCR読み取りの戦いについて記したいと思います。 インボイス制度は、売手が買手に対して正確な税率や消費税額を示す適格請求書(インボイス)を交付することで、買手が仕入税額控除の適用を受けるために必要な制度です。売手側は登録事業者として登録番号などが記載されたインボイスを交付し、買手側はインボイスを保存する必要があり

                                                            〜OCR戦記〜適格事業者登録番号との戦い🔥🔥🔥 - LayerX エンジニアブログ
                                                          • OpenAI、ChatGPTが画像を分析する『GPT-4V(ビジョン)』を発表。安全性、嗜好性、福祉機能を強化 | AIDB

                                                            関連研究 ChatGPTの”ふるまいの変化”を定量的に分析した結果 OpenAI、大規模言語モデルの数学能力を大きく向上させることに成功 GPT-4を使用した知的労働者のパフォーマンスは軒並み向上し、もとの成績が良くないほど顕著。※注意点あり 従来の課題 GPT-4Vは、従来のGPT-4が抱えていたいくつかの課題を解決する形で登場しました。 テキスト中心の処理能力 従来のGPT-4は、テキストデータの処理能力に特化しており、テキストベースの質問応答、文章生成、自然言語理解など、多くの用途で非常に有用でした。 しかし、裏を返せば画像や音声など他のメディア形式に対する対応が不足していました。テキストと画像が組み合わさったマルチモーダルなデータに対する処理能力が限定的でした。 画像入力とプライバシー GPT-4の画像データに対する安全な処理能力には限界がありました。例えばプライバシー保護の観点が

                                                              OpenAI、ChatGPTが画像を分析する『GPT-4V(ビジョン)』を発表。安全性、嗜好性、福祉機能を強化 | AIDB
                                                            • 無償デスクトップ自動化ツール「Power Automate Desktop」でOCR処理を自動化する

                                                              はじめに 日々の業務作業で、画面や画像を見てその内容によって、その後の作業の流れや結果を変更する場面があります。そういった業務作業をPower Automate for desktopで自動化する際に、OCRのアクションを利用できます。 今回は、文字列が含まれた画像ファイルが複数入ったフォルダーを用意して、その中の各画像の文字列を抽出するサンプルフローを作成します。 [注意] アクションには、MicrosoftコグニティブのOCRの機能もありますが今回は使用しません。Azureアカウントなどは不要です。 「ファイル選択ダイアログ」アクションの後に「OCRを使ってテキストを抽出」アクションを使用するとデッドロックしてフリーズしてしまう問題があるようですので、ご注意ください。 フォルダー/素材の準備 まずはOCR読み込みのもととなる画像ファイルと、サンプル実行に必要なフォルダーを準備します。

                                                                無償デスクトップ自動化ツール「Power Automate Desktop」でOCR処理を自動化する
                                                              • GPT-4とClaude 2は「16世紀に書かれたラテン語の魔術書」まで翻訳することが可能、学者が「人間のプロに匹敵する」と太鼓判

                                                                「ChatGPTで論文を読む手間が99%減った」と話す研究者がいるように、AIによる支援は学術研究に大きな変化をもたらそうとしています。カリフォルニア大学サンタクルーズ校の歴史学者であるベンジャミン・ブリーン氏が、OpenAIの大規模言語モデル(LLM)であるGPT-4とAnthropicのClaude 2を使用して16世紀のラテン語の書物を翻訳させたところ、驚くほど精度が高い結果が得られたことを報告しました。 Translating Latin demonology manuals with GPT-4 and Claude https://resobscura.substack.com/p/translating-latin-demonology-manuals LLMの支援を研究に生かす試みとして、ブリーン氏はGPT-4やClaude 2が持つ以下の3つの機能に注目しました。 ・前近

                                                                  GPT-4とClaude 2は「16世紀に書かれたラテン語の魔術書」まで翻訳することが可能、学者が「人間のプロに匹敵する」と太鼓判
                                                                • Claude3を使って人間が読むようにパワポ資料を読み込んでみる | DevelopersIO

                                                                  はじめに 新規事業部 生成AIチーム 山本です。 ChatGPT(OpenAI API)をはじめとしたAIの言語モデル(Large Language Model:以下、LLM)を使用して、チャットボットを構築するケースが増えています。通常、LLMが学習したときのデータに含まれている内容以外に関する質問には回答ができません。そのため、例えば社内システムに関するチャットボットを作成しようとしても、素のLLMでは質問に対してわからないという回答や異なる知識に基づいた回答が(当然ながら)得られてしまいます。 この問題を解決する方法として、Retrieval Augmented Generation(以下、RAG)という手法がよく使用されます。RAGでは、ユーザからの質問に回答するために必要そうな内容が書かれた文章を検索し、その文章をLLMへの入力(プロンプト)に付け加えて渡すことで、ユーザが欲しい

                                                                    Claude3を使って人間が読むようにパワポ資料を読み込んでみる | DevelopersIO
                                                                  • バクラクMLチームの技術スタックの変遷 - LayerX エンジニアブログ

                                                                    機械学習エンジニアの吉田です。 夏ですね。7月はLayerXエンジニアブログを活発にしよう月間 です。 昨年バクラクOCRの機械学習モデルの検証から本番投入までの取り組みについて記事を書きました。 tech.layerx.co.jp その後、運用する中で新たな課題が生まれたり、負債を解消するために当初の開発環境を見直しアップデートしてきました。 今回は機械学習周辺の技術スタックに焦点を当ててその変遷について紹介したいと思います。 MLチームでは各サービスからのリクエストを処理するAPIやデータ基盤、社内のアノテーションツールなどの開発も行っており、これらは主にGo, TypeScriptで開発されていますが今回は対象外としています。 技術スタックの変遷 本番リリース時と現在の主な技術スタックの比較です。 リリース時 現在 言語 Python Python パッケージ管理 pip Poetr

                                                                      バクラクMLチームの技術スタックの変遷 - LayerX エンジニアブログ
                                                                    • メモの作成やタスク管理、共同作業を効率化!Evernoteから乗り換えるべきメモアプリ8選 | ライフハッカー・ジャパン

                                                                      4TBが9千円台だって。バッファローの静音HDDは在庫があるうちに回収しておこう【Amazonセール】

                                                                        メモの作成やタスク管理、共同作業を効率化!Evernoteから乗り換えるべきメモアプリ8選 | ライフハッカー・ジャパン
                                                                      • ChatGPTのCode Interpreterはどこまでできるのか

                                                                        この記事は2023/07/09時点での内容になります。今後のChatGPTのアップデートによってこの記事での検証結果は変化する可能性があります。 先日(2023/07/07)、OpenAIの公式Twitterアカウントから以下のアナウンスがあった。 そこで自分のアカウントの設定画面を見てみると、どうもすでにCode Interpreterがすでに利用できるようだったので、何ができて何が出来ないのか遊んでみた。 ChatGPTのCode Interpreterとは そもそもこのCode Interpreterは何ができるのか、さきほどのツイートには以下のように書かれている。 It lets ChatGPT run code, optionally with access to files you've uploaded. You can ask ChatGPT to analyze data

                                                                          ChatGPTのCode Interpreterはどこまでできるのか
                                                                        • AIの民主化が進む時代におけるバクラクのAI-OCR機能の開発戦略 #LayerXテックアドカレ - LayerX エンジニアブログ

                                                                          LayerX バクラク事業部 機械学習チームの機械学習エンジニア兼マネージャーの松村(@yu-ya4)です。半年間に結婚祝いでいただいたたくさんのお酒が順調に減ってきているのですが、サントリーウイスキー角瓶 4Lペットだけはなくなる気配がありません。 この記事はLayerXテックアドカレ2023の16日目の記事のはずです。 前回はosukeさんの『Azure AI SearchのSemantic Ranker』という記事でした。 次回はminako-phさんによるタメになる記事、『Notionでスプリントのあれこれをダッシュボードで可視化する 』が公開予定ですされました。 昨今のAIの進化には目を見張るものがあります。先日のOpenAI DevDayやMicrosoft Igniteでも様々な衝撃的な発表がなされました。今週は違う意味で衝撃的なニュースが多かったですが。 そのような時代です

                                                                            AIの民主化が進む時代におけるバクラクのAI-OCR機能の開発戦略 #LayerXテックアドカレ - LayerX エンジニアブログ
                                                                          • 無料&ブラウザ上でPDF・JPEG・PNG・GIFファイルからOCRによるテキスト抽出ができる「OCR PDFs and images directly in your browser」

                                                                            PNG・JPEG・GIFといった画像ファイルやPDFファイルから、TesseractによるOCR(光学文字認識)でテキストを抽出できる「OCR PDFs and images directly in your browser」をエンジニアのサイモン・ウィルソン氏が公開しました。OCR PDFs and images directly in your browserはすべての処理をブラウザ上で実行するため、ファイルをどこかのサーバーにアップロードすることがないというのが大きな特徴です。 OCR PDFs and images directly in your browser https://tools.simonwillison.net/ocr Running OCR against PDFs and images directly in your browser https://simon

                                                                              無料&ブラウザ上でPDF・JPEG・PNG・GIFファイルからOCRによるテキスト抽出ができる「OCR PDFs and images directly in your browser」
                                                                            • 全社横断データ基盤へdbt導入を進めている話 - Sansan Tech Blog

                                                                              こんにちは。研究開発部 Architectグループの中村です。 本記事は Sansan Advent Calendar 2023 の16日目の記事です。 今回は、私達のチームで開発&運用している全社横断データ分析基盤のデータレイヤの再設計、及びdbtの導入を進めているという事例について紹介します。 既存のデータ基盤に対して、dbtの導入を検討されている方の参考になれば幸いです。 (本稿ではdbtとはについては触れませんので、ご了承ください) TL;DR 歴史的経緯 全社横断データ基盤が生まれる前 全社横断データ基盤 立ち上げ期 課題 立ち上げ期に作られたデータマートがカオスに・・・ 課題の解決に向けて データレイヤの再設計 Transformツールの選定 dbtへの移行戦略 その他dbt移行におけるTips チームでの開発の標準化 Cosmosの導入検証 データカタログのホスティング まと

                                                                                全社横断データ基盤へdbt導入を進めている話 - Sansan Tech Blog
                                                                              • Google BardでOCR文字認識してみた【画像認識】 - Qiita

                                                                                まず、英語版のバードに行きます。 画像をアップロードしてほしい情報を入力すると教えていただけます。 生年月日について聞いてみました "平成元年3月31日生"と正しく認識できてます フォーマットも指定可能です 有効期限も聞きました "2025年3月31日まで有効"と正しく認識できてます 4桁の番号を教えて 何キロカロリーありますか? まとめ 言われたことしかできない人は、仕事がAIに取られるかもしれません。 信じるか信じないかはあなた次第です 引用 Register as a new user and use Qiita more conveniently You get articles that match your needsYou can efficiently read back useful informationYou can use dark themeWhat you ca

                                                                                  Google BardでOCR文字認識してみた【画像認識】 - Qiita
                                                                                • 職種担当別「すぐに試せるChatGPTのユースケース」 アルプが教える、生産性を上げる活用事例

                                                                                  ChatGPTはコーポレートITの仕事をどう変えるのか、どんな向き不向きがあるのか、ChatGPTを織り込んだ上での組織戦略をどう考えればいいのかを考える、Darsana・AnityA主催の「ChatGPTの時代に『コーポレートIT部門』はどう生きるべきか——変化をチャンスに変える方法とは」。ここでアルプ株式会社の山下氏が登壇。ここからは、ChatGPTのユースケースについて話します。前回はこちらから。 ヘルプデスク向けのユースケース 山下鎮寛氏:ここまで非常に長い間、前段を話したんですが、ここからいよいよユースケースの紹介というところで、今回は実際にアルプが利用している、もしくは検証をした、すぐに試せるChatGPTのユースケースを紹介します。 APIを組み込んでしっかりやるという部分についても非常に有意義なユースケースはあるんですが、時間的になかなか説明が難しかったり、技術的な内容も多

                                                                                    職種担当別「すぐに試せるChatGPTのユースケース」 アルプが教える、生産性を上げる活用事例