nagggのブックマーク - はてなブックマーク

OpenAIのGPT-4oを日本語OCRとして使ってみる

昨日、OpenAIが生成AIの新しいモデルであるGPT-4oを発表しました。消費するトークン数の節約や、音声合成機能の改善、応答速度の向上など着実な品質改善を見せているようです。私も、特に音声合成（Text To Speech）の表現力について非常に興味を持っています。私は以前、「OpenAIのGPT-4 Turbo with visionを日本語OCRとして使ってみる」で、GPT-4 Turboの画像認識機能の日本語OCRについて検証を行いました。その当時は、既存のコグニティブAI APIに比べて認識精度が十分でないという評価をしています。とはいえ、その後に出てきたClaude 3 Opusは驚くべき認識精度だったので、OpenAIも巻き返す可能性は十分にあると感じました。Azure OpenAI Serviceを使っている場合は、Vision enhancementという既存のコグニ

naggg 2024/05/14

犯罪にも使われるんじゃないかと思ったり。

AI

リンク

GPT-4o の画像認識能力がすごい！カロリー推定アプリを作ってみる - Qiita

概要食事のカロリー推定は非常に困難なタスクでした。一般的なアプローチとしては、物体検知modelをfine-tuningし、料理画像から個々の料理の領域を判定することでカロリーを推定してきました。 GPT-4oを利用するとそのへんを飛ばして、いきなりカロリーが推定できます。精度の面では劣ると考えられますが、実装の容易さと未知のクラス (学習データセット内に含まれない料理) への対応を考えると、十分に利用価値があると思われます。今回の記事では、実際のデモも紹介しているのですぐ利用することができます。早速結果を見てみようデモ実装カロリー推定 json-mode で処理をさせます。step-by-stepに推論を処理させるために、最初に雑な推論を記述させてから、各食品のカロリー量を推定させています。 # GPT-4にカロリーを推定させる (JSON-MODE) response =

naggg 2024/05/14

“一般的なアプローチとしては、物体検知modelをfine-tuningし、料理画像から個々の料理の領域を判定することでカロリーを推定してきました。 GPT-4oを利用するとそのへんを飛ばして、いきなりカロリーが推定”

AI

リンク

OpenAI、ChatGPTのMacアプリ公開。Macのカメラやスクショ、写真ライブラリにもアクセスし音声対話可能 | テクノエッジ TechnoEdge

OpenAIは5月14日、ChatGPTのGPT-4oを使えるマルチモーダルなMacアプリを公開しました。chat.openai.comにアクセスしてダウンロードリンクが表示されれば利用できます（現在利用できるユーザーはPlusプランの購読者のみ）。ChatGPTアプリはこれでiPhone、Androidに続いてMac版が公開されたことになります。Windows版は年内に登場予定です。機能としてはiPhoneアプリと同様で、現状ではGPT-4oの音声モデルや、カメラの映像を見ながら音声で対話したりといったことはできません。使われている音声モデルも、従来のものと同じで、遮られても会話をスムーズに続けたりといった機能は実装されていません。歌うこともできません。

naggg 2024/05/14

リンク

OpenAI、次世代AIモデル「GPT-4o」を発表

日本時間2024年5月14日未明、OpenAIは新たなフラッグシップモデル「GPT-4o」を発表しました。このモデルは、音声、視覚、テキストのリアルタイム処理を可能とし、従来のAIモデルを大きく上回る性能を誇ります。OpenAIのCTOであるミラ・ムクティ氏は、「GPT-4oは、人間とマシンのインタラクションの未来を大きく変える一歩です。このモデルにより、コラボレーションがはるかに自然で簡単になります」と述べました。「GPT-4o」の主な特徴を以下にまとめました。他のモデルを凌駕する性能 GPT-4oは、OpenAIの以前のモデルであるGPT-4 Turboや、ライバル会社のClaude 3 Opusなどの大規模言語モデルと比較して、頭ひとつ抜けた性能向上を実現しました。サム・アルトマンCEOは、今年4月に "Chatbot Arena" でgpt2というコードネームでテストされていた

naggg 2024/05/14

AI
ChatGPT

リンク

GPT-4oの画像認識力と理解力ならいけるのではと思い手書きの仕様指示を読み込ませたら本当にコードを書き上げてくれた→｢ついにコーダーが恐怖を感じる時が来たか｣

kmizu @kmizu A Software Engineer in Osaka (& Kyoto). Ph.D. in Engineering. Interests: Parsers, Formal Languages, etc. ツイートは所属先の見解と関係ありません．思いついたことをつぶやきます． kmizu.github.io kmizu @kmizu GPT-4oの画像認識力と理解力をもってすればいけるやろと思ってやってみたら実際いけた。ペーパープロトタイピングから最初のHTML書き起こすのにかなり使えるのでは。つーか指示そのものを画像の中に書いたの読み取ってくれるの何か世界の壁を超えて対話してる感があって凄い #GPT4o pic.twitter.com/3XHMFg3yye 2024-05-14 12:49:41

naggg 2024/05/14

AI
ChatGPT

リンク

OpenAI のAIリリース年表｜npaka

7月17日 Code Interpreter7月19日 Meta が Llama 2 公開 7月20日 Custom Instructions

naggg 2024/05/14

リリース年表、わかりやすい。最近、見落としている記事もいくつかあるなぁ。。

AI
ChatGPT

リンク

Hello GPT-4o

GPT-4o (“o” for “omni”) is a step towards much more natural human-computer interaction—it accepts as input any combination of text, audio, image, and video and generates any combination of text, audio, and image outputs. It can respond to audio inputs in as little as 232 milliseconds, with an average of 320 milliseconds, which is similar to human response time(opens in a new window) in a conversat

naggg 2024/05/14

AI
ChatGPT

リンク

Apple M4がベンチマーク結果でIntel Core i9-14900KSを破ったという報告

ベンチマークアプリを提供するGeekbenchのオンラインデータベースに、AppleのM4のベンチマーク結果が投稿されています。それによると、M4のスコアがCPUシングルスレッドの結果においてM4がIntelのCore i9-14900KSを上回ったとのことです。 Incredible Apple M4 benchmarks suggest it is the new single-core performance champ, beating Intel's Core i9-14900KS — results of 3,800+ posted | Tom's Hardware https://www.tomshardware.com/pc-components/cpus/apple-m4-scores-suggest-it-is-the-new-single-core-performan

naggg 2024/05/14

リンク

AI裏垢女子に気を付けろ(ディープフェイクで裏垢動画を作ってみた)｜山野祐介

私事ですが、骨折して２か月ほど半寝たきり＆半引きこもり生活をしていました(動かな過ぎて痔になった)。なので連載以外は全く何もせず過ごしていたんですが、若干余裕が出てきたのでリハビリがてらnoteで好きなことを書きますで……久々にXを見て「おすすめ」タブに表示されていた裏垢女子を一度見たら、それからずっと出てくるようになってしまった。裏垢女子というのは、一般的には性的な内容のポストや画像の投稿をあけすけに行い、会って性行為に及ぶのもやぶさかではない……みたいな女性ユーザーのことを指すが、体感では純粋に性的な出会いを求めている人は0.2%くらいではないかと思う。残りの99.8%は・「ここで連絡先交換してます♥」とか言われて詐欺の出会い系(会えることや資金譲渡をエサに入金を何度もせびられる)に誘導される・DMで交通費やホテル代などの名目で「PayPayやAmazonギフト券をくれたら会

naggg 2024/05/14

あとで読む

リンク

生成AI、那覇市はどう活用？　職員も思いつかなかった、AIが提案したアイデアとは

2023年11月にあった那覇市長定例記者会見。沖縄の言葉で「はいさいぐすーよー。ちゅーうがなびら（こんにちは皆さん。ご機嫌いかがでしょうか）」から始まった会見は、市の業務での生成AI 本格導入に向けて「那覇市生成AI活用方針」を策定したというコメントを読み上げていた。「いっぺーにふぇーでーびる（ありがとうございました）」と締めたところで、知念覚市長がこう付け加えた。「なお、このコメントもですね、生成AIによって下書きを作成し、職員が校正を行って作っております」沖縄県内ではいち早く生成AI活用を導入した那覇市。同市DX推進室の長嶺伶生さんは「たたき台を手直しするだけで作れるので負担は少なくなっています」とそのメリットを挙げる。住民の個人情報などデリケートな情報も多く扱う行政の現場。その利用にあたっては慎重に活用方針とガイドラインを作成し、日々の業務活用につなげている。行政が生成AIな

naggg 2024/05/14

AI
自治体

リンク

Embeddingモデルを使ったベクトル化のしくみ、fine-tuning手法を解説

自己紹介  • 名前  ◦ 早野康太  • お仕事  ◦ 自然言語モデルの改善 • 今期期待のアニメ  ◦ ユーフォ、無職転生、夜のクラゲ  このすば、ガールズバンドクライ  • 最近の映画  ◦ デデデデおもろかったです  ▪ 幾田りら声優うまスンギ  ▪ 原作もバチクソ良かった  • 今後の映画  ◦ ウマ娘、ぼざろ、デデデデなどアジェンダ  • Transf ormerモデル  ◦ Attentionについて  ◦ CLS, mean pooling  • fine-tuningについて  ◦ Contrastive Learning  ◦ データセットのつくりかた  • 世のEmbeddingモデルたちはどうしてるか  ◦ m-E5  ◦ E5-mistral-7b-instruct  ◦ BGE  • Embeddingモデルの応用  ◦ RAGとかStable Diffusi

naggg 2024/05/14

あとで読む

リンク

スパコン「富岳」で学習した日本語特化大規模言語モデル「Fugaku-LLM」が公開される

スーパーコンピューター「富岳」を用いて学習した130億パラメータの大規模言語モデル「Fugaku-LLM」が2024年5月10日(金)に公開されました。Fugaku-LLMは既存の大規模言語モデルに頼らず独自の学習データを用いて学習しており、既存の日本語特化大規模言語モデルと比べて高い性能を発揮することがアピールされています。スーパーコンピュータ「富岳」で学習した大規模言語モデル「Fugaku-LLM」を公開日本語能力に長け、研究・ビジネス利用にも期待 | 東工大ニュース | 東京工業大学 https://www.titech.ac.jp/news/2024/069217 スーパーコンピュータ「富岳」で学習した大規模言語モデル「Fugaku-LLM」を公開 : 富士通 https://pr.fujitsu.com/jp/news/2024/05/10.html Fugaku-LLMは2

naggg 2024/05/14

あとで読む

リンク

OpenAI の Model Spec の概要｜npaka

以下の記事が面白かったので、簡単にまとめました。 Exampleは省略してるので元記事で確認してください。・Model Spec (2024/05/08) 1. Model Spec の概要1-1. Model Spec の概要これは「Model Spec」の最初のドラフトであり、OpenAI APIおよびChatGPTでのモデルの望ましい動作を指定する文書です。これには、一連の中核目標と、矛盾する目標や指示に対処する方法に関するガイダンスが含まれています。 OpenAIの目的は、研究者やデータラベル作成者がRLHF と呼ばれる手法の一部としてデータを作成するためのガイドラインとして「Model Spec」を使用することです。「Model Spec」はまだ現在の形式では使用していませんが、その一部はOpenAIでRLHFに使用したドキュメントに基づいています。また、モデルが「Model

naggg 2024/05/14

あとで読む

リンク

デジタル庁2023年度事業　行政での生成AI利活用検証から見えた10の学び (1/3)｜デジタル庁

デジタル庁のAI担当の大杉直也です。この記事では、生成AIによる業務改善の一助になればと思い、実際の行政業務で生成AIの利活用を検討する際に得られた知見を共有します。本記事は、「デジタル庁2023年度事業　行政での生成AI利活用検証の結果報告（以降、報告書とよびます）」で得られた知見を、よりわかりやすく具体的に示すために、「10の学び」の形式にまとめたものです。その検証ではデジタル庁を中心とした行政職員を対象に、実際に複数種類のテキスト生成AIを取り扱える環境＋ユースケースごとの独自開発を含むサポート体制を作り、(1)どの行政業務に対し、(2)どのようにテキスト生成AIを使えば、(3)どのくらい改善効果がありそうか、を調べました。また、報告書には含まれていなかった個別ヒアリング等による知見も反映させています。文量が少し多くなってしまったため、全3回の構成で紹介いたします。第1回の本記

naggg 2024/05/14

あとで読む

リンク

Google Cloud、豪年金基金のアカウントを誤削除　予備も誤削除　他社でのバックアップでなんとか復旧

Google Cloudが、顧客のアカウントを誤って削除し、大規模障害の引き金になる──こんな出来事が海外で起きた。オーストラリアで年金基金を運営するUniSuperは5月8日（現地時間）、自社サービスで起きていた障害について、プライベートクラウドのアカウントが誤って削除されたことが原因だったと発表した。 UniSuperはGoogle Cloudを活用していたが、米Google自身が誤ってアカウントを削除。UniSuperは冗長性を確保するため、別のリージョンにもデータを置いていたが、そちらも無効にされていたという。アカウントが削除された経緯については「（Google Cloudが）UniSuperのプライベート・クラウド・サービスをプロビジョニングする際の不用意な構成ミスにより生じた」（UniSuper）と説明している。しかし、UniSuperは他社のサービスでもバックアップを確保し

naggg 2024/05/14

あとで読む

リンク

偽造マイナンバーカードを使用したSIMスワップについてまとめてみた - piyolog

2024年4月、偽造されたマイナンバーカードを使用したSIMスワップ事案が発生しました。さらにその後のっとられたSIMを通じて高級腕時計の購入などが行われる被害も発生しています。ここでは関連する情報をまとめます。 SIMのっとられ未遂含め400万円超の被害 SIMスワップの被害を報告したのは、東京都議会議員と大阪府八尾市議会議員の二人。愛知県名古屋市内のソフトバンクショップ（八尾市議会議員の事例ではソフトバンク柴田店）で何者かが契約変更（MNPや最新のiPhoneへの機種変更など）を行い、元々の契約者であった二人が所有するスマートフォンでSIMによる通話・通信ができない被害にあった。昨日昼頃、スマホにPayPay通知が表示され「1000円チャージしました」と。自動チャージ設定？なんだろうとアプリを確認してもよくわからず放置。（この時にPayPayに確認すべきだった！）午後にメールチェック

naggg 2024/05/14

あとで読む

リンク

「レベル1」に戻る勇気。48歳で美大を受験・合格した青田努さんに、社会人が学ぶ意義を聞いた - ミーツキャリアbyマイナビ転職

ちゃんと勉強してみたいことはあるけれど、今は「お金」も、「体力」も、「時間」もなくて……。そんな悩みを抱えながら日々の仕事に向き合っている方も少なくないでしょう。新しいことを学ぶのはいつだって尊いもの。しかし、その尊さは「自分のリソースをどこまで投資するか」という選択とコインの表裏でもあります。社会人になってからの学びを人生やキャリアの血肉にできている人は、どんなアクションを重ねてきたのでしょうか？今回お声がけしたのは、リクルートやアマゾンジャパン、LINEなど名だたる企業で活躍されてきた人事のプロフェッショナル、青田努さん。青田さんは、絵やデザインについて学びたいという「ずっと蓋をしていた思い」に40代後半で向き合い、一念発起して美大受験にチャレンジ。「中学校を卒業してからはほとんど絵を描いてこなかった」ところから1年間みっちりと絵を勉強し、2024年春、多摩美術大学に見事合格

naggg 2024/05/14

リンク

ジャック・ドーシー、Blueskyからの離脱は「Twitterと同じ過ちを繰り返しているから」とインタビューで述べる | テクノエッジ TechnoEdge

ガジェット全般、サイエンス、宇宙、音楽、モータースポーツetc... 電気・ネットワーク技術者。実績媒体Engadget日本版, Autoblog日本版, Forbes JAPAN他 Twitterの共同創業者で、現在は決済サービスBlockを率いるジャック・ドーシー氏は、最近Blueskyの取締役会から降りた理由として「（Twitterが犯してきた）あらゆる過ちを繰り返しているから」だと語りました。ドーシー氏はTwitterの歴史のごく初期に、営利企業としての都合や、広告主など外部の力で運営方針を左右されることのない、オープンソースのプロトコルとしてのTwitterを構想していました。しかし、Twitterが成長していくにつれ、違法コンテンツなどのモデレーションやユーザーのアカウント凍結といった対応が必要となり、オープンで分散したネットワークという方向性に舵を切るのは難しくなります。

naggg 2024/05/14

リンク

維新・吉村共同代表、「0歳児に選挙権」を衆院選の公約にする考え | 毎日新聞

日本維新の会の吉村洋文共同代表（大阪府知事）は13日、次期衆院選の公約に少子化対策として、0歳児への選挙権付与を盛り込む考えを示した。府庁で報道陣の取材に答えた。実現には公職選挙法の改正が必要となる。吉村氏は有識者らで作る「人口戦略会議」が4月に公表した人口減少に関する試算を受けて、「0歳から選挙権を持ってもらうべきだ」と発言。成人までは親が代理行使することを提案していた。 13日は、報道陣に「世界一の高齢社会である日本だから（0歳児への選挙権付与を）考えるべきだ」と発言、若い世代中心の政治に転換する必要性を改めて強調した。次期衆院選の公約に据えるべく党内で協議を進めているといい、今後、憲法改正の必要性についても議論する。吉村氏の発言を巡っては、SNS（ネット交流サービス）などで「世代間の分断をあおる」との指摘も出ていた。吉村氏はこうした考えについて、「子や孫のための政治をやってほしい

naggg 2024/05/14

個人的には、前向きな議論の余地はあると思うな。

リンク

参院政倫審29人全員が「出席拒否」　“裏金問題”での追加審査要求に応じず（FNNプライムオンライン（フジテレビ系）） - Yahoo!ニュース

自民党の石井参院国対委員長は、自民党派閥の政治資金パーティーをめぐり、収支報告書への不記載があった議員のうち、政治倫理審査会での弁明を行っていない29人の党参院議員について、全員が出席しない意向を示したことを明らかにした。石井氏は「与党としてみれば誠に遺憾なことだ。残念だ」と述べた。参院政倫審をめぐっては、3月14日に、世耕前参院幹事長・西田昌司議員・橋本聖子元五輪相の3人が弁明を行い、残った29人に対し、野村政倫審会長の名前で出席を求める説明文書が発出されていた。この回答期限は5月13日としていたが、党として29人の意向を確認したところ、弁明のための出席意向を示す議員は誰1人いなかったという。石井氏はこのことを野党側に報告したうえで、今後は、政倫審の幹事懇を経て、審査会を開き、29人に出席を求める正式な議決を行う方針を示した。 29人の中からは出席しない理由として、「一定の責任は

naggg 2024/05/14

リンク

はてなブックマーク

タグ

nagggのブックマーク (54,111)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス