並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 800件

新着順 人気順

画像認識の検索結果1 - 40 件 / 800件

  • ディープラーニング実践入門 〜 Kerasライブラリで画像認識をはじめよう! - エンジニアHub|若手Webエンジニアのキャリアを考える!

    ディープラーニング実践入門 ~ Kerasライブラリで画像認識をはじめよう! ディープラーニング(深層学習)に興味あるけど「なかなか時間がなくて」という方のために、コードを動かしながら、さくっと試して感触をつかんでもらえるように、解説します。 はじめまして。宮本優一と申します。 最近なにかと話題の多いディープラーニング(深層学習、deep learning)。エンジニアHubの読者の方でも、興味ある人は多いのではないでしょうか。 しかし、ディープラーニングについて周りのエンジニアに聞いてみると、 「なんか難しそう」 「なかなか時間がなくて、どこから始めれば良いかも分からない」 「一回試してみたんだけど、初心者向けチュートリアル(MNISTなど)を動かして挫折しちゃったんだよね」 という声が聞こえてきます。 そこで! この記事では、そうした方を対象に、ディープラーニングをさくっと試して感触を

      ディープラーニング実践入門 〜 Kerasライブラリで画像認識をはじめよう! - エンジニアHub|若手Webエンジニアのキャリアを考える!
    • Self-Attentionを全面的に使った新時代の画像認識モデルを解説! - Qiita

      08/31 (2020): 投稿 08/31 (2020): 「畳み込みを一切使わない」という記述に関して、ご指摘を受けましたので追記いたしました。線形変換においては「チャネル間の加重和である1x1畳み込み」を実装では用いています。 08/31 (2020): 本論文で提案されているモデルの呼称に関して認識が誤っていたためタイトルおよび文章を一部修正しました。 言葉足らずの部分や勘違いをしている部分があるかと思いますが、ご指摘等をいただけますと大変ありがたいです。よろしくお願いします!(ツイッター:@omiita_atiimo) 近年の自然言語処理のブレイクスルーに大きく貢献したものといえば、やはりTransformerだと思います。そこからさらにBERTが生まれ、自然言語の認識能力などを測るGLUE Benchmarkではもはや人間が13位(2020/08現在)にまで落ちてしまっているほ

        Self-Attentionを全面的に使った新時代の画像認識モデルを解説! - Qiita
      • Googleの画像認識APIを基に、好きな画像を学習させて認識機能を簡単にカスタマイズできる「Cloud AutoML Vision」発表 - Publickey

        Googleの画像認識APIを基に、好きな画像を学習させて認識機能を簡単にカスタマイズできる「Cloud AutoML Vision」発表 Googleは、Googleが提供する学習済み機械学習APIを基に、ユーザーが自分のデータを学習させることで認識機能をカスタマイズできる「Cloud AutoML」を発表しました。 「Cloud AutoML」に対応したAPIの第一弾として、ユーザーが独自の画像を学習させられる「Cloud AutoML Vision」を発表しました。 学習済みの機械学習APIに対して追加で学習可能 Googleは、機械学習を用いた画像認識APIとして「Cloud Vision API」を以前から提供しています。 Cloud Vision APIはあらかじめGoogleによって学習済みであるため、画像を読み込ませるだけで、人間の顔の検出や猫や犬といった動物、船や飛行機、

          Googleの画像認識APIを基に、好きな画像を学習させて認識機能を簡単にカスタマイズできる「Cloud AutoML Vision」発表 - Publickey
        • OpenCVで学ぶ画像認識 記事一覧 | gihyo.jp

          運営元のロゴ Copyright © 2007-2024 All Rights Reserved by Gijutsu-Hyoron Co., Ltd. ページ内容の全部あるいは一部を無断で利用することを禁止します⁠。個別にライセンスが設定されている記事等はそのライセンスに従います。

            OpenCVで学ぶ画像認識 記事一覧 | gihyo.jp
          • 画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説! - Qiita

            0. 忙しい方へ 完全に畳み込みとさようならしてSoTA達成したよ Vision Transformerの重要なことは次の3つだよ 画像パッチを単語のように扱うよ アーキテクチャはTransformerのエンコーダー部分だよ 巨大なデータセットJFT-300Mで事前学習するよ SoTAを上回る性能を約$\frac{1}{15}$の計算コストで得られたよ 事前学習データセットとモデルをさらに大きくすることでまだまだ性能向上する余地があるよ 1. Vision Transformerの解説 Vision Transformer(=ViT)の重要な部分は次の3つです。 入力画像 アーキテクチャ 事前学習とファインチューニング それぞれについて見ていきましょう。 1.1 入力画像 まず入力画像についてです。ViTはTransformerをベースとしたモデル(というより一部を丸々使っている)ですが、

              画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説! - Qiita
            • Deep Learningと画像認識� �~歴史・理論・実践~

              SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII

                Deep Learningと画像認識� �~歴史・理論・実践~
              • 画像認識対決 ~Microsoft VS Google VS IBM VS AWS~ - Qiita

                はじめに この記事は、Life is Tech ! アドベントカレンダー2016 18日目の記事です。 はじめまして!iPhoneメンターのにっしーです。 「時間があるときに勉強しよう」と人工知能/機械学習/Deep Learning/認識技術といったトピックの記事の見つけてはストックしてきたものの、結局2016年は何一つやらずに終わろうとしているので、とにかく一歩でも足を踏み出すべく、 本質的な理解等はさておき、とにかく試してみる ということで画像認識技術に触れてみることにしました。 画像認識とは? 画像認識とは、画像データの画像内容を分析して、その形状を認識する技術のことである。 -- Weblio辞書 画像認識では、画像データから対象物となる輪郭を抽出して、背景から分離し、その対象物が何であるかを分析するのが基本になります。 しかし、人間なら無意識化に行われていることですが、コンピュ

                  画像認識対決 ~Microsoft VS Google VS IBM VS AWS~ - Qiita
                • GPT-4oの画像認識力と理解力ならいけるのではと思い手書きの仕様指示を読み込ませたら本当にコードを書き上げてくれた→「ついにコーダーが恐怖を感じる時が来たか」

                  kmizu @kmizu A Software Engineer in Osaka (& Kyoto). Ph.D. in Engineering. Interests: Parsers, Formal Languages, etc. ツイートは所属先の見解と関係ありません.思いついたことをつぶやきます.人生を楽しく生きよう(New!) kmizu.github.io kmizu @kmizu GPT-4oの画像認識力と理解力をもってすればいけるやろと思ってやってみたら実際いけた。 ペーパープロトタイピングから最初のHTML書き起こすのにかなり使えるのでは。 つーか指示そのものを画像の中に書いたの読み取ってくれるの何か世界の壁を超えて対話してる感があって凄い #GPT4o pic.twitter.com/3XHMFg3yye 2024-05-14 12:49:41

                    GPT-4oの画像認識力と理解力ならいけるのではと思い手書きの仕様指示を読み込ませたら本当にコードを書き上げてくれた→「ついにコーダーが恐怖を感じる時が来たか」
                  • 画像認識に関する 機械学習技術 / kivantium さん - ニコナレ

                    オタク機械学習勉強会 #0 発表資料

                      画像認識に関する 機械学習技術 / kivantium さん - ニコナレ
                    • 「監視カメラの画像認識をだます服」をハッカー兼ファッションデザイナーが発表

                      ハッカーでありファッションデザイナーでもあるケイト・ローズ氏は、2019年8月8日(木)から8月11日(日)までラスベガスで開催されたセキュリティイベント「DEFCON27」で、「Adversarial Fashion(敵対的ファッション)」というオリジナルブランドを発表しました。Adversarial Fashionの服は自治体や政府が設置している監視システムに干渉するようなデザインとなっていて、監視カメラから個人の特定を防ぐことができるとのことです。 Adversarial Fashion https://adversarialfashion.com/ The fashion line designed to trick surveillance cameras | World news | The Guardian https://profile.theguardian.com/pr

                        「監視カメラの画像認識をだます服」をハッカー兼ファッションデザイナーが発表
                      • Pythonと機械学習ができること 画像認識を工場の事例で試してみた

                        工場を想定した事例をPythonで画像認識 今回は「工場の制御機器で使われているPLC(シーケンサ)」+「画像認識+測定」含めた事例を想定してPythonで制御してみます。 想定しているイメージとしては下記です。「PLC(シーケンサ)で工場内の機器を操作する」+「製品を画像認識で測定する」工程をまとめて管理したいと思います 但し、工場の制御機器におけるPLC(シーケンサ)に関しては「ラダー」という特殊なプログラミング言語で書かれていることが大半でPythonでは直接プログラムできません。 そのためPLC(シーケンサ)自身にはそのままのラダープログラムで動いてもらいます。ラダーの箇所(製造工程)が終わったらGPIO経由でPythonに通知して画像認識(測定工程)を行います Pythonへの通知方法はGPIOでなくても何でも構いません(筆者が使いやすかっただけです)。 Python側はPLCか

                          Pythonと機械学習ができること 画像認識を工場の事例で試してみた
                        • ラズパイで画像認識、1日30円~のエッジAIが快進撃

                          3000円台で手に入るシングルボードコンピュータ「Raspberry Pi」の性能をフルに生かした、エッジAIプラットフォームを展開しているスタートアップ企業がある。今年で創業5年になるIdein(イデイン、東京都千代田区)だ。「第1回 AI・人工知能EXPO【秋】」(幕張メッセ、10月28~30日)に出展した同社のブースを取材した。

                            ラズパイで画像認識、1日30円~のエッジAIが快進撃
                          • 画像認識の初歩、SIFT,SURF特徴量

                            SSII2020TS: Event-Based Camera の基礎と ニューラルネットワークによる信号処理 〜 生き物のように「変化」を捉えるビジョンセ...SSII

                              画像認識の初歩、SIFT,SURF特徴量
                            • きゅうりの選別、料理の記録、自動車の運転にも利用される「画像認識技術」について学べるイベント「GeekOutナイト」を開催します - GeekOutコラム

                              GeekOut コラム きゅうりの選別、料理の記録、自動車の運転にも利用される「画像認識技術」について学べるイベント「GeekOutナイト」を開催します

                                きゅうりの選別、料理の記録、自動車の運転にも利用される「画像認識技術」について学べるイベント「GeekOutナイト」を開催します - GeekOutコラム
                              • iOS - 「顔以外」のものを画像認識する - Qiita [キータ]

                                iOS SDK では Core Image の CIDetector クラスで簡単に顔認識をおこなうことができます。iOS 7 からは、笑顔やまばたきの検出も可能に なりました。 が、CIDetector は detectorOfType:context:options: というメソッドの第1引数で Detector Type を指定できる設計になっているものの、 public let CIDetectorTypeFace: String public let CIDetectorTypeRectangle: String public let CIDetectorTypeQRCode: String public let CIDetectorTypeText: String Detector Types - CIDetector Class Reference と、4つしか定義されてない

                                  iOS - 「顔以外」のものを画像認識する - Qiita [キータ]
                                • Jetson Nanoをセットアップしてディープラーニングで画像認識を試してみた - karaage. [からあげ]

                                  Jetson Nano ファーストインプレッション 謎の半導体メーカーのボード型コンピュータ、Jetson Nanoを購入しました。 NVIDIA Jetson Nano 開発キット メディア: 少し出遅れたので、届くのが遅くなりましたがようやくゲットできました。 ジャーン 裏側をみてみる ん…?? え、えーーー! どうかしてるぜNVIDIA、じゃなかった謎の半導体メーカーさん。 ちなみに、Jetson Nanoの箱は台としても使えるので、大切にとっておきましょう。私のように何も考えずバキバキに破壊しながら開けたら、無残な状況になりますゆえ。 無残な状況 Jetson Nanoセットアップ 些細なこと?は気にせず、セットアップしていきます。 ハードウェアの準備 電源、HDMIケーブル等、ラズパイの周辺機器がほぼそのまま使えました。あと、カメラモジュールはV2のみ対応らしいので、間違えてV1

                                    Jetson Nanoをセットアップしてディープラーニングで画像認識を試してみた - karaage. [からあげ]
                                  • 1万円ちょっとでAI画像認識ができるJetson Nanoを買ってみた

                                      1万円ちょっとでAI画像認識ができるJetson Nanoを買ってみた
                                    • ARに使えるOpenCVで作る画像認識Androidアプリ

                                      ARに使えるOpenCVで作る画像認識Androidアプリ:モバイルARアプリ開発“超”入門(6)(1/3 ページ) オープンソースの「OpenCV」で画像認識しよう これまでの連載第2回「NyARToolKitでマーカー型ARのAndroidアプリを作る」や第3回「NyARToolKit for Androidよりも簡単なAndARとは」で紹介した、Androidで利用可能なオープンソースのAR(拡張現実)ライブラリ「NyARToolkit for Android」「AndAR」では、「縁が黒いマーカー」を認識していました。 しかし、そういったマーカーしか使えないと、デザイン面などで大きな制限があることになります。 そこで今回は、オープンソースのコンピュータヴィジョンライブラリである「OpenCV」(Open Source Computer Vision)を利用した、画像認識アプリの作成

                                        ARに使えるOpenCVで作る画像認識Androidアプリ
                                      • 最新Raspberry Pi OS(Bullseye)のAI画像認識環境構築方法

                                        ラズパイでAI画像認識環境構築 ひさしぶりにラズパイでディープラーニングしようと思ったら、色々変わっていたのでメモ。 追記:ラズパイ5に関しては以下記事参照ください。 前提 ハードウェアやソフトウェアの前提は以下です。 Raspberry Pi 4 Raspberry Pi OS(64-bit) with Desktop 2023-02-21(Bullseye) USBカメラ OSは64bitを使用します。32bitだとライブラリのバージョンが変わってくるのでこの記事のままだとインストールできませんので注意してください。 SDカードの書き込みやハードウェアのセッティングに関しては、以下記事参照ください。 また、上記記事では、カメラとしてRaspberry Pi カメラモジュールを使っていますが、Raspberry Pi OSがBullseyeになってから、使用するライブラリが変わった(Pi

                                          最新Raspberry Pi OS(Bullseye)のAI画像認識環境構築方法
                                        • 第1回 画像認識の基本を知ろう | gihyo.jp

                                          この連載では、この表で言う画像認識技術を主に扱いますが、どの技術も非常に活発に研究されており、様々な分野で実用化されています。 画像認識・理解の基本原理 画像認識の基本原理 画像認識は、学習のフェーズと認識のフェーズの2つからなります。学習のフェーズでは、コンピュータに認識させたい対象画像を学習させる処理を行い、認識のフェーズではコンピュータに入力画像が学習した対象かどうかを判定させます。 図5 学習と認識の流れ 学習フェーズ 学習のフェーズでは、まず画像になんらかの処理を施して、ピクセルのデータ列から、より学習に適したデータ列(特徴量データ)へと変換を行います。 次に変換されたデータを、機械学習と呼ばれるアプローチを用いてコンピュータに学習させます。機械学習とは、その名の通り人間が行っているような学習の仕組みをコンピュータに持たせるための技術です。例えば人間は、初めて見る人の顔画像でも、

                                            第1回 画像認識の基本を知ろう | gihyo.jp
                                          • 大規模画像認識とその周辺

                                            Image net classification with Deep Convolutional Neural NetworksShingo Horiuchi

                                              大規模画像認識とその周辺
                                            • Raspberry Pi 4のディープラーニングで画像認識する環境をゼロから1時間で構築する方法 - karaage. [からあげ]

                                              「Raspberry Pi Advent Calendar 2019」の3日目記事です。 ラズパイ5・最新OSでのセットアップ記事を追記しました 最新のラズパイ5や最新OSでの環境構築は、以下記事も合わせて参照ください。 ラズパイ4を入手しました ラズパイ4を入手しました。色々事情があり、ポケットに入れて叩いたら2台に増えてしまいました。 ラズパイ4が2つ 手に入ったものは仕方ないので、恒例のセットアップと洒落込みたいと思います。ラズパイ4からラズパイ始める人もいるかもしれませんしね。そして今までラズパイ使っていたユーザーとして、4でCPU・メモリが大幅にスペックアップしているので、せっかくならそれらを体感できて役に立ちそうなアプリを動かしてみることにしました。 というわけで、ほどよく処理が重く、役に立ちそう(?)なディープラーニングを使った画像認識(正確には物体検出)を試したいと思います

                                                Raspberry Pi 4のディープラーニングで画像認識する環境をゼロから1時間で構築する方法 - karaage. [からあげ]
                                              • [速報]「Amazon AI」として、画像認識/テキスト音声変換/音声認識と自然言語理解の3つを発表。AWS re:Invent 2016

                                                Amazon Web Servicesは、ラスベガスで開幕した同社のイベント「AWS re:Invent 2016」で、「Amazon AI」傘下のサービスとして、画像認識、テキスト音声変換、音声認識と自然言語理解の3つを発表しました。

                                                  [速報]「Amazon AI」として、画像認識/テキスト音声変換/音声認識と自然言語理解の3つを発表。AWS re:Invent 2016
                                                • 会議中にスマホを触る政治家を機械学習と画像認識で検出

                                                  会議の最中であるにもかかわらず、政治家が集中せずに手遊びしていたり居眠りしていたりする様子が中継に映り込むことがあります。これを、中継映像から機械学習と画像認識を用いて自動的に検出し、TwitterとInstagramのアカウントで映像付きで報告する仕組みが運用されています。 The Flemish Scrollers, 2021-2022 – Dries Depoorter https://driesdepoorter.be/theflemishscrollers/ Machine Learning Detects Distracted Politicians | Hackaday https://hackaday.com/2022/01/17/machine-learning-detects-distracted-politicians/ ベルギー人アーティストのドリス・ディポーター氏

                                                    会議中にスマホを触る政治家を機械学習と画像認識で検出
                                                  • 畳み込み+Attention=最強?最高性能を叩き出した画像認識モデル「CoAtNet」を解説! - Qiita

                                                    1. CoAtNetの解説 1.1 畳み込みとSAの復習 コンピュータビジョンで用いられている大きな仕組みに畳み込みとSelf-Attention(=SA)があります。畳み込みではEfficientNet、SAではViTが有名ですね。EfficientNetについてはこちらの拙著記事、ViTについてはこちらの拙著記事をご参照ください。CoAtNetでは、この畳み込みとSAの良いとこ取りをしたブロックを作ることが一番の目的になっています。畳み込みとSAの式を復習しておきましょう。ここでは畳み込みの中でもDW(=Depthwise)畳み込みを取り扱います。そして、本論文では分かりやすさを優先しているのか、式の細かいところ(SAにおけるqkvの埋め込みなど)はあえて排除しているように見えるので、理解しやすいです。 1.1.1 畳み込みの式 本論文では、畳み込みの中でもDW(=Depthwise)

                                                      畳み込み+Attention=最強?最高性能を叩き出した画像認識モデル「CoAtNet」を解説! - Qiita
                                                    • Deep Learningによる画像認識を可能にする最も簡単なWebプラットフォーム「Labellio」のリリースのお知らせ - Alpaca技術ブログ

                                                      本日6/30にAlpaca(http://www.alpaca.ai/, blog: http://blog-jp.alpaca.ai/)はDeep Learningによる画像認識を可能にする最も簡単なWebプラットフォーム「Labellio(ラベリオ)」(URL: https://www.labell.io/ja/)をリリースしました。 リンク: Labellio ロゴ 代表画面 モデル一覧ページ ラベル付けページ モデル構築ページ 背景 近年の機械学習関連技術の発達により、Deep Learningを用いた画像の認識精度は人間に迫るレベルに達しました。しかし、そのソフトウェアとGPUを用いた計算環境のセットアップ、画像の管理、作成されたモデルのプロダクトへの有効利用と、実際に画像認識を行う上での課題はたくさんあります。 Labellioはそのようなソフトウェア、計算環境、有効利用などの

                                                        Deep Learningによる画像認識を可能にする最も簡単なWebプラットフォーム「Labellio」のリリースのお知らせ - Alpaca技術ブログ
                                                      • 「死んだ祖母の形見」とウソをつくことでBingチャットにCAPTCHAの画像認識を解かせることに成功

                                                        BingチャットはMicrosoftが提供しているチャットボットAIで、ユーザーは画像をアップロードして検索したり議論したりすることが可能です。そんなBingチャットは、画像認識型のセキュリティテストであるCAPTCHAの問題は解かないように設定されているのですが、架空の亡くなった祖母のロケットペンダントだとウソをついてBingチャットの同情を買うことで、BingチャットにCAPTCHAの問題を解かせることに成功したとXで報告されています。 I've tried to read the captcha with Bing, and it is possible after some prompt-visual engineering (visual-prompting, huh?) In the second screenshot, Bing is quoting the captcha

                                                          「死んだ祖母の形見」とウソをつくことでBingチャットにCAPTCHAの画像認識を解かせることに成功
                                                        • 「初代iPhoneと同等の衝撃」と評されるOpenAIの次世代言語モデル「GPT-4」が2023年3月発表予定、画像認識機能や多言語対応の強化が実現か

                                                          2023年3月9日にドイツで開始された「AI in Focus – Digital Kickoff」と題したイベント内で、Microsoftドイツ法人のアンドレアス・ブラウンCTOが、AI開発団体のOpenAIが開発した次世代大規模言語モデル「GPT-4」が来週にも発表されることを明らかにしました。ブラウン氏はGPT-4を「ゲームチェンジャー」と評しています。 GPT-4 is coming next week – and it will be multimodal, says Microsoft Germany | heise online https://www.heise.de/news/GPT-4-is-coming-next-week-and-it-will-be-multimodal-says-Microsoft-Germany-7540972.html ブラウン氏は2023年

                                                            「初代iPhoneと同等の衝撃」と評されるOpenAIの次世代言語モデル「GPT-4」が2023年3月発表予定、画像認識機能や多言語対応の強化が実現か
                                                          • 「ウマ娘」の育成がめっちゃ捗る画像認識ツール「ウマウマクルーズ」公開中 イベント選択肢の結果やレーススケジュールをリアルタイム表示

                                                              「ウマ娘」の育成がめっちゃ捗る画像認識ツール「ウマウマクルーズ」公開中 イベント選択肢の結果やレーススケジュールをリアルタイム表示
                                                            • パーセプトロンからSVMでの画像認識まで、機械学習エントリのまとめ - きしだのHatena

                                                              なんかJJUGナイトセミナーで機械学習をやるっぽくて、定員100人が40人キャンセル待ちとかになってますね。 【東京】JJUG ナイト・セミナー「機械学習・自然言語処理特集!」12/17(水)開催 - 日本Javaユーザーグループ | Doorkeeper ということで、予習用だか復習(になるかわかんないけど)用に、2008年になんか機械学習をやってたときのエントリをまとめてみます。 今でこそ機械学習はなんかもりあがってるけど、2008年にぼくがやってたとき「ところで機械学習やってなんになるの?」ってよく言われてました。ぼくも「いや、なんかそこに機械学習ってものがあるから実装してる」みたいな答えをしてた気がします。特に目的はありませんでした。 たまたま サポートベクターマシン入門 という本を見かけて、なんか実装してみたくなっただけです。 変な力がありあまってたっぽい。 機械学習ことはじめ

                                                                パーセプトロンからSVMでの画像認識まで、機械学習エントリのまとめ - きしだのHatena
                                                              • 画像認識技術のRiya、イメージ検索サービス「Like.com」をついに公開

                                                                あのGoogleが1度は買収に動いたといわれる画像認識技術のRiyaが画像(イメージ)をキーにした検索サービスの開発を計画という話については、以前にブログでお伝えした通りだが、この「Like.com」という新サービスのアルファ版がついに公開された。 この話を伝えるTechCrunchの記事には「はじめての本物の画像検索("First True Visual Image Search")」と書かれているが、これは、他の「画像検索」と称する各サービスが対象となる画像に付されたメタデータの文字情報を頼りに画像を見つけ出すのに対し、Like.comではメタデータのほか画像自体の(視覚的な)類似性を手がかりに検索する、ということを意味している。 現時点では、ジュエリー、シューズ、バッグ、洋服だけが検索の対象だが、同サイトではParis HiltonやJulia Roberts、Victoria Be

                                                                  画像認識技術のRiya、イメージ検索サービス「Like.com」をついに公開
                                                                • MacでもRaspberry PiでもTensorFlow + Kerasで楽々画像認識 - karaage. [からあげ]

                                                                  TensorFlow + Kerasが便利 ディープラーニングをするとき、TensorFlowと合わせて使うと便利で有名なのがKerasというライブラリです。Kerasの使い方に関しては、ほけきよ(id:imslotterさん)の以下記事が非常に参考になります。 なので、基本的なことは上記記事を読んでもらうとして(激しい手抜き)、今回は、手っ取り早くKerasを使うとMacやRaspberry Piで画像認識がどれだけ簡単にできてしまうのかということを紹介してみたいと思います。 MacでTensorFlow + Kerasを使った画像認識 環境設定 必要なライブラリは以下です。 Python3(Anagonda3) TensorFlow 1.4.0 Keras 2.1.2 opencv-python 3.3.0.10 Python2でも出来た記憶がありますが、以下でh5pyをインストールし

                                                                    MacでもRaspberry PiでもTensorFlow + Kerasで楽々画像認識 - karaage. [からあげ]
                                                                  • 2016年の深層学習を用いた画像認識モデル - Qiita

                                                                    実装 検証が終わっていないモデルの使用は気をつけてください cifar10の数値感覚 現時点で97%以上ではSoTAになると思います。僕が知っている限り、最高精度は96.69%です。そろそろcifar100か別のデータセットを評価の軸にするべきかもしれません。 最近の傾向 今年はResnetファミリーの年だったと思います。特徴的な点として、深さ=精度が終わった点です。googlenetなどは昔から主張していましたが、ある程度深いと、深さよりも幅を広くしたほうが精度が上がるということが、様々な論文の結果で今年は示されました。3月くらいから、Resnetの幅を広くしたほうが良いという結果は副次的にぞろぞろ出ていて、5月23日に出たWide Residual Netowrksで決定的になったような形だと思います。幅が大事といったことが、今年はっきりした点であるように思います。 論文を俯瞰してみる

                                                                      2016年の深層学習を用いた画像認識モデル - Qiita
                                                                    • 将棋盤を画像認識する - LIVESENSE Data Analytics Blog

                                                                      Analytics チームで転職会議のレコメンドを開発している @na_o_ys です。今回は業務のことは忘れて、趣味の将棋の話をしたいと思います。 この数年で将棋の学習環境はずいぶんリッチになりました。通勤電車では将棋アプリのネット対局をして、自宅ではオープンソースの強豪 AI を使って棋譜検討し、日々将棋を楽しんでいます。 一方で、顔を突き合わせて盤と駒を使って指す対局が一番楽しいのは変わりがありません。 リアルの対局を AI で検討するために、盤面を手軽にコンピュータに入力したい というのが今回のテーマの発端です。 TL;DR 盤上の駒を高い精度で推定することができました。 処理は大きく 2 つのステップからなります。 盤面の正規化 盤面の四隅の座標を特定し、元画像から正規化画像への射影変換を得る マス目毎の内容を推定する マス目毎に画像を切り出し、駒の有無・種類を推定する ちなみに

                                                                        将棋盤を画像認識する - LIVESENSE Data Analytics Blog
                                                                      • 画像認識で「綾鷹を選ばせる」AIを作る - Qiita

                                                                        こんにちは、絶賛プログラミング勉強中のtomoです。 Aidemyで画像認識について勉強し始めて1ヶ月が経ったので、学習成果として投稿します。 はじめに 突然ですが、皆さん「緑茶の中でも選ばれてしまう緑茶は何か」と問われたら何と答えますか? おそらく50%以上の人は「綾鷹」と答えるかと思います。 この記事では、そんな綾鷹を画像認識によって人々に選ばせるAIを作成します。 Aidemyで学習した内容 「ディープラーニングで画像認識モデルを作ってみよう!」ルートで8つのコースを学びました。 特に「CNNを用いた画像認識」コースにおいて学んだ技術を複数使用しています。 (後述する目次の「⑵モデルを構築/学習する」の仕組みを学べます。) 目次 ・実装概要 ・AIの作成 ⑴Iphoneで撮った写真を学習/検証データにする ⑵モデルを構築/学習する ①シンプルにモデルを構築する ②データを拡張する ③

                                                                          画像認識で「綾鷹を選ばせる」AIを作る - Qiita
                                                                        • 【Excel】PDFや画像を見ながら表を手入力する時代は終わった! 画像認識を活用しよう【いまさら聞けないExcelの使い方講座】

                                                                            【Excel】PDFや画像を見ながら表を手入力する時代は終わった! 画像認識を活用しよう【いまさら聞けないExcelの使い方講座】
                                                                          • パラメータ数10億!最新の巨大画像認識モデル「BiT」爆誕 & 解説 - Qiita

                                                                            オミータです。ツイッターで人工知能のことや他媒体で書いている記事など を紹介していますので、人工知能のことをもっと知りたい方などは気軽に@omiita_atiimoをフォローしてください! 2019年12月24日のクリスマスイブにarxiv上でGoogle Brainから新たな画像認識モデルが発表されました。その名も BiT(=Big Transfer)。その性能は2019年にGoogleが出したEfficientNet(拙著解説記事)を様々なデータセットで超えるほどで現在のState-of-The-Art になっています。驚くべきはそれだけでなく、なんとこのモデル、パラメータ数が10億にもおよぶ巨大なモンスターモデル になっています。そんなBiTについて早速この記事で解説していきたいと思います。バッチノームやドロップアウト、Weight Decayなどを使用していないという、 今までの画

                                                                              パラメータ数10億!最新の巨大画像認識モデル「BiT」爆誕 & 解説 - Qiita
                                                                            • 画像認識でアプリケーション操作の自動化を実現!Sikuliがあまりに革命的で興奮した

                                                                              アプリケーションの自動操作をスクリプトで実現するために、Sikuliを調べてみました。 Sikuliとは# Sikuliとは、 OpenCVをつかった画像認識 OCRをつかった文字認識 で、アプリケーションの自動操作を実現するためのツール、スクリプト言語。 Sikuli Script - Home Javaで実装されているため、JVM上で動作するスクリプト言語から利用できる。 スクリプト編集のためのIDEは、画像とプログラム言語を合わせて表示できるという、革命的なソフトウェア。久々に、スゴイ!とおもったソフトウェアだ。 インストール# sikuli-setup.jarをダウンロードして、インストーラをダブルクリックで起動するだけ。 すると、いろいろとインストールオブションがきかれる。JRubyを選択。 slkulix.jarをダブルクリックで起動。IDEが立ち上がる。 インストールは、以下

                                                                                画像認識でアプリケーション操作の自動化を実現!Sikuliがあまりに革命的で興奮した
                                                                              • CUDAなしMacで、Chainer使ってCaffeモデルをインポートして画像認識させてみる

                                                                                  CUDAなしMacで、Chainer使ってCaffeモデルをインポートして画像認識させてみる
                                                                                • ビルの“向こう”に巨大な天海春香――KDDIのARが画像認識でさらに進化 - ITmedia プロフェッショナル モバイル

                                                                                  ビルの“向こう”に巨大な天海春香――KDDIのARが画像認識でさらに進化:ワイヤレスジャパン2010(1/2 ページ) 街中のビルの向こうにキャラクターが現れたり、音楽アルバムの看板から楽曲が流れたり――こんな高度なAR体験を携帯電話で実現させたのが、KDDIの開発版「セカイカメラZOOM」だ。ARゲームへの応用に加え、広告からECへの導線にもなると開発者は語る。 街中でケータイのカメラに看板が映りこむと、そこからキャラクターが飛び出したり、音楽が聞こえてきたりする。ふすまの隙間にカメラかざすと、お化けがこちらをのぞいている――そんな世界を気軽に楽しめる時代がもうすぐやってくるかもしれない。7月14日に開幕した無線・モバイル技術の展示会「ワイヤレスジャパン2010」のKDDIブースでは、同社のケータイ向けAR(拡張現実)アプリ「セカイカメラZOOM」に独自の画像処理技術を搭載した開発版が紹

                                                                                    ビルの“向こう”に巨大な天海春香――KDDIのARが画像認識でさらに進化 - ITmedia プロフェッショナル モバイル