抹殺は言い過ぎかもしれませんが簡易な名刺管理アプリであれば自作で十分という時代がきていたようです これで紙の名刺からはきっとバイバイできるでしょう! 名刺管理アプリ作ってほしいといわれた それは2/22のお話。 ことの発端は別の部署からかかってきた一本の電話でした。 新規事業の部署でいろいろな取引先様と付き合いがあるものの、紙の名刺が非常に多く管理に困っているとのことのことです。 私は小売業に勤務しているしがない一社員で、現在Eコマースの戦略立案に関する部署に所属しています。 電話先の方は、以前一緒の部署で勤務したことがある方です。現在新規事業のプロジェクト推進をしており、冒頭のような課題感を持っているため既存の名刺管理アプリ導入を考えたのですが、あまりのお値段の高さに卒倒して私に藁をもすがる思いで連絡されたようです。 これまでのアプリは名刺の識別専門のAI()を使っていた 話を聞いてみた
※この投稿は米国時間 2023 年 7 月 19 日に、Google Cloud blog に投稿されたものの抄訳です。 生成 AI の開発は猛烈な勢いで続いており、この破壊的技術を活かせるようなエンタープライズ向け機能を利用できるかどうかがかつてなく重要となっています。 Google の数十年に及ぶ調査とイノベーション、そして AI への投資を活用することで、Google Cloud は常に、セキュリティとデータ ガバナンス、そして全体的なスケーラビリティが用意されている状態で生成 AI を利用できるようにしています。 この目的のため、先月 Google は Vertex AI での生成 AI サポートの一般提供を発表しました。これにより Google Research から優れた基盤モデルにアクセス可能となり、これらのモデルをカスタマイズして利用するためのツールも利用できるようになりま
DEIM2023 第15回データ工学と情報マネジメントに関するフォーラム チュートリアル講演資料 Part2: Vision-and-Language
Language Models The progress on larger and more powerful language models has been one of the most exciting areas of machine learning (ML) research over the last decade. Important advances along the way have included new approaches like sequence-to-sequence learning and our development of the Transformer model, which underlies most of the advances in this space in the last few years. Although langu
Text to Face👨🏻🧒👧🏼🧓🏽 (arXiv preprint 2024) [💬 3D] Portrait3D: Text-Guided High-Quality 3D Portrait Generation Using Pyramid Representation and GANs Prior, Yiqian Wu et al. [Paper] (CVPR 2024) CosmicMan: A Text-to-Image Foundation Model for Humans, Shikai Li et al. [Paper] [Project] (arXiv preprint 2024) Fast Text-to-3D-Aware Face Generation and Manipulation via Direct Cross-modal Mapping an
State-of-the-art computer vision systems are trained to predict a fixed set of predetermined object categories. This restricted form of supervision limits their generality and usability since additional labeled data is needed to specify any other visual concept. Learning directly from raw text about images is a promising alternative which leverages a much broader source of supervision. We demonstr
今回はOpenAIの『CLIP(Contrastive Language-Image Pre-training)』を解説したいと思います。 CLIPは画像の分類に利用されるモデルですが、今までのモデルと何が違うかというと、自然言語処理の技術を応用する点です。 一般的な画像分類では、たくさんの画像を用意して、それぞれ対して犬、猫、リンゴ、などのラベルをつけます。 それを教師データとして学習します。 しかしながら、その方法には以下のような問題点があります。 ラベル付けに非常にコストがかかる。ラベルの種類が限定的で、学習対象の種類についてはうまく分類できるが、初めて見る対象(例えば、犬と猫を学習して、果物を分類するなど)については分類精度が低い。 CLIPでは、こういった問題に取り組んでいきます。 ちなみに、CLIPはモデルの仕組みではなく事前学習方法ですので、モデル自体はResNetやVisi
Swin Transformerのベースとなった手法として、TransformerとVision Transformerの2つが挙げられる。Transformerは自然言語処理分野で提案された手法であり、これを画像認識分野に応用したものがVision Transformerである。この2つの手法について紹介する。 Transformerが提案される前の2010年、Mikolovら[4]により、時系列データの予測を目的とするネットワーク構造であるRNN(Recurrent Neural Network、再帰型ニューラルネットワーク)が提案された。文章中の単語の並びを時系列のデータの並びと捉え、自然言語処理にRNNを適用する試みがされる中、以下の課題が指摘された。 (1)ある単語の処理を終えるまで、次の単語の処理を開始できないため、並列化が困難 (2)単語の並びを逐次的に処理するにしたがい、以
Visual relationships capture a wide variety of interactions between pairs of objects in images (e.g. "man riding bicycle" and "man pushing bicycle"). Consequently, the set of possible relationships is extremely large and it is difficult to obtain sufficient training examples for all possible relationships. Because of this limitation, previous work on visual relationship detection has concentrated
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く