タグ

ブックマーク / techblog.yahoo.co.jp (14)

  • 大規模レコメンドシステムの構築とレイテンシ改善 〜 Yahoo!ショッピングの事例

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは!サイエンス統括部でYahoo!ショッピング のレコメンドシステムを開発している高久です。 私の所属するチームでは、さまざまな技術を使ってサービスに実際にどうレコメンド機能を組み込んでいくかについて取り組んでおり、機械学習モデルから配信システムまで一貫して開発・運用しています。 今回はそんな中で取り組んだレコメンドシステムの配信部分の構築事例について紹介します。 ※ レコメンドシステムの開発ではプライバシーポリシー の範囲内で取得したデータを用いて行っています。 Yahoo!ショッピングのレコメンドについて レコメンドとは端的にいうとユーザーの興味がありそうな商品を薦める機能のことで、Yahoo!ショッピング内のさまざ

    大規模レコメンドシステムの構築とレイテンシ改善 〜 Yahoo!ショッピングの事例
    knok
    knok 2022/12/23
    せっかく開発したNGTは使ってないんだ
  • 日本語言語理解ベンチマークJGLUEの構築 〜 自然言語処理モデルの評価用データセットを公開しました

    大規模なデータセットを短期間で構築するために、データセット構築にはYahoo!クラウドソーシングを用いました。 以下に各データセットの概要を示します。 MARC-ja MARC-jaは商品レビューを入力として、ポジティブ(positive)かネガティブ(negative)かを推定するタスクです。多言語商品レビューコーパスMARC(Multilingual Amazon Reviews Corpus)[文献7]の日語部分を用いて構築しています。検証・テストセットについては正解ラベルが妥当であるかをクラウドソーシングで判定し、ラベルをクリーニングしています(訓練セットは数が多いことからクリーニングはしておりません)。 JSTS/JNLI JSTS(Japanese Semantic Textual Similarity)とJNLI(Japanese Natural Language Infe

    日本語言語理解ベンチマークJGLUEの構築 〜 自然言語処理モデルの評価用データセットを公開しました
    knok
    knok 2022/12/22
    あれ、公開自体は結構前じゃなかったっけ、とおもってgit repoを見に行ったら既にスターを付けていた
  • 機械学習で実現するヤフーのOCR(文字認識技術)〜 PayPayフリマ 本棚出品での活用事例

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。ヤフーで画像処理エンジニアをしている吉橋です。この記事ではヤフーのさまざまなサービスで使われている独自の画像文字認識(OCR)技術と、特に最近のPayPayフリマ「棚一括持ち物追加機能」での活用事例をご紹介します。 画像文字認識とは 皆さん、ウェブサイトを見ていて「このキーワード気になるな……よしコピーしてヤフーで検索してみよう! と思ったらこれ画像じゃん、コピーできないよ……」なんて困ったことはありませんか? ウェブで私たちが目にする情報は“テキスト”と“画像”の2種類が主なものです。 テキスト: 文字列としての情報を保持したデータであり、コピーやウェブ検索に利用したり解析したり、容易に活用できます。 画像データ:

    機械学習で実現するヤフーのOCR(文字認識技術)〜 PayPayフリマ 本棚出品での活用事例
    knok
    knok 2022/10/04
    CLOVAがいろいろgithubで公開してるのね
  • End-to-End 音声認識のレスポンスを高速化する最小遅延学習

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。音声認識技術の研究開発を担当している篠原です。 皆さんはスマートフォンで音声による検索を使ったことがあるでしょうか? 音声認識は入力された音声をテキストに変換する技術で音声検索などさまざまなアプリで使われています。最近「End-to-End 音声認識」というニューラルネットに基づく革新的な方式が登場して驚くようなスピードで技術が発展しているところです。この記事ではヤフーにおける End-to-End 音声認識の研究成果の一例として「最小遅延学習」と呼ばれるレスポンス高速化の新技術を紹介します。 なお、研究は米国カーネギーメロン大学の渡部晋治准教授との共同研究として実施したものです。また、この技術の詳細は先週開催された

    End-to-End 音声認識のレスポンスを高速化する最小遅延学習
    knok
    knok 2022/09/28
  • 特許庁主催のAIコンペで1位、ヤフーの画像検索技術を使った優勝解法紹介

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。テクノロジーグループ サイエンス統括部で画像認識領域の技術開発や応用を担当している土井です。 ヤフーは、特許庁が初めて開催した「AI×商標 イメージサーチコンペティション」において、第1位を獲得しました。(プレスリリース) 記事では、社内の画像検索に関わる有志で参加した、「AIx商標イメージサーチコンペティション」(特許庁主催、Nishika株式会社開催/以降、コンペまたはコンペとする)の概要と弊チームの優勝解法について紹介します。 目次 コンペの概要 コンペの結果 基的なアプローチ(類似画像検索について) ソリューション概要 データセットの正解ラベルの修正 画像をグループ化し同一グループの画像を正解画像とする

    特許庁主催のAIコンペで1位、ヤフーの画像検索技術を使った優勝解法紹介
    knok
    knok 2022/06/13
    複数の分類モデルのアンサンブル結果をPCAでさらに次元圧縮してるのか。探索は自社製のNGTを使っている
  • BERTとベクトル検索を用いたYahoo!ショッピングの製品名寄せ作業の効率化検証

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。CTO直下のR&D組織であるテックラボにて、コマース領域向けの研究開発に取り組んでいる脇山です。 記事ではベクトル検索を製品への紐付け(いわゆる名寄せ)業務に利用した事例を紹介します。 商品を製品マスタに紐付けする みなさんはYahoo!ショッピングで商品を探したことがあるでしょうか? Yahoo!ショッピングにはいろんなストアが商品を出品しているため、同じ商品を異なるストアが販売しています。そのため、「コカ・コーラ 500ml 48」といったクエリで検索すると、検索結果に異なるストアが出品した「コカ・コーラ 500ml 48」の商品が複数並ぶことがあります。商品を購入する際は、同じ商品でも商品価格や送料などがス

    BERTとベクトル検索を用いたYahoo!ショッピングの製品名寄せ作業の効率化検証
    knok
    knok 2022/04/06
  • ヤフーにおける自然言語処理モデルBERTの利用

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。Yahoo! JAPAN研究所で自然言語処理の研究開発をしている柴田です。 私は自然言語処理の研究と、最新の自然言語処理技術を社内のサービスに適用できるようにする開発の両方を行っています。今日は後者の話をします。 この記事ではBERTというモデルに焦点をあて、BERTの概要と、社内でのBERTの利用、最後に具体例として検索クエリのカテゴリ分類について紹介します。 ※この記事で取り扱っているデータは、プライバシーポリシーの範囲内で取得したデータを個人が特定できない状態に加工しています。 1. BERTとは 2018年にGoogleからBERT (Bidirectional Encoder Representations

    ヤフーにおける自然言語処理モデルBERTの利用
    knok
    knok 2021/12/22
    「一般的なドメインとは少し性質が異なることも多く、そのような場合、そのドメインのテキストで事前学習を行った方が精度がよいことが知られています」やはりそういうこともあるのか
  • Deep Metric Learningによる、ホテルや飲食店などの拠点検索改善

    1.2 なぜDeep Metric Learningにしたか 改善前のモデルでも特徴量を頑張って作れば解決できないことはないとは思います。「地名、ジャンル等に引っ張られて、拠点名指定を無視してしまう」パターンでは、クエリを解釈するロジックを入れ、地名だということを理解して地名部分のみを拠点の住所とマッチングさせて、それ以外を拠点名にマッチングさせて、という具合で特徴量を作れば正解できる可能性があると思います。しかし、これは一例で全体的に精度を上げるにはさまざまなケースを人が考慮して特徴量を作っていく必要があるので大変です。 そこで、学習データ(クエリと正解拠点のペア)が大量にあることを生かして、DNN(Deep Neural Network)がよしなに学習してくれるのに期待しました。また、プロダクト化することを考えると遅くとも数百ミリ秒以内で応答する必要があるので、クエリと拠点側をそれぞれ

    Deep Metric Learningによる、ホテルや飲食店などの拠点検索改善
    knok
    knok 2021/12/06
  • End-to-End音声認識の計算量を削減した話

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、音声処理黒帯(黒帯はヤフー内のスキル任命制度)の藤田です。今日のブログでは、音声認識技術の研究開発におけるヤフーの最新の取り組みを紹介します。 特に、近年注目されているTransformerという手法に基づく、End-to-End音声認識の計算量を削減した研究を紹介します。この研究は、難関国際会議IEEE ICASSP2020に投稿し、採択されました。また、arXivでプレプリントを公開しています。そして、ESPnetというEnd-to-Endモデルのツールキット上でソースコードも公開しています。興味のある方はぜひ、こちらもご参照ください。 音声認識で用いられるEnd-to-Endモデルとは? 音声認識技術は音声をテキ

    End-to-End音声認識の計算量を削減した話
    knok
    knok 2020/06/30
  • プッシュ通知のタイミングを制御する話 〜 ユーザーの空気を読む通知

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog Yahoo! JAPAN研究所 坪内と申します。今日は通知の話です。 プッシュ通知に気づかなかったり、タイミングが悪くてイラっとしてしまうことはないでしょうか? 最適なタイミングで通知する研究結果をご紹介します。 みなさんが目にする、ヤフーの広告の表示や、オススメの情報は、パーソナライズされています。つまり、過去のユーザーの行動履歴から「この人は釣りが趣味の人だ」と推測し、釣りに関するニュースや、釣竿のレコメンデーションをしています。これはプッシュ通知もしかりです。プッシュ通知は表示できる文字数や送信できる通知数に制限があります。ユーザーの興味などから、この人にはこの通知だ! というのを送ります。ここまでは、広告やレコメンデーショ

    プッシュ通知のタイミングを制御する話 〜 ユーザーの空気を読む通知
    knok
    knok 2020/05/20
    推薦系の研究って基本運営側の都合の指標しかないから使う側に必ずしもうれしいかと思うと怪しいと思っている
  • Yahoo! JAPANトップで見るウェブデザインの歴史

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog デザイン特集5目、最後の記事です。 こんにちは、ブランドマネジメント室デザイナーの上田絵理です。 サービスロゴやアイコンの作成や管理、けんさくとえんじんというキャラクターの担当をしています。 私が入社した1999年当時は社員が100人くらいで、全員の顔が覚えられるくらいだったのですが、入社してから20年たった今、社員数は6500人超*1...!  インターネット環境とデバイスの変化とともに進化してきたYahoo! JAPANのトップページを、デスクトップ風のビジュアルで表現してみました。移り変わるウェブデザインの歴史をお楽しみください。 1996年 アメリカYahoo!のデザインを踏襲 1996年4月に国内初の検索サイトYah

    Yahoo! JAPANトップで見るウェブデザインの歴史
    knok
    knok 2019/05/31
    キャプテン・マーベルもこんな感じでaltavista含めよく再現していた
  • 逐次的単語分散表現学習ツールyskipの技術

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog Yahoo! JAPAN研究所の鍜治です。記事では、4月18日に公開されたオープンソースの単語分散表現学習ツールyskipに実装されているアルゴリズムincremental SGNSについて解説したいと思います。 単語分散表現の学習ツールとしてはword2vecなどが有名ですが、incremental SGNSは、そのword2vecに実装されている単語分散表現学習アルゴリズムの1つであるskip-gram model with negative sampling (SGNS)を、逐次学習可能な形に拡張したものになります。 Skip-gram model with negative sampling (SGNS) まずはincr

    逐次的単語分散表現学習ツールyskipの技術
    knok
    knok 2019/04/18
    Yahoo Japanの論文は見てたけど実装も公開したんだ。素晴らしい
  • 量子アニーリングがチョットワカルようになる記事 - Yahoo! JAPAN Tech Blog

    この例は規模が小さく、ちょっと頭で考えてれば答えがわかってしまうかもしれません。けれど、巨大なホテルだとしたら頭で考えるのが難しそうです。とにかくこの問題例をアニーリングマシンで解いてみることにします。 問題を量子アニーリングマシンで解くときは基的に次のような流れに沿って解きます。 (1) 問題の抽出(2) 量子アニーリングマシン (イジングモデル) へのマッピング(3) アニーリングの実行(4) 解の解釈 (1) 問題の抽出 まずは、対象の問題を量子アニーリングで解くことのできるようにできる限りシンプルな問題に切り出すことが必要です。 この問題は実はグラフ頂点彩色問題に帰着させることができます。 グラフ頂点彩色問題とは、任意のグラフ G=(V,E) と色総数 K が与えられたとき、すべての頂点を、隣接する頂点 (すなわち、辺で接続されている頂点) が同色にならないという制約下でK色に塗

    量子アニーリングがチョットワカルようになる記事 - Yahoo! JAPAN Tech Blog
    knok
    knok 2018/12/17
  • 高次元ベクトルデータ検索技術「NGT」のpythonライブラリ公開のお知らせ

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog はじめに 検索技術の菅原です。 以前にこのTech Blogで紹介されたNGT(Neighborhood Graph and Tree)という高速な近傍探索を実現するソフトウエアのpython用インターフェースが公開されました。python機械学習のライブラリが多く公開されており、より手軽にNGTを組み合わせて使うことができるでしょう。 そこで今回はword2vecのベクトルを近傍探索する実践的な内容を紹介します。word2vecを扱うライブラリとしてgensimを使用します。word2vecやgensimの詳しい説明は省略しますが、分からなくてもpythonの文法を知っていれば理解できると思います。今回使用した環境はMacBo

    高次元ベクトルデータ検索技術「NGT」のpythonライブラリ公開のお知らせ
  • 1