サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
GPT-4o
data.gunosy.io
Gunosyデータ分析部アルバイトの鈴木です。今回は密度比を利用したバージョンリリースにおける異常検知について学んだことをまとめたいと思います。 やりたいこと 超長期的にやりたいこと 密度比を用いた異常検知のイメージ ダミーデータでの実装例1 今回試したやり方 今後試していくやり方 ダミーデータでの実装例2 密度比の平均二乗誤差を用いる場合 直接密度比推定する場合 参考資料 やりたいこと ニュースパス(Gunosyの提供するプロダクトの一つ)をバージョンアップした時に、もし異常があればユーザーアクションログからその兆候を見つけてslackなどに通知できるようにすることが目標です。 (QA項目以外でのログ欠損やアップデートによる予期せぬユーザ行動の検知をするためです。) 現在Gunosyでは、バージョンアップ時に異常がないかどうか調査するために人手を割いています。しかし、もし自動で異常を確実
はじめに こんにちは、データ分析部の森本です。主な業務は記事配信アルゴリズムの改善とログ基盤の整備です。 Gunosyでは、ユーザーへより良い記事を提供するためにアクセスログをストリーム処理し、集計結果を記事配信アルゴリズムに活用しています。 ストリームログ基盤にはSpark Streamingを利用していますが、現在Kinesis Analyticsへ移行中です。 この記事ではKinesis Analyticsへ移行する理由や運用上のTips等についてお話します。 Spark Streamingを利用したストリームログ基盤構成 現在のストリームログ基盤はSpark Streamingで集計を行い、結果をRDSに保存しています。 なぜSpark StreamingからKinesis Analyticsへ移行するのか サーバーコストと運用コストの削減を目的としています。 サーバーコストについ
はじめまして、データ分析部の小澤(id:skozawa)です。 3月12日(月)〜3月16日(金)に開催された言語処理学会第24回年次大会(NLP2018) @岡山コンベンションセンターに、Gunosyから、関、久保、茂木、桾澤(インターン生)、小澤の5名で参加しました。 スポンサー発表 今回、Gunosyはゴールドスポンサーとして参加し、スポンサーブースでは、Gunosyにおける自然言語処理や機械学習を活用した取り組みについて、ポスター発表しました。 具体的には、以下のような発表をしました。 記事・動画閲覧ログを利用したニュース・動画配信の最適化 記事・動画閲覧ログを利用した広告配信の最適化 クリックベイトの分析 クリックされやすいがユーザの満足度を伴わないコンテンツの調査・定量化 DEIM 2018でも発表(タイトルと画像が一致しないニュース記事による クリックベイトの文析, 関, D
はじめに こんにちは。Gunosyデータ分析部の大曽根(@dr_paradi) です。最近はJOHN TROPEA BAND featuring STEVE GADD etcのライブを観に行きました。 業務では主にニュースパスのユーザ行動分析、記事配信アルゴリズム開発全般を担当しています。 先日開催されました、AWS Dev Day Tokyo 2017において、「Gunosy における AWS 上での自然言語処理・機械学習の活用事例」というタイトルで発表してきましたので、その内容について簡単ですが書きたいと思います。 はじめに 発表内容 記事分類 属性推定 + スコアリング 属性推定 スコアリング 効果測定 (ABテスト) おわりに 発表内容 私が発表した内容は下記のスライドにまとまっています。弊社が提供するサービスのニュースドメインのもの(グノシー、ニュースパス)における処理の流れを大
こんにちは。データ分析部の阿部です。 今回はBigQueryについてです。 GunosyではもともとRedshiftで運用していましたが、 クエリによっては時間がかかり処理しきれない 同時にクエリを投げると詰まる などの課題を解決するためにBigQueryを一部で導入しました。 今回はBigQuery導入するときのTipsを紹介したいと思います。 Standard SQL テーブルワイルドカード関数 Partitioned Table Re:dashに接続する方法 Google Apps Script を使ってクエリ結果をSlackに通知する方法 まとめ Standard SQL 現時点でベータ版ですが、ついにBigQueryでも標準SQLを使ってクエリを書けるようになりました。 これまでの SQL (Legacy SQL) は癖が強く、 distinct を使って重複を取り除くこともでき
こんにちは。データ分析部アルバイトの北田 (@shunk031) です。好きな食べ物は畳み込みニューラルネットワークです。 はじめに Gunosyでは広告を出稿する際に使用するサムネイル画像や広告画像において、テキストが占める割合の多い画像を把握したいといったニーズがあります。 Facebookの広告ポリシー*1では、広告内のテキストが過剰であるときに配信数が減ってしまったり、まったく配信されなくなる場合があるようです。 通常、画像から文字を読み取るOCR技術を利用することで前述のニーズを満たすことができそうです。 OCRを利用するにはPythonから使えるpytesseractや、Google Cloud Vision API、Amazon RekognitionといったクラウドベースのAPIを用いる方法があります。 これらpytesseract、Google Cloud Vision
こんにちは。研究開発チームインターンの北田 (shunk031) です。今回は可愛い我が子(研究のことです)について書きます。 この度、私と研究開発チームの関さんで取り組んでいた研究がデータマイニングに関する国際会議KDD2019のApplied Data Science Trackにて採択されました。 gunosy.co.jp 発表した論文は "Conversion Prediction Using Multi-task Conditional Attention Networks to Support the Creation of Effective Ad Creatives"というタイトルで、テキストにフォーカスした広告クリエイティブ作成支援のためのコンバージョン予測がメインの研究です。 arxiv.org 今回はこうした研究がスタートしたきっかけや、インターン中にどのように研究を
はじめに こんにちは、データ分析部の阿部です。 Gunosyには社内警察と呼ばれる人がおり、たとえばデータ可視化の際に円グラフを使うと正しい使い方を教えてくれる、母数という言葉の使い方を正してくれる、方々がいます。 tech.gunosy.io 今回はBigQueryで課金額の高いクエリを投げると警告してくれる、課金警察というボットを作ったので紹介します。 BigQueryはクエリで使われるデータ量に対して従量的に課金されるため、クエリ毎の課金額が把握できると便利です。 Gunosyではエンジニア・非エンジニア問わず、インターン生でも自由にクエリを書いて分析できる環境となっているため、知らず知らずのうちに大胆なクエリが投げられることもあります。 そのため、課金警察でクエリ毎の課金額をSlackに通知しお互いに監視して注意しようという意図です。 どうやってやるか BigQueryにはクエリの
2023-12-09 パーソナライズド動画推薦システムをつくる 機械学習 推薦システム この記事は Gunosy Advent Calendar 2023 の 9 日目の記事です。昨日の記事は koizumi さんの「インシデント発生時における初動対応の自動化」でした。 こんにちは、データサイエンス部 ML チームの大竹です。 弊社では KDDI 株式会社が提供するスマートフォ… #推薦システム #機械学習 2023-12-02 LLM 論文の探し方 こんにちは。R&D の森田です。牛スネ肉のブロックをまるごと炭火で焼いたら美味しかったので、最近のオススメです。 この記事は Gunosy Advent Calendar 2023 の 2 日目の記事です。前回の記事は nagayama さんの Android DataStore の段階導入 でした。 今… 2023-10-30 根っこから理
いつものやつ はじめに なぜ将来を予測することが重要か 概要 準備するもの 日々の獲得の予算 継続率の予算 SQLでの算出 基本編 応用 おわりに いつものやつ この記事は Gunosy Advent Calendar 2017、9日目の記事です(フライング)。 qiita.com はじめに Gunosyデータ分析部の大曽根です。 好きなギタリストはジミ・ヘンドリクスです。 前日の@ij_spitzに引き続きKPI管理に関しての記事を書こうかと思います。 なぜ将来を予測することが重要か ニュースアプリの場合には、毎日開いてくれるユーザが何人いるかが非常に重要です(売上 = DAU * ARPUで表現できます)。 そのため、現在のDAUが目標値に達しているのかいないのか、どの程度の割合で達成しているのかをモニタリングすることが必要になります。 予測に対しての達成割合により、 「成長で売り上げ
gunosy-dm.connpass.com こんにちは。グノシー開発部のアルシャマンです。最近は、KID FRESINOのSalve feat. JJJをよく聴いています。 今日は4/12(水)に開催したGunosy DM #118について紹介します。前回に引き続きこれからの強化学習の1.3~1.5節の輪読と、論文紹介を行いました。 Gunosy DMとこれからの強化学習については、以下のブログ記事で紹介しています。 data.gunosy.io 書籍輪読(これからの強化学習) データ分析部の大曽根と吉田からそれぞれ1.3~1.4節と1.5節についての発表がありました。 1.3節では、MDP(マルコフ決定過程)における価値関数の表現と、それを推定するアルゴリズムについて学びました。具体的には、ある方策πのもとでの行動価値関数について成立する再帰式であるベルマン方程式とSarsaという学習
こんにちは、去年の4月に新卒としてGunosyに入社し、データ分析部に配属された山田です。 先日、LabBase様からインタビューを受けてこんな記事が公開されたりしました。 labbase.jp また、先週は今年の新卒の片木くんがデータ分析部で何をやっているのかを書いてくれました。 data.gunosy.io 今年は新卒エンジニアの数が多かったので研修がかなり充実しているのですが、去年は新卒エンジニアが僕一人だったのでそのあたりの内容は実際に仕事をしながら学んでいくことになりました。 そこでこの記事では、データ分析部に配属されて一年仕事した上で学んだことを軽く紹介したいと思います。 数値を疑うこと 実行速度は思ったよりもシビアだった 大規模データの扱い おわりに 数値を疑うこと Gunosyの方針を示す「Gunosy Way」の一つに「数字が神より正しい*1」という言葉があり、実際に社内
こんにちは、来年度からデータ分析部に所属する山田です。 今はまだ学生です。 一足先にGunosy Summer Internship 2017 データ分析コースのメンターアルバイトとして参加したので、その様子や知見を記していきたいと思います! Gunosy Summer Internship 2017 について 「データ分析コース」の様子 講義 ランチ・新卒トーク ワーク ベンチマークシステム 作業環境 結果発表 インターンでの気付き(メンター山田) インターン参加者の感想 第一回 京都大学大学院 澤田さん 手法について 限られた時間で形にすること 教訓みたいなもの 東京大学 原田さん 用いた手法について 参加してみての感想 東京大学 丹羽さん 用いた手法、時間の使い方 学びと感想 筑波大学 小林さん 用いた手法について 感想 インターン参加者の感想 第二回 大阪大学 中村さん 分析に用い
はじめに Gunosy Tech Lab - Media ML のsuchidaです。 最近はPythonの型アノテーションがないとあたふたする人生です。 こちらの記事は Gunosy Advent Calendar 2021の3日目の記事です。 前回の記事はid:skozawa さんの施策の優先順位付けのために分析Dayを実施しましたでした。 さて皆さん、Pythonを利用する際に静的解析ツールを利用していますか?これは、コードを綺麗に保ち、保守運用を行いやすくするために非常に重要なツールです。 本記事では、Pythonコードフォーマッターなどの静的解析ツールとその設定ファイルの管理方法について簡単に紹介します。 静的解析ツールの導入 チーム内では主に、アルゴリズムの開発・運用にPythonを利用しています。 また、コードを綺麗に保ち、保守運用を行いやすくするためにコードフォーマッターな
はじめに こんにちは、MediaAds ML Teamに所属している飯塚(@zr_4) です。 以前書いたブログ*1をベースに変更を加えた論文がRecSys 2019 *2 に通りました(ヤッター)。 埋め込みベースの推薦は、近年最も成功を収めた推薦手法の一つです。 埋め込みベースの推薦を行っている多くの大企業では、精度良くアイテムやユーザーを表現するため、数百次元のベクトルを使用しています。それによって、莫大な計算リソースを日々消費していることと思います。またリアルタイムにベクトルの演算を行うために検索システムを自作している企業も少なくないと思います*3。負荷の大きさから、特定のロジックの実装に踏み込めないケースも多々あるかと思います。 一方で近年、埋め込みの空間に双曲空間を用いることで、階層構造、木構造、Directed Acyclic Graph (DAG) が低次元のベクトルで表現
はじめに こんにちはGunosy Tech Labの森本です。現在MLOps基盤を再整備しています。そこで調査した海外Tech企業の事例やMLOpsのフレームワークを紹介します。 Gunosy Tech LabのMedia MLチームではニュースアプリ(グノシー、ニュースパス、ルクラ)やクーポンアプリ(オトクル)の推薦アルゴリズムの改善を中心に機械学習を活用してアプリのサービス改善を日々行っています。過去にはチームが独立しており開発者も少数であったことから各チームがJupyter Notebook等でオフライン実験を行い、良い結果のものは本番環境に適用するためプロダクションコードを書き、レビューを行い、本番環境でA/Bテストするという流れでした。最近は開発者の人数も増え横断的にアプリのサービスを改善しているので、より効率的なMLOps基盤が求められています。 はじめに MLOpsとは 実現
こんにちは、Gunosy Tech LabのMLチームでマネージャーをしている id:skozawa です。 今日はMLチームで取り組んでいるABテストの設計と運用について紹介したいと思います。 MLチームはプロダクト横断のチームです。メンバーはグノシー、ニュースパス、LUCRAなどのプロダクトチームにも属しながら、開発を進めています。 ABテストについては以前も少し書いたことがあり、基本方針は同じなのですが、横断チーム、ロジック開発だからこそある難しさもあり、そのあたりで少し工夫していることなどを書きたいと思います。 tech.gunosy.io ABテストの設計について ABテスト開始のために、タスク、KPI、拡大判断基準の設計をするようにしています。 タスク設計 仮説を立て、タスクのゴールを設定します。 ここでは、controlとtreatmentの差分を明確にすることと、contr
こんにちは、Gunosyデータ分析部内定者の桾澤と片木です。今年も昨年同様エンジニア向けデータ分析サマーインターンシップを実施しました。 学生に混ざり、メンターアルバイトとして参加したので、その様子や課題に取り組む上での気付きなど実際の写真も交えながら紹介します! Gunosy Summer Internship 2018 について 講義 課題について 作業環境 ランチ・おやつ 結果発表 インターン参加者の感想 第一回(9/4~9/6) 杉山さん(優勝) 工藤さん 谷口さん 第二回(9/12~9/14) 濱下さん(優勝) 宮尾さん 松丸さん メンター総括 桾澤 片木 Gunosy Summer Internship 2018 について Gunosy Summer Internship 2018は、株式会社Gunosyが2018年夏に開催した短期インターンシップです。 本年は「データ分析コー
こんにちは、データ分析部研究開発チームの関です。 2018年6月5日〜6月8日に開催された2018年度人工知能学会全国大会にGunosyから大曽根、米田、山田、関の4名で参加しました。 当社はゴールドスポンサーとして協賛させていただき、主著発表1件, 共著発表1件, インダストリアルセッションでの発表1件, ランチョンセミナーの開催, スポンサー展示を行いました。 今年度の会場は鹿児島県鹿児島市の城山ホテルというところです。 駅からバスやタクシーで15分ぐらい、山の上にあるホテルでした。 晴れていれば桜島がきれいに見えるらしいのですが、残念ながら期間中は天気に恵まれませんでした。 昨年が名古屋という大都市での開催だったのに対して地方での開催ということで、参加人数は減る見込みだったそうなのですが、 約2,500人と過去最高を記録したそうです。人工知能という技術領域に対する社会的関心がますます
いつものやつ はじめに 各研究の分類 ニュースの品質に関する研究 Predicting News Values from Headline Text and Emotion Incongruent Headline: Yet Another Way to Mislead Your Readers Deception Detection in News Reports in the Russian Language Fake News Detection using Stacked Ensemble of Classidiers From Clickbait to Fake News Detection: An Aproach based Detecting the Stance of Headlines to Articles ニュースとユーザとの関係に関する研究 Predicting U
はじめに 他ドメインと比較したニュース記事推薦の特徴 1. ライフサイクルの短さがもたらすコールドスタート問題 2. 深い言語理解の必要性 3. 明示的なフィードバックの利用の難しさ トピック別ニュース記事推薦手法 記事の人気度合い(popularity)の考慮 概要 既存研究 固有表現(Named Entity)の明示的な考慮 概要 知識グラフと知識グラフ埋め込み 既存研究 リッチな言語表現の利用 概要 既存研究 明示的なユーザーフィードバック・post click指標の利用 概要 既存研究 ユーザーの興味をより正確に捉えるアーキテクチャ 概要 既存研究 今後のチャレンジ おわりに はじめに こんにちは、Gunosy Tech Lab (GTL) Media ML チームの大竹です。Gunosyでは「情報を世界中の人に最適に届ける」というミッションのもと、グノシー・ニュースパス・LUCR
はじめに 推薦システムのトップカンファレンスであるACM主催のRecSys2019 が9月15日から9月20日の間にコペンハーゲンで開催されました。 Gunosyから投稿した論文がshort paperとして採択され*1、関、飯塚の2名でポスター発表してきました。 はじめに Recsysについて タイムテーブル 本会議 Are We Really Making Much Progress? A Worrying Analysis of Recent Neural Recommendation Approaches Online Learning to Rank for Sequential Music Recommendation Recommending What Video to Watch Next: A Multitask Ranking System Relaxed Softma
グノシー開発部の@cou_zです。最近はPUNPEEのアルバムをよく聴いています。 日々、KPIを追っていると、意図せずにトレンドが変化することが良くあります。 なぜトレンドに変化があったのかを調査するためには、その時に何が起こっていたのかを知っている必要があります。「何が起こっていたのか」を全て覚えておくことは不可能なので、後で振り返られるようにログを残しておくと便利です。 GunosyではGoogleカレンダーで個人の予定を管理しているため、アプリの変更・出来事もGoogleカレンダーに「グノシープロダクトカレンダー」を作り、影響のありそうな出来事を登録しています。 かつては、手動でカレンダーに登録していましたが、定期的に発生するイベントの登録はSlack + Zapierを使って自動化しました。今日は、Googleカレンダーを用いてプロダクトのログを残すということと、Slack +
gunosy-dm.connpass.com こんにちは、データ分析部の阿部です。 今回は、先日開催したデータマイニング研究会という勉強会についてご紹介します。 データマイニング研究会とは 本勉強会では書籍の輪読と論文紹介を行い、データマイニングに関する基礎知識の向上及び、先端事例の共有・議論を行うことを目的としています。 2週間に1回のペースで開催されており、社外にも公開し広く知見を共有することを目指しています。 Gunosy創業時から取り組んでいるためこの手の勉強会としては歴史は長く(?)、今回で117回目になりました。 これからの強化学習 今回からは「これからの強化学習」を進めていて、1.1と1.2を終わらせました。 内容は強化学習の基礎的なところで、強化学習の構成要素が中心となっています。 これからの強化学習 作者: 牧野貴樹,澁谷長史,白川真一,浅田稔,麻生英樹,荒井幸代,飯間等
はじめに こんにちは!Gunosy Tech Lab の石川(@takaishikawa42)です。 この記事は Gunosy Advent Calendar 2019、12日目の記事です。 昨日の記事は id:mgi さんによるグノシーにおける AWS Transit Gateway 活用事例 でした。 12月11日・12日の2日間の日程で六本木の Google Japan のオフィスで開催された Kaggle Days Tokyo に参加してきたので、本記事ではそのレポートを書きたいと思います。普段趣味で Kaggle を楽しんでいる身として Kaggle Days が東京で開催されることを知り、前のめりで参加してきました。 当日の様子は Twitter のハッシュタグ #kaggledaystokyo で呟かれており、togetter でもまとめられています。*1 はじめに Kagg
研究開発チームインターンの北田 (shunk031) です。アメリカのアラスカにて行われたKDD2019に参加・発表してきました。 www.kdd.org KDD2019 のチュートリアルやワークショップ、キーノートの中でFairness (公平性) および Explainability (説明性) にフォーカスした以下のものを聴講したので概要をまとめたいと思います。 チュートリアル Fairness-Aware Machine Learning: Practical Challenges and Lessons Learned Explainable AI in Industry ワークショップ Explainable AI/ML (XAI) for Accountability, Fairness, and Transparency キーノート Do Simpler Models Ex
こんにちは。データ分析部アルバイトの北田 (shunk031) です。最近よく聞く曲は「高速に回転するGPUファン」の曲です。 8月27日から8月29日の期間で開催されたNLP若手の会 (YANS) @ 香川県高松市に、Gunosyから関、久保、北田の3名で参加してきました。 YANS2018 スポンサー・ポスター発表 Gunosyにおける自然言語処理・機械学習への取り組み ポスター発表 広告クリエイティブ自動生成に向けた単語レベルでの評価手法の検討 ポスター紹介 クリックベイトの基礎研究における既存データセットの検証 テキスト平易化における難易度の制御 五感に基づく言語表現における個人のバイアスとその補正 画像から抽出した複数種の特徴量を組み込んだニューラル機械翻訳の検討 スタイル変換のためのリファレンスなし 教師あり学習 番外編 うどん & デザート紹介 中西うどん 手打ち十段うどんバ
はじめまして、データ分析部の松嶋です。 現在は、ユーザの行動ログの分析や記事選定ロジックの可視化に取り組んでいます。 先日、Gunosyデータ分析部で開発合宿を開催しました! Gunosyデータ分析部の開発合宿は4回目となり、このエントリではこれまでに蓄積してきた合宿運営ノウハウをご紹介します。 そもそも開発合宿とは Gunosyデータ分析部の開発合宿 いままでの開発合宿 今回の開発合宿の様子 開発合宿を成功させる7つのTips 【その1】2通りの目標設定 【その2】目的によって場所を使い分ける 【その3】忘れがちな必需品 【その4】必要なデータは保存してゆく 【その5】宿泊先候補は旅館だけじゃない 【その6】温泉旅館 vs Airbnb 【その7】裏合宿テーマを決めよう まとめ そもそも開発合宿とは 開発合宿とはその名の通り、普段はオフィスでやっている開発を、寝泊まりできる環境に移動して
はじめまして,Gunosyデータ分析部の@hmjです. 2016年の2月からGunosyのデータマイニングエンジニアとして働いていて,今はデータ分析や記事配信アルゴリズム改善を行っています. 今回は,GunosyでのDeep Learningの利用例と, 先日リリースされたChainer 1.11.0*1 を使った簡単なCNNの実行例のご紹介をします. Deep Learning の Gunosy での利用例 背景 Deep Learning は,2012年に物体の認識率を競うILSVRCにて従来手法よりも高い精度をだし,機械学習の研究者らに衝撃を与えたといわれています*2. 最近では「人工知能」と同じレイヤーで語られるほど「Deep Learning」は未だに注目を集めています. そんな中で,弊社データ分析部でも Deep Learning の手法をいくつか試しています. 用いているタス
次のページ
このページを最初にブックマークしてみませんか?
『Gunosyデータ分析ブログ』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く