サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
GPT-4o
data.gunosy.io
はじめに こんにちは、DR&MLOps*1 チームの楠です! こちらの記事は Gunosy Advent Calendar 2021 の 13 日目の記事です。 昨日の記事は大曽根さんの『Gunosyの施策運用におけるインスティチューショナルメモリ』でした。 本日は、データ分析の民主化を促進するためのデータレイク上での分析用データマートとしての Athena view の利用方法と、IaC のための Terraform による宣言的な Athena view の定義方法をご紹介します! はじめに 背景 前提知識: Athena における view Athena view の利点 利点1. SQL と view カタログ定義のみからなるので、データ転送ワークフローを組まなくてよい 利点2. テーブルのスキーマを容易に変更できる 利点3. よく利用する共通テーブル式をきちんとテーブルとして定義
はじめに アライアンス事業本部でニュースパス、auサービスTodayといったKDDI社と協業しているプロダクトのプロダクトオーナーをしている大曽根です。Chief Data Officerとしてデータ周りのあれこれも担当しています。プロダクトの詳細については、以下の記事を参考にしていただけると幸いです。 gunosy.co.jp こちらの記事は Gunosy Advent Calendar 2021 の12日目の記事です。 昨日の記事はazihsoynさんの「CUEを小さく使って環境別のYAMLファイルをtemplate化する」でした。 今回は A/Bテスト実践ガイド 真のデータドリブンへ至る信用できる実験とは の第8章、「インスティチューショナルメモリとメタアナリシス」で紹介されているインスティチューショナルメモリについて当社の取り組みを紹介します。 はじめに インスティチューショナルメ
こんにちは。GunosyTechLab MediaMLチームでエンジニアをやっている 上村 id:muemura です。2020年4月に入社してから今まで在宅勤務で座椅子生活を続けているせいで、出社してオフィスチェアで作業したら腰が痛くなるバグを抱えています。 こちらの記事は Gunosy Advent Calendar 2021 の9日目の記事です。 昨日の記事は m-hamashita さんの「iTerm2 から kitty に移行した話 〜Hammerspoon で快適ターミナルライフ〜」でした。 本題 今日は9月頃に紹介したauサービスTodayの記事配信ロジックの続編*1で、記事配信ロジックにパーソナライズを導入する際のモデル *2 の評価方法に関連するお話です。 「複数のパーソナライズのモデルの候補から、どういったオフライン実験を経て、オンライン実験に用いるモデルを決定するのか
はじめに こんにちは、DR&MLOps チームの hyamamoto です! こちらの記事は Gunosy Advent Calendar 2021 の 6 日目の記事です。昨日の記事は楠さんの『SaaS Redash 終了に向けた対応と分析の民主化(方針編)』でした。 今回は前回記事の続編になるので、ぜひ前編から読んで頂けると幸いです。 前回の振り返り 前回の振り返りとして、SaaS Redash の終了に向けて、次のような方針を打ち出しました。 社内で Redash 環境を整備し、SQL によるアドホックな分析環境の整備 Amazon QuickSight を用いた、規格化された分析環境の整備 ここで、1 の方法については Redash が公式に提供する Helm Chart を利用することで解決します。 そこでこの記事では 2 を達成するに至った方法とその振り返りを示していきたいと思
はじめに こんにちは、DR&MLOps*1 チームの楠です! こちらの記事は Gunosy Advent Calendar 2021 の 5 日目の記事です。 昨日の記事は UT さんの『更新できるデータレイクを作る 〜Apache Hudiを用いたユーザデータ基盤の刷新〜』でした。 5 日目と 6 日目では、DR&MLOps チームメンバーで前後編に分けて『SaaS Redash 終了に向けた対応と分析の民主化』をテーマにした記事をお届けします。 本日は、SaaS Redash サービスの終了に合わせて Gunosy ではどのような対応を執ったのか、その意思決定の部分をご紹介します! はじめに 前提知識・背景 Redash とは? SaaS 版 Redash の終了(End of Life) 方針1. 分析の方法と結果をシェアする文化を残したい 方針2. SQL を書かなくても分析の入り
はじめに Gunosy Tech Lab - Media ML のsuchidaです。 最近はPythonの型アノテーションがないとあたふたする人生です。 こちらの記事は Gunosy Advent Calendar 2021の3日目の記事です。 前回の記事はid:skozawa さんの施策の優先順位付けのために分析Dayを実施しましたでした。 さて皆さん、Pythonを利用する際に静的解析ツールを利用していますか?これは、コードを綺麗に保ち、保守運用を行いやすくするために非常に重要なツールです。 本記事では、Pythonコードフォーマッターなどの静的解析ツールとその設定ファイルの管理方法について簡単に紹介します。 静的解析ツールの導入 チーム内では主に、アルゴリズムの開発・運用にPythonを利用しています。 また、コードを綺麗に保ち、保守運用を行いやすくするためにコードフォーマッターな
こんにちは、Gunosy Tech LabのMedia MLチームでマネージャーをしている id:skozawa です。 もう年末、早いですね。 こちらの記事は Gunosy Advent Calendar 2021の2日目の記事です。昨日の記事は加藤さんのチーム再編とCompany Betsでした。 今日はMedia MLチームで施策の優先順位付けのために分析Dayを実施した話です。Gunosyでは6月から期が始まり、12月からは下期となります。そこで下期にやることの案出しと、出てきた施策案に対して優先順位の見積もりをするために分析Dayを実施しました。 分析Day 分析Dayは2日間行いました。今は在宅勤務中なので1日目はリモートで行い、2日目だけオフィスに集まって実施しました。分析Dayの2日間は通常業務はせず、施策の効果などを見積もるための分析を分担しながら行いました。基本はSla
こんにちは、研究開発チームの飯塚です。11/1~11/5にオンラインで行われた、CIKM2021に発表参加しました。CIKMとはACM International Conference on Information and Knowledge Managementの略称で、機械学習やWebマイニング、情報検索/推薦といったトピックを扱う国際会議の1つです。今年のCIKMも、新型コロナウィルス感染症対策の観点からオンラインで開催されました。Gunosy社として、このCIKMに参加するのは初めてでした。本記事では、今回投稿した論文の経緯や概要、ニュースに関する他研究者の発表の一部をご紹介します。 投稿論文 近年オンラインメディアでは、タイトルや画像などを誇張したクリックベイト記事、ユーザーをミスリードするような釣り記事の問題が指摘されています。また、推薦システム側の問題としては、パーソナライゼ
はじめに こんにちは、Gunosy Tech Lab - Media MLの suchida です。 気温の低下とともに起床時間が遅くなってる今日この頃です。 早く春にならないかなぁ(笑)。 さて本記事では、知識辞書構築の自動化について紹介します。 特に記事配信システムの一部で利用している人名辞書について取り上げます。 人名辞書とは 人名辞書は、社内で独自に作成している知識辞書です。 具体的には、以下のように人名やグループに対してカテゴリの紐付けを定義している辞書です。 ちなみに、直近では約19万単語が収録されています。 さだまさし: エンタメ, ヨハン・クライフ: スポーツ, ジョセフ・スミス・ジュニア: エンタメ, ボリス・スパスキー: スポーツ, ルーホッラー・ホメイニー: 国際, この辞書は、Wikipediaのデータをベースに構築しています。 具体的には、Wikipediaにおけ
はじめに こんにちは。GunosyTechLab MediaMLチームの上村です。早いことに新卒2年目も折り返しで驚いていますが、振り返ってみると多くの技術に触れることができてとても濃い一年半だったなと実感しています。 今回の記事の内容は、「auサービスToday」開発の第2弾、記事ロジック編です。 主にサービス初期に「ログがほとんどない状態で、如何に重要または人気な記事を配信するのか」というテーマで、どのようなロジックで実現を目指したかを紹介していこうと思います。 第一弾の実装編では、システムアーキテクチャや効率的に開発を行うためのTipsを紹介しているので、是非こちらもご覧ください! data.gunosy.io auサービスTodayについて auサービスTodayとは、KDDI株式会社と共同で開発を進めているアプリです。 前身は「auサービスTOP」というアプリで、今回リニューアル
はじめに こんにちは、Gunosy Tech Lab - Media MLの suchida です。 2020年に入社して1年ちょっと経過しました。 在宅ワークは未だ継続中ですが、たまにWeWorkに出社して気分転換してます✨ 本記事では新プロダクト「auサービスToday」の開発において、Media MLチームが関わったことについて紹介します。 また記事ロジックの詳細については、別のブログで今後掲載予定です。 アプリイメージ auサービスTodayってなに? auサービスTodayとは、KDDI株式会社と共同で開発を進めているアプリです。 前身は「auサービスTOP」というアプリで、今回リニューアル開発に携わることになりました。 詳細については、以下の記事をご参考にしていただけると幸いです。 gunosy.co.jp www.appbank.net どんな開発に携わったの? 私の所属する
はじめに なぜマーケティングチームに配属された? マーケティングチームでやったこと グノシーのマーケティングチームはどんな仕事? 広告が配信されるまで マーケティング修行を終えて BIチームに合流してから OJT で、マーケティング修行は活きたのか? 最後に:入社4ヶ月を振り返って はじめに こんにちは。Gunosy Tech Lab BIチームに所属している新卒 田辺です。 今回は21卒新卒ブログの第二弾として、私がマーケティングチームに修業に行き、BIチームに合流するまでを紹介しようと思います。第一弾はこちらから読めます。 (※ちなみに配属ガチャを外した話ではありません。) data.gunosy.io BIチームはユーザーの行動分析や経営の意思決定支援を主な業務としています。ただデータを集計するだけでなく、プロダクト開発のための仮説立てや検証、施策のマネジメントなど幅広い場面で会社の
こんにちは、Gunosy Tech Labの谷口です。本記事ではグノシーの品質向上施策の一つである「各タブの記事リストの品質向上」についてお話しします。 グノシーの品質向上 当社ではグノシーの長期的なプロダクト価値の向上を目指し、2020年6月よりアプリの品質向上を行っています。*1 詳しくは「東洋経済」の以下の記事や、当社のIR資料をご参照ください。 toyokeizai.net gunosy.co.jp これまで品質向上の施策として「『扇情的な記事』の定義」、「プッシュ通知記事の監視の強化」、「トピックタブのユーザーごとのパーソナライズ *2」などを行ってきました。本記事で説明する「記事リストの品質向上」もその施策の一つとなっています。 各タブの記事リスト品質向上 従来は、全タブにわたって同一のロジックが適用されていました。具体的には、まずユーザーをクラスタリングしておき、対象ユーザー
はじめに GTLという組織・Media MLチームについて 入社〜現在までの流れ OJT:スポーツタブのロジック改善 既存ロジック 改善までの道のり (1)パーソナライズアルゴリズム (2)記事wiseな時間減衰 学んだこと、気がついたこと コストの意識 タスク管理 コミュニケーションの重要性 1つのアプリを運用していくことのすごさ 研究で学んだことが生きる場 はじめに こんにちは!今年の3月に大学院の修士課程を修了し、4月に新卒としてGunosy Tech Lab (GTL) Media MLチームに配属になりました大竹です。本記事は、新卒エンジニアがそれぞれの視点から入社以降の取り組みやエピソードを紹介する新卒ブログの第一弾です。今年エンジニアとして新卒入社した同期は私を含めて4名おり、今後各人によるリレー形式で更新していきます。 GTLという組織・Media MLチームについて Gu
はじめに DRE Team の hyamamoto です. 皆さん,Spark は利用されていますか? Gunosy では Digdag + Athena によるデータ整形が増えてきており,徐々に Spark の利用は減ってきています. 思い返すと,昨年入社後の OJT も Spark から Digdag + Athena への書き換えタスクでした. 一方で,決して多くはないものの,この構成ではカバーし切れない処理もあり,そういったものに関しては Spark を用いています. 話は少し飛びますが,DRE Team では Digdag や派生するバッチ処理を実行するための Kubernetes Cluster を EKS 上に構成しています. また,一部のタスクは Kubernetes の Job として Digdag から投げることで,リソースをスケールさせつつ様々な処理が可能となっていま
こんにちは、研究開発チームの飯塚です。3/1~3/3にオンラインで行われた、第13回データ工学と情報マネジメントに関するフォーラム(DEIM2021)に参加しました。 今年のDEIMは、現地参加と遠隔参加が選べるハイブリッド開催を予定しておりましたが、昨今のコロナウィルス感染症対策の観点から、今年も完全オンラインで行われました。 今回の参加者総数は、オンライン開催ということもあり1099人と過去最高だったようです。 Gunosy社としては、DEIMに2017年から参加しており、5年目の今年はスポンサーとしての協賛と一般発表/技術報告を行いました。 db-event.jpn.org 発表の振り返り 一般発表 ニュースキュレーションメディアデータを用いたユーザのイデオロギーの特定とそのユーザ閲覧行動傾向分析方式 本発表は東京財団政策研究所の機械学習チームとの共同研究として行われたものです。 当
こんにちは、株式会社Gunosy新卒一年目の谷口です。3月15日〜3月19日に開催された言語処理学会第27回年次大会(NLP2021)に弊社からも「ポスター発表」・「スポンサーイブニング」・「ワークショップ登壇」という形で参加しました!本記事ではそちらについて述べていきます。 今年も一般参加者が集まるのは難しいということで、前年に引き続きオンラインによる開催でした。私自身、オンラインの学会に参加するのは初めてのため少し緊張と不安があったのですが、運営の方々のご尽力のおかげで滞りなく参加することができました。しかし、開会式でがらんとした会場が映し出されたときは何とも複雑な感情がこみ上げてきました。いつか皆さんと画面を通さずにお会いできることを心待ちにしております。 ポスター発表 「扇情的な記事判定に向けた定義作成とアノテーション」というタイトルで論文を投稿し、ポスター発表で参加しました。ニュ
こんにちは。Gunosy TechLab MediaMLチーム所属の桾澤 (@gumigumi4f) です。 前回の記事に引き続き、グノシーのパーソナライズアルゴリズムを刷新した話について、アーキテクチャの部分を説明したいと思います。 前回の記事から読んでもらえると、パーソナライズの全体像が見えるのでおすすめです。 data.gunosy.io パーソナライズに求められるレスポンスタイム アーキテクチャ ユーザーと記事のベクトル生成とデータストアへの保存 ユーザーリクエストに対し適切な記事リストを生成する処理 どれくらい高速なのか おわりに パーソナライズに求められるレスポンスタイム 前回の記事ではモデルの学習方法やオフラインでの実験などをメインに説明してきましたが、オンラインで実際にA/Bテストするときに考えなければいけないのがレスポンスタイムです。 ユーザーに対して完璧にクリック非クリ
こんにちは。Gunosy TechLab MediaMLチーム所属の桾澤 (@gumigumi4f) です。 この記事では、弊社で配信しているニュースアプリであるグノシーのパーソナライズアルゴリズムを刷新した話について書きたいと思います。 アーキテクチャの部分まで含めて記事にしてしまうと非常にブログが長くなってしまうので、本記事ではリアルタイム性の高い重要なニュース記事についてどのようにレコメンドするかについて注目して述べます。 アーキテクチャの部分についてはブログ後編のアーキテクチャ編にて書きたいと思います。 後編はこちら data.gunosy.io ニュースアプリのパーソナライズ グノシーにおける旧来のパーソナライズアルゴリズムとその課題 グノシーの新しいパーソナライズアルゴリズム オフライン実験とA/Bテスト おわりに ニュースアプリのパーソナライズ グノシーというニュースアプリで
はじめに おはようございます、BIチームの齊藤です。 この記事はGunosy Advent Calendar 2020の22日目の記事です。昨日の記事は板谷さんによるFitbitのカスタムレポートを作成してLINEに通知する でした。 はじめに 背景 ユーザーインタビューとユーザーテスト ユーザーインタビュー ユーザーテスト おわりに 背景 プロダクト開発では、「このプロダクト / 施策によってユーザーが〇〇という課題が解決されるのではないか?」「この改修を入れればユーザー体験は良くなるのでは?」などの仮説を持って開発を行うことが一般的です。しかし、ある課題に対する施策やアプローチの候補というものは大量に存在します。これらの中から 「う〜〜〜んこれが最高!これしかありえない!!!はい実装即リリース!!!!!」 と施策を選び取ることは常人には不可能です。そこで、単一または複数の施策に対して効
本記事は、Gunosy Advent Calendar 2020 19日目の記事です。 昨日はサンドバーグさんの Amazon AthenaのPartition Projectionを使ったALB Access Logの実例 (w/ terraform & glue catalog) - Gunosy Tech Blog でした。 こんにちは、GTL(Gunosy Tech Lab) 所属のクボタです。 社内では主にニュースパスというアプリの分析などを行なっています。 本記事ではA/Bテストの実施が難しい場面でチームでも利用している因果推論による効果検証について簡単に紹介させていただきます。 はじめに Gunosyではアプリ内でのロジックやUIの変更、キャンペーンなどの施策においてデータに基づく効果検証をしています。 効果検証では分析対象の施策起因による変化である因果効果のみを求めたいです
はじめに こんにちは、研究開発チームの関です。 2020年もまもなく終わりを迎えますね。皆さんどんな一年だったでしょうか。 私にとってはアイドルのライブがほとんどなく、生きがいの一つがなくなって辛い一年でした。 オンライン特典会やライブ配信で名前を読んでもらうことを楽しみに生きる日々です。 空いた時間でリアル脱出ゲーム・謎解きに夢中になり、この一年で約40公演に参加しました。 本記事は、Gunosy Advent Calendar 2020 16日目の記事です。 昨日はQAチームakinkさんの 歴史と向き合い既存機能の棚卸しをした話 - Gunosy Tech Blog でした。 本エントリでは昨年に引き続き今年も研究開発チームの振り返りをしていきたいと思います。 昨年の記事はこちらです。研究開発チームの立ち上げの経緯なども書いているので、まだ読んでいない方はよろしければこちらも合わせて
本記事は、Gunosy Advent Calendar 2020 12日目の記事です。 昨日はGTL所属の山本さんの「Terraform のエラーに落ち着いて立ち向かうために - Gunosy Tech Blog」でした。 GTL(Gunosy Tech Lab) 所属の大曽根です。オンライン会議は耳が痛くなるのでスピーカー+指向性マイクで運用しています。ダイナミックマイクは不要な気がしてきました。 はじめに Gunosy (に限らず多くの企業) では、日々の施策の解釈にデータを活用しています。 しかし、データを集計するだけで結果がわからないこと (解釈の難しさ) や結果がわかりやすくても回答を見誤ることも多くあります。 その中で気をつけないといけない部分に関してざっくりまとめます。 基本のサイクル まず、非常によく使われる、仮説から検証可能なモデルを作成し、計測、学習する改善のサイクルで
Gunosy Tech Lab リサーチインターンの北田 (@shunk031)です。 深層学習の論文を読んでいるときに著者実装が公開されている旨を見ると嬉しい気持ちになりますよね。 いざ公開レポジトリに飛んだ瞬間その嬉しさは無となることが多いですが、くじけずにやっていきたいです。 著者実装のrequirements.txtをベースにpythonモジュールをインストールするとよく見るやつ こちらの記事は Gunosy Advent Calendar 2020 6日目の記事です。昨日は @625 さんの goで作るfirehoseのデータ変換lambda でした。 tech.gunosy.io その実験、再現できますか? リサーチインターンでは主にGunosyのデータを使った研究をしています。 特に私は深層学習による広告クリエイティブの評価や運用支援に焦点を当てて取り組んでいます*1。 深層
はじめに こんにちは!Gunosy Tech Labのコウ(@yuanzhi.ke)です。2020卒です。9月にようやく博士課程を修了し、正式に入社させていただきました。今はグノシーのクーポン推薦のロジック開発をしています。 こちらの記事は Gunosy Advent Calendar 2020 の4日目の記事です。 昨日の記事は片木(@jkatagi)さんの AWS Gamedayに参加した話 でした。 今日の話は、クーポンロジックの改善についての話です。とはいえ、僕はIR分野のサマースクールを一回参加ぐらいの経験しかなく、入社当時は推薦システムの分野の初心者です。この記事では、クーポンロジックの改善のために、初心者である僕のサーベイと感想をできるだけわかりやすくまとめてみました。間違ったところや不明なところがあれば、コメントください。 クーポン推薦について 皆がご存知でしょうと思います
はじめに こんにちは、GTL Media ML チームの谷口(2020新卒)です。本記事では、現在私が関わっているプロジェクトの一つである「扇情的な記事の判定」についてお話しします。 現在当社では、中長期的な成長を見込んで、アプリで提供するニュース記事リストの健全化を進めるという方針をとっています(詳しくは東洋経済ONLINEでの当社インタビュー記事をご参照ください)。そして、その方針に沿った複数の施策が行われています。私はその一つである、扇情的な記事を自動で判定してリスト生成に活用するという試みに携わっています。 toyokeizai.net 実際にどのようなことを行ったか 1. 扇情的な記事とはなんなのか、その定義を決める この施策は、 扇情的な記事とは一体何なのか ということを検討するところから始まりました。実際に記事を分析しながら扇情的な記事の分類を定義していきます。ここで難しいの
はじめに こんにちは、GTL Media ML チームの上村です。新卒ブログ第2弾は私が本番環境でやらかしちゃった話を紹介します。 誰かの責任が...みたいな重い話ではなく、こういうパターンもあるから気をつけようね、というお話なので教訓程度に捉えてください🙆♂️ 第1弾の記事、内田くんの「新卒研修編」はこちらです。こちらも合わせて読んでみてください。 data.gunosy.io GTL Media ML チームでは、 アプリのエンハンスを行うべく、ニュース配信の推薦ロジックの改善を行っています。 ロジック改善では、ユーザログを分析して得た仮説に対して、ABテストを行い、検証することで開発を進めています。 ABテストの設計と運用についてはこちらを参考にしてください。 data.gunosy.io 入社して4ヶ月程度経った頃、ロジック改善を行うべく、機能実装を行っていた時のお話です。 実
はじめに こんにちは、今年の4月に新卒として入社しGunosy Tech Lab(GTL) Media MLチームに配属されました内田です。本記事より全3回に渡り新卒ブログを掲載していくことになりましたので、その第1弾です。本記事では、主に新卒研修で取り組んだことについて紹介していきます。 新卒メンバー 今年度は、17名の新卒社員がおり、ビジネス職8名、エンジニア職9名といった内訳です。特にエンジニアはメディア記事、広告、新規事業開発に分かれており、個々の業務内容としては、 メディア記事:ニュース記事配信ロジックの改善 広告:広告配信ロジックの改善 新規事業開発:新規事業の開発(Guhackなど) のようになっています。 新卒研修 (4,5月) 新卒研修では、各部門の業務説明やビジネスマナー講師によるグループワークが行われました。基本的には、午前中の1~2時間が研修の時間に当てられ、午後は
はじめに こんにちは、20卒 Gunosy Tech Lab 所属の上村です。 Gunosy Tech Labでは、グノシー・ニュースパス・ルクラなどで用いられる記事配信ロジックのアルゴリズム改善を行っています。 Gunosyではニュース記事をベクトルで表現し、様々なロジックに組み込むことで、ユーザ体験の向上を図っています。 活用事例に興味がある方はこちら data.gunosy.io 今回は、記事ベクトルを定量的に評価する手法を紹介していきます。 性能評価の手法として、単語ベクトル評価用データセットのような、 公開されたデータセットを用いて作成した文章ベクトルの評価を行うことはできますが、 独自のサービスのデータから生成したベクトルをそのサービスレベルで評価することは難しいです。 というのも、ドメイン(この場合はサービス)に特化した文章ベクトルはそれぞれ異なるはずであるため、 オープンな
次のページ
このページを最初にブックマークしてみませんか?
『Gunosyデータ分析ブログ』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く