shunk031のブックマーク (182)

  • ブレインパッドでの8年間を振り返って - 毎日がEveryday、日々 Day by Day

    新卒から約8年勤めたブレインパッドを3月に退職しました。 「受託分析」という生存/スケールが難しい事業分野で、ブレインパッド社は着々と大きくなり、そこでデータサイエンティストとしてファーストキャリアを過ごせたことは今後の僕の仕事への価値観/方法論に大きく影響を与えたのだろうと思っています。 なので8年経って思い至ったことを忘れないうちにブログにメモしておこうと思います。 新しい職場でこの考えをアップデートしたり壊したりしていきたい。 僕がいた2015年~2023年の激動のデータ/AI分野の業界の流れについてはこちらのpodcastでも話したので良かったら聞いてください🙂 open.spotify.com ※なお、全ての行末には「知らんけど」が省略されていることをご了承ください。 データ分析仕事 「問題の抽象化・構造化」の価値がますます高くなっている 「現実がこい」: DXとはなんだった

    ブレインパッドでの8年間を振り返って - 毎日がEveryday、日々 Day by Day
    shunk031
    shunk031 2023/04/02
  • エンジニアや研究者からマネージャーや経営者になる時の不安について - 人間とウェブの未来

    自分は元々とにかく技術志向のエンジニアであり研究者であった。とにかくコードを書いたり論文を書いたりすることが生き甲斐であった。 そんな自分が数年前に色々考えた結果、マネージャーや経営者の道を志すようになったのだが、その際によく聞かれることがある。「技術を中心にやれなくなる不安や葛藤はなかったんですか?」と。 その答えとしては「その不安や葛藤はない」である。なぜかというと、マネージャーや経営者に強烈な専門性を感じているからだ。勉強すればするほど、あれ、これはエンジニアや研究者の時にやっていた学び方とほとんど変わらないのではないか、と思えているからである。 おそらく僕自身も、かつてはマネージャーや経営者に専門性を見出せておらず、エンジニアからそうなることは考えてもいなかった。むしろ、技術者としての諦めのような風に捉えていたかもしれない。しかし、自分がそこに身を置くにつれて、全くもって雰囲気で適

    エンジニアや研究者からマネージャーや経営者になる時の不安について - 人間とウェブの未来
    shunk031
    shunk031 2022/11/02
  • CIKM2022 参加報告 - May the Neural Networks be with you

    こんにちは。@shunk031 です。 10 月 17 日から 21 日の 5 日間にアメリカ・アトランタで開催された CIKM2022 に現地参加して発表をしましたので、その参加報告をします。 https://www.cikm2022.org/ 今回、共著 (2nd author) として採択された short paper のポスター発表を行いました。 1st author の 中川さん が執筆した参加報告は こちら です。 今回発表した研究と聴講して特に印象に残った発表を紹介した後、現地の様子なども合わせて説明します。 https://dl.acm.org/doi/10.1145/3511808.3557599 CIKM とは CIKM にて発表した内容について 印象に残った研究発表 [Full paper] Towards Understanding the Overfitting

    CIKM2022 参加報告 - May the Neural Networks be with you
    shunk031
    shunk031 2022/10/24
    書きました!とても面白い発表ばかりで楽しめました。記事後半はアトランタ観光を全力でやってます🤣
  • 最近のニュース記事推薦手法まとめ 〜固有表現の利用から多様性の向上まで〜 - Gunosyデータ分析ブログ

    はじめに 他ドメインと比較したニュース記事推薦の特徴 1. ライフサイクルの短さがもたらすコールドスタート問題 2. 深い言語理解の必要性 3. 明示的なフィードバックの利用の難しさ トピック別ニュース記事推薦手法 記事の人気度合い(popularity)の考慮 概要 既存研究 固有表現(Named Entity)の明示的な考慮 概要 知識グラフと知識グラフ埋め込み 既存研究 リッチな言語表現の利用 概要 既存研究 明示的なユーザーフィードバック・post click指標の利用 概要 既存研究 ユーザーの興味をより正確に捉えるアーキテクチャ 概要 既存研究 今後のチャレンジ おわりに はじめに こんにちは、Gunosy Tech Lab (GTL) Media ML チームの大竹です。Gunosyでは「情報を世界中の人に最適に届ける」というミッションのもと、グノシー・ニュースパス・LUCR

    最近のニュース記事推薦手法まとめ 〜固有表現の利用から多様性の向上まで〜 - Gunosyデータ分析ブログ
    shunk031
    shunk031 2022/10/11
  • 論文の書き方 - ジョイジョイジョイ

    どのようにして論文を書いているかを尋ねられることが最近よくあります。場当たり的に回答することが多かったのですが、このことについて改めてしっかり考えて公開することにしました。 ここで扱う内容は、科学者とはこうあるべき、という理想論ではなく、等身大の大学院生がいかにして論文を捻りだすかという実践的な方法論です。科学者の規範に照らすと適切ではない内容もあるかと思いますがご容赦ください。その代わり、現役の大学院生にとってはただちに活用できる内容になったと思います。 以下では時系列に沿って各段階の方法について述べていきます。 アイデアを考える まずは論文のアイデアを収集します。僕は普段からネタ帳にアイデアを書き溜めていき、論文を書こうと思い立ったタイミングでその中からアイデアを一つ(または二つの組み合わせ)を選んで作業をはじめます。 どのようにアイデアを得るかはあまり一貫性がありません。ここでは代表

    論文の書き方 - ジョイジョイジョイ
    shunk031
    shunk031 2022/09/27
    "既存論文に書かれている言い訳を覆す方法"を考えると自ずと新規性が出るというのは、たしかにそうだなと思いつつ、やるの大変ですね 😂
  • M1 MacのDockerでChromiumを使ったFeature Specを動かす - Gunosy Tech Blog

    はじめに 元々の構成 Google Chromeが異常終了する QEMUでSegmentation Fault arm64向けのGoogle Chromeはない 別コンテナでChromiumを起動する Chromiumを動かすDockerイメージにseleniarmを使う CapybaraでリモートドライバとしてChromiumを指定 Capybaraのリモートドライバ設定 ホストとポートの固定 ファイルダウンロードテストのためにvolumeを共有 まとめ 参考記事 はじめに こんにちは。広告技術部のjohnmanjiroです。普段は広告配信のAPIや管理画面を作っています。ピーナッツくんのライブに現地参戦したのがここ最近で一番楽しかったです。 Gunosyでは、社員が使っているPCが古くなってきたタイミングで新しいものへ置き換えるPCリプレースを行っています。今回私もリプレースの対象にな

    M1 MacのDockerでChromiumを使ったFeature Specを動かす - Gunosy Tech Blog
    shunk031
    shunk031 2022/07/17
    M1 mac で selenium まわり動かないのを、別コンテナで seleniarm 動かしつつ、remote driver でそのコンテナを指定するやり方。参考になる!
  • なぜ今シェルスクリプトを学ぶのか・シェルスクリプトのTips - 理系学生日記

    会社の中でシェルスクリプトについての話をすることにしたので、このエントリはそのためのものです。 個人的な好みとかもいろいろ入ってしまっているので、そのあたりは取捨選択してください。 なぜ今シェルスクリプトを学ぶのか 公開されているSREをマルっとPDF化する SpotBugsのViolationレポートをMerge Requestのコメント投稿する ぼくの互換性についての考え方 何で書くか シェルスクリプトをうまく書くには ShellCheckを使う バッドパターンとその修正 line-by-lineの処理が多い lsを使う ls /directory | grep mystring ls | grep -v 'log$' lsの結果をループさせる 良いシェルスクリプトを書くためのTIPS set -euする 文字列は基的にクオートする 局所変数にはlocalを使う 定数は読み取り専用

    なぜ今シェルスクリプトを学ぶのか・シェルスクリプトのTips - 理系学生日記
    shunk031
    shunk031 2022/05/01
    パラメータ展開まわりが便利そう。今度使ってみたい
  • リサーチインターンの成果が紆余曲折を経て国際論文誌 Applied Sciences 誌に採録されるまで - Gunosyデータ分析ブログ

    こんにちは。Gunosy TechLab R&D チーム リサーチインターン の北田 (shunk031) です。今回はようやく皆様にお見せできる、可愛い我が子(もちろん研究のことです)について書きます。 今回採録された論文の全体像:広告クリエイティブを最適なタイミングで停止するよう支援する深層学習を元にした枠組みを提案しました。 この度、私と研究開発チームの 関さん で取り組んでいた研究が MDPI 社が発行する Applied Science 誌 という論文誌 (査読付き journal article) に掲載されました。 www.mdpi.com 今回の論文は "Ad Creative Discontinuation Prediction with Multi-ModalMulti-Task Neural Survival Networks" というタイトルで、 配信効果が悪くなっ

    リサーチインターンの成果が紆余曲折を経て国際論文誌 Applied Sciences 誌に採録されるまで - Gunosyデータ分析ブログ
    shunk031
    shunk031 2022/04/15
    Gunosyリサーチインターンの成果が論文誌に採録されるまでの話を書きました。2019年9月から始めた研究で、数多の苦労がありましたがようやく出版できました。研究内容はもちろん、採録までの軌跡を紹介しております!
  • 博士後期課程に行くか延々悩んだ結果やめた - kuri8iveにいきてこ。

    こんにちは,@kuri8iveです. 進学を検討していた背景ややめた理由などを書き留めておきます. 一言で言うと なぜ博士後期課程進学を検討していたか 身近に尊敬できる博士がいた 研究のプロセスが好き 研究コミュニティが好き じっくり学問と向き合う時間を確保できそう 小さくとも世界一詳しい領域を持ってみたかった 国外就職の可能性を広げられる 今なら身軽 検討するにあたって何をしていたか 話をたくさん聞いた ブログを読んだ を読んだ なぜやめたか 心身健康な博士後期課程生活を送れる気がしなかった 内定と学振(かも)では比較できなかった 学振を取れると確信できるテーマを考えつけなかった 妹に借金させたくなかった 仕事が楽しそう その他 おわりに 参考文献 一言で言うと 奨学金の借金が700万くらいあり、学振や各種支援制度を勝ち取れそうな能力や実績がない私にはD進する勇気が出なかった— るいす

    博士後期課程に行くか延々悩んだ結果やめた - kuri8iveにいきてこ。
    shunk031
    shunk031 2022/01/31
    僕の怪ツイートが大々的に引用されていて何というか申し訳ない気持ちに…。これだけちゃんと博士進学について考えていたら、もしかしたら僕も進学してなかったかもしれないです(特に何も考えずにD進してしまった)
  • AdKDD & KDD 2021 に参加しました - Gunosyデータ分析ブログ

    こんにちは。 GunosyTechLab の Ads ML チームの村田 (id:marice0819) です。ELDEN RING を PS5 でプレイしたいので PS5 を求めてるこの頃です。 こちらの記事は Gunosy Advent Calendar 2021 の14日目の記事です。昨日の記事は ism-kit さんの「Athena view と Terraform による宣言的データモデリングとレイクハウスへの道標」でした。 今年の8月14日~8月18日にシンガポールで開催されていた KDD 2021 のワークショップである AdKDD に主に参加してきました。この記事では参加レポートとして KDD、AdKDD のアドテク関連の発表を中心にいくつかの研究と Keynote の紹介をしたいと思います。 AdKDD True Post-Click Conversion via Gro

    AdKDD & KDD 2021 に参加しました - Gunosyデータ分析ブログ
    shunk031
    shunk031 2021/12/15
    ML x 広告のワークショップといえば AdKDD ですね!今年の AdKDD も面白いトピックが盛り沢山だったみたいです👀
  • ニュース記事の品質と広告効果の関係についてCIKM2021で発表を行いました - Gunosyデータ分析ブログ

    こんにちは、研究開発チームの飯塚です。11/1~11/5にオンラインで行われた、CIKM2021に発表参加しました。CIKMとはACM International Conference on Information and Knowledge Managementの略称で、機械学習やWebマイニング、情報検索/推薦といったトピックを扱う国際会議の1つです。今年のCIKMも、新型コロナウィルス感染症対策の観点からオンラインで開催されました。Gunosy社として、このCIKMに参加するのは初めてでした。記事では、今回投稿した論文の経緯や概要、ニュースに関する他研究者の発表の一部をご紹介します。 投稿論文 近年オンラインメディアでは、タイトルや画像などを誇張したクリックベイト記事、ユーザーをミスリードするような釣り記事の問題が指摘されています。また、推薦システム側の問題としては、パーソナライゼ

    ニュース記事の品質と広告効果の関係についてCIKM2021で発表を行いました - Gunosyデータ分析ブログ
    shunk031
    shunk031 2021/11/16
    Gunosy から CIKM'21 採択論文!!
  • 「施策デザインのための機械学習入門」が素晴しい内容だった

    読んだので感想を書きます。「手元のデータに当てはまりの良い予測モデルを番適用してもビジネス的に良い結果が得られない」という現場で頻発する課題に対して明快なアプローチと手順を示しており、機械学習がワークするために必要な要素がクリアになりました。 施策デザインのための機械学習入門〜データ分析技術のビジネス活用における正しい考え方 技術評論社 (2021/7/30) 齋藤 優太 (著), 安井 翔太 (著), 株式会社ホクソエム (監修) Kindle版/紙版両方あり 目次と構成 はじめに1章 機械学習実践のためのフレームワーク2章 機械学習実践のための基礎技術3章 Explicit Feedbackを用いた推薦システム構築の実践4章 Implicit Feedbackを用いた推薦システムの構築5章 因果効果を考慮したランキングシステムの構築付録A 演習問題感想著者はまず1章で機械学習の実践で

    「施策デザインのための機械学習入門」が素晴しい内容だった
    shunk031
    shunk031 2021/11/14
  • Google Cloud Storage(GCS)でうっかり30万以上溶かした話 - のんびりしているエンジニアの日記

    皆さんこんにちは。 コンペで頑張ったので疲れました。 さて、Google Landmark 2021が終了し、Retrieval5位(金)、Recognition12位(銀)となりました。 日は自戒と反省により、クラウドで30万円消失した話を 記録として書こうと思います。皆さん私を見て反面教師にしてください。 事象 9月入ってからLandmark2021に参加し、Google Cloud Platform、通称GCPを利用していた。 主な利用はGoogle Cloud Storageのみで、ほぼ容量課金だろうと高をくくっており、課金請求の上限など入れ忘れてました。 すると9/18に久々に請求額を確認すると32万ほどの請求額がありました。 さすがに目玉が飛び出て、調査にあたったといったものになります。 課金内容を確認したら原因はすぐにわかり、チームで対策を打ちました。(私が慌てて学習にスト

    Google Cloud Storage(GCS)でうっかり30万以上溶かした話 - のんびりしているエンジニアの日記
    shunk031
    shunk031 2021/10/02
    Kaggleのチームでメンバー同士が違うリージョン使っていて特に大陸間の通信が大幅な課金になってしまった事例、普通に気づかなそう。課金アラートの設定は重要
  • BERTによる日本語固有表現抽出の精度改善 〜BERT-CRFの紹介〜 - Sansan Tech Blog

    こんにちは、DSOC R&Dグループ インターンの笛木正雄です。大学院では離散最適化の研究室に所属しています。インターンでは、日々、知らないことだらけで、色々なことを経験させていただき、伸びしろを実感する毎日です。 現在は、SansanやEightのニュース配信に使用されている固有表現抽出(文章中から組織名を抽出するために使用)と呼ばれる自然言語処理タスクに携わっています。今回は、これまで取り組んだ固有表現抽出における精度改善の手法を紹介したいと思います。ありがたいことに、この手法は現在、プロダクトで実際に稼働しているため、思い入れのある手法です。 また、今回の手法を含め、日語固有表現抽出については、コード公開を予定しており、pipでインストールできるように現在進行中です。ご興味ある方は、お待ちいただき、合わせてご覧いただければ幸いです。 ※弊社のニュース配信における固有表現抽出タスクの

    BERTによる日本語固有表現抽出の精度改善 〜BERT-CRFの紹介〜 - Sansan Tech Blog
    shunk031
    shunk031 2021/09/21
  • エムスリー AI・機械学習チームのSIGIR'21推し論文を紹介するぜ! - エムスリーテックブログ

    エムスリーエンジニアリンググループ AI機械学習チームでソフトウェアエンジニアをしている中村(@po3rin) です。 好きな言語はGo仕事では主に検索周りを担当しています。 エムスリー のAI機械学習チームでは情報検索論文輪読会を隔週で行っています。MLエンジニアだけでなく、ソフトウェアエンジニアも参加しているのが弊社の論文読み会の特徴で、専門関係なくチーム全体で情報検索/推薦に関する知識を高めていく場になっています。 最近、情報検索論文輪読会の特別企画としてSIGIR'21ワイワイ祭を開催しました。各々が1つのセッションを選び、そのセッション内の全ての論文をまとめて発表する祭です。今回はAI機械学習チームメンバーが担当したセッションごとに、推し論文の紹介をしていきます。 Optimizing Dense Retrieval Model Training with Hard Ne

    エムスリー AI・機械学習チームのSIGIR'21推し論文を紹介するぜ! - エムスリーテックブログ
    shunk031
    shunk031 2021/09/21
  • Kaggleで学んだBERTをfine-tuningする際のTips②〜精度改善編〜 | 株式会社AI Shift

    こんにちは AIチームの戸田です 記事では前回に引き続き、私がKaggleのコンペティションに参加して得た、Transformerをベースとした事前学習モデルのfine-tuningのTipsを共有させていただきます 前回は学習の効率化について書かせていただきましたので、今回は精度改善について書かせていただきます データ 前回に引き続きKaggleのコンペティション、CommonLit-Readabilityのtrainデータを使います validationの分け方などは前回の記事を参照していただければと思います 精度改善 一般的なニューラルネットワークモデルの精度改善方法として、ハイパーパラメータのチューニングやData Augmentationが上げられますが、ここではBERTを始めとするTransformerをベースとしたモデル(以降Transformerモデル)特有の工夫について

    Kaggleで学んだBERTをfine-tuningする際のTips②〜精度改善編〜 | 株式会社AI Shift
    shunk031
    shunk031 2021/09/07
  • 研究で詰まっている時におススメな本 - Seitaro Shinagawaの雑記帳

    こんにちは、品川です。 学生さんが自分の研究の進め方に悩んでいるのを最近(通年)よく見ます。例えば、何をしたら新規性が出るのかとか、指導教員との研究議論や進捗報告のコミュニケーションがうまくいかないといったことです。 こういうところで苦しんだり悩むようになるのは成長の証でもあると思っていて、「ああ~~成長しているんじゃ~~もっと成長した姿を見せてくれ~~」と嬉しくなってしまいますが、具体的な行動としてどのような選択肢をとれば改善できるのかが頭にないと、ただ悩んだだけで何も解決しない可能性もあります。私もできた学生ではなかったので、学生時代ずいぶん四苦八苦していたのですが、そんな中で、私が学生時代に読んでいたor読みたかった書籍で特にためになったを5冊紹介したいと思います。こういう方法もあるんだということを知ることで、この記事を読まれた学生さんの気持ちが少しでも楽になれば幸いです。 新規性

    研究で詰まっている時におススメな本 - Seitaro Shinagawaの雑記帳
    shunk031
    shunk031 2021/08/29
  • Gunosy のデータ活用を支える統合データ基盤 Baikal の話 - Gunosy Tech Blog

    はじめに Baikal について Baikal を支える技術と工夫 AWS アカウント Terraform ワークフロー基盤 Athena Lake Formation アーキテクチャ Extract & Load データ生成元 AWS アカウントにある RDS からデータ抽出 データ生成元 AWS アカウントにある DynamoDB からデータ抽出 社外の API からデータ抽出 Transform workspace に配置されたデータの変換 データ生成元 AWS アカウント内の生ログ変換 ウェアハウス内での加工 Share 今後の課題 開発の一部を他チームへの委譲 データ異常検知 BI ツールの導入 はじめに DRE チームの hyamamoto です。 新卒の方々が入社されて 4 ヶ月ということで、時の流れの速さを感じています*1。なお、現在、新卒の方々でリレー方式でブログを書いて

    Gunosy のデータ活用を支える統合データ基盤 Baikal の話 - Gunosy Tech Blog
    shunk031
    shunk031 2021/08/13
  • Gunosyに残した研究ができる研究開発チーム | Gunosy

    はじめにこんにちは、Gunosy Tech Lab 研究開発チームでマネージャーを務めていた関 喜史です。 Gunosyの共同創業者でもあります。 最近のVTuberにハマり始めていきます。推しは星街すいせいですが、最近は毎日にじさんじ甲子園を追いかけています。 この度2021年8月末日でGunosyを退職して、新たなチャレンジをしていくことになりました。 この記事では、私が退職するにあたり、Gunosyでやってきたことを特に研究開発チーム作りを中心に紹介し、今回会社を離れることになった経緯や、今後の研究開発組織の展望にを述べます。 Gunosyでやってきたことまずは私のGunosyでやってきたことを簡単に紹介したいと思います。 創業当初は以下のように推薦システムとデータ分析を中心に仕事をしていました。 2011年、修士1年の夏休みに同級生の福島・吉田と開発を開始、主に推薦システムのアルゴ

    Gunosyに残した研究ができる研究開発チーム | Gunosy
    shunk031
    shunk031 2021/08/02
    関さんの「よく知られているタスクの性能を競い合うのではなく、どの問題を解くべきかを強く主張し新しく提案する...(略)」という考え、一緒に論文執筆したときにも意識しました。研究とはまさにこの事ですよね。
  • Github Actionsの個人的ユースケース備忘録 | DevelopersIO

    はじめに Github Actionsで色々なフローの自動化に取り組んで一番大変だと感じているのは、目的とするデータをコンテキストのどこから取れるのか見つけるところです。 公式ドキュメントも正直目的の情報に辿り着きやすいとも言えず、StackOverFlow等のFAQフォーラムも類似した質問が多くありすぎて逆に絞るのが大変となる繰り返しでした。 私自身で頻繁に用いそうなものを中心に、調査の手間を省くために備忘録として書き出してみました。2020年5月26時点のデータとなります。 各コンテキストについて 利用可能なコンテキストは以下の8つです。公式ドキュメントが個人的にやや見難いため、必要なところだけを抜粋しました。 github workflowの情報にアクセスする用途 env workflow、job、stepの環境変数にアクセスする用途 job jobの情報にアクセスする用途 step

    Github Actionsの個人的ユースケース備忘録 | DevelopersIO