shunk031のブックマーク (182)

  • Nature に筆頭で出して、英国でパーマネントの職も得たけど、やりがいがなくなったので辞めます - biochem_fanのブログ

    はじめに 専門家としてのアイデンティティ 分野の雰囲気の変化 コモディティ化と専門家の役割の低下 商業化・特許・ブラックボックス シェアの低下 計算資源の不足 新しい IT 技術を習得できない 小回りがきかない 同僚や分野の関心との乖離 他人事になってしまった 自分の存在意義を信じられない 今後の方針 可能性 1: 日の電顕施設での解析支援とその問題 可能性 2: 電顕施設ではなく(生)化学系グループへ所属する 可能性 3: 仕事だと割り切って企業に行く おわりに 追記とコメント返信 変更履歴 はじめに 筆者*1は構造生物学(X 線回折と電子顕微鏡単粒子解析)のためのプログラム開発とデータ処理を専門としている。昨年、英国の研究機関にて任期なしの investigator scientist ポストに昇進し、Nature に筆頭著者として論文を出し、年間被引用数 1850 以上、h-ind

    Nature に筆頭で出して、英国でパーマネントの職も得たけど、やりがいがなくなったので辞めます - biochem_fanのブログ
    shunk031
    shunk031 2021/06/05
  • Docker rootlessで研鯖運用 - drgripa1

    複数人で共有して使う研究室のサーバでは、rootfulなDockerを用いると権限周りでさまざまな問題が発生します。 Docker rootlessで権限関係の諸問題を解決し、最強の研究室サーバ環境を作りましょう。 筆者の研究室の環境 Docker rootlessとは Set Up 前提 管理者が一括で行うこと 必要なパッケージのインストール Dockerのインストール nvidia-docker2のインストール uidmapの設定 各ユーザで行うこと 運用上のtips data-rootの場所 DOCKER_HOST環境変数の一括設定 subuid/subgidの一括設定 セットアップの自動化 ファイルの所有権 さいごに Special Thanks 筆者の研究室の環境 筆者は東京大学 相澤・山肩・松井研、山﨑研で、院生鯖缶をしています。コンピュータビジョン・マルチメディアを主な研究分

    Docker rootlessで研鯖運用 - drgripa1
    shunk031
    shunk031 2021/05/08
    弊研でも真似したいやつだった。試してみたい。
  • 「Stack Overflow の機械翻訳サイトの除外用フィルタ」の管理をしていてわかったこと - くじらにっき++

    こんにちは。ublacklist-stackoverflow-translation を管理している @shora_kujira16 です。 github.com このリポジトリはよく目につく Stack Overflow の機械翻訳サイトがまだ両手で数えられるほどしかなかった2019年10月に公開を始めたものです。利用者数を計測することはできていないのですが、GitHub のスターの数などから推測するに今年の1月ごろから多くの方にご利用いただいているようです。 リポジトリを公開してから1年半ほど経ち、今では多くの方から継続的にプルリクエストをいただくようになりました。この記事ではこのリポジトリを管理していてわかったことや今後の展望についてまとめます。 対象ドメインの数 「Stack Overflow 機械翻訳」のようなキーワードで Twitter を検索してみることがあるのですが、リポジ

    「Stack Overflow の機械翻訳サイトの除外用フィルタ」の管理をしていてわかったこと - くじらにっき++
    shunk031
    shunk031 2021/05/04
    いつもお世話になっているuBlacklistフィルタの話.
  • コスメプラットフォームLIPSと広告クリエイティブ: 最新の研究事例から見る広告クリエイティブの作成支援と自動生成 - AppBrew Tech Blog

    こんにちは @shunk031 です。 ご縁があって appbrew Tech Blog へ記事を寄稿しました *1。 今回のお話は、私が取り組んでいる研究分野の 1 つである「機械学習と広告クリエイティブ *2」を特に評価していただき実現しました。 ここで簡単に、記事の著者である私の自己紹介をします。私は以下のような自然言語処理の研究を中心に進めております: 基礎研究: 深層学習モデルによる解釈可能な自然言語処理 *3 応用研究: 自然言語処理等による広告クリエイティブの評価や生成 *4 今回こうしたバックグラウンドから、 AppBrew の LIPS において商品推薦を広告宣伝の観点から議論・相談を受ける形でお仕事をさせていただきました。 記事では、機械学習による広告クリエイティブ作成支援の観点から、最新の研究事例について紹介し、議論することが目標です。 特に AppBrew が

    コスメプラットフォームLIPSと広告クリエイティブ: 最新の研究事例から見る広告クリエイティブの作成支援と自動生成 - AppBrew Tech Blog
    shunk031
    shunk031 2021/04/28
    AppBrewさんに声を掛けていただいて寄稿しました。機械学習x広告クリエイティブの最新の研究事例のほか、実際に広告プロダクトとして運用している中国のAlibabaやTencentの事例を取り上げました
  • gokart 1.0.0 をリリースしました - エムスリーテックブログ

    はじめに はじめまして。エムスリー AI機械学習チームの河合(@vaaaaanquish)です。 記事投稿日と同日、エムスリーが開発しているOSSのうちの1つであるgokartのversion 1.0.0をリリースする運びとなりました。 記事は、これまでのgokartの軌跡と成果を紹介しつつ、内情を含めながら、gokart 1.0.0に込めた想いを綴るものです。 はじめに gokartとは gokart 1.0.0 ドキュメントの拡充とロゴの追加 gokart.build gokartメジャーバージョンリリースに寄せて おわりに gokartとは gokartは、元チームリーダーであった西場さん@m_nishibaが、AI機械学習チームを1人立ち上げた際、チームの基盤となるよう作成した、機械学習パイプラインを取り扱うPythonモジュールです。 github.com 機械学習のパイ

    gokart 1.0.0 をリリースしました - エムスリーテックブログ
    shunk031
    shunk031 2021/04/26
    西場さんへの愛が溢れていたいい記事だった😭
  • 米国大学院PhD出願に対する私なりの臨み方 - Counterfactualを知りたい

    はじめに こんにちは、はじめまして、usaito(HP, twitter)です。2016年の4月に東京工業大学の第4類に入学し、その後工学院経営工学系に進みました。途中1年間休学したこともあり、2021年の3月に学士課程を卒業しました。大学入学から丸5年が経ったと思うと、あっという間だったなという感覚ととても長かったという感覚が入り混じっていてなんだか不思議な感じです。 さて、あとでも詳しくまとめますが、昨年12月に米国大学院の博士課程にいくつか出願し、結果的にCornell UniversityのDepartment of Computer Scienceに博士学生として進学することなりました。 記事では、私が出願過程で経験したことや考えていたことをまとめます。 私としては詳細かつ赤裸々に経験をまとめたつもりですが、 客観的な情報源としてはすでに素晴らしいリソースがいくつも存在するので

    米国大学院PhD出願に対する私なりの臨み方 - Counterfactualを知りたい
    shunk031
    shunk031 2021/04/16
    凄すぎることが淡々と書かれていて圧倒された…!コーネルでの研究、応援しております!
  • DEIM2021で一般発表/技術報告とスポンサーを行いました - Gunosyデータ分析ブログ

    こんにちは、研究開発チームの飯塚です。3/1~3/3にオンラインで行われた、第13回データ工学と情報マネジメントに関するフォーラム(DEIM2021)に参加しました。 今年のDEIMは、現地参加と遠隔参加が選べるハイブリッド開催を予定しておりましたが、昨今のコロナウィルス感染症対策の観点から、今年も完全オンラインで行われました。 今回の参加者総数は、オンライン開催ということもあり1099人と過去最高だったようです。 Gunosy社としては、DEIMに2017年から参加しており、5年目の今年はスポンサーとしての協賛と一般発表/技術報告を行いました。 db-event.jpn.org 発表の振り返り 一般発表 ニュースキュレーションメディアデータを用いたユーザのイデオロギーの特定とそのユーザ閲覧行動傾向分析方式 発表は東京財団政策研究所の機械学習チームとの共同研究として行われたものです。 当

    DEIM2021で一般発表/技術報告とスポンサーを行いました - Gunosyデータ分析ブログ
    shunk031
    shunk031 2021/04/02
    ニュース記事の品質が広告消費行動に与える影響の調査、めちゃめちゃ興味深いトピックで今後の発展が楽しみ
  • pipとpipenvとpoetryの技術的・歴史的背景とその展望 - Stimulator

    - はじめに - Pythonのパッケージ管理ツールは、長らく乱世にあると言える。 特にpip、pipenv、poetryというツールの登場シーン前後では、多くの変革がもたらされた。 記事は、Pythonパッケージ管理ツールであるpip、pipenv、poetryの3つに着目し、それぞれのツールに対してフラットな背景、技術的な説明を示しながら、所属企業内にてpoetry移行大臣として1年活動した上での経験、移行の意図について綴り、今後のPythonパッケージ管理の展望について妄想するものである。 注意:記事はPythonパッケージ管理のベストプラクティスを主張する記事ではありません。背景を理解し自らの開発環境や状態に応じて適切に技術選定できるソフトウェアエンジニアこそ良いソフトウェアエンジニアであると筆者は考えています。 重要なポイントのみ把握したい場合は、各章の最後のまとめを読んで頂

    pipとpipenvとpoetryの技術的・歴史的背景とその展望 - Stimulator
    shunk031
    shunk031 2021/03/29
  • トップカンファレンスにおけるデータセットシフトと機械学習 - Ridge-institute R&D Blog

    こんにちは,株式会社Ridge-iのリサーチチームの@machinery81です. 今回はNeurIPS2020で発表されたデータセットシフトを扱う機械学習に関連する論文を紹介します. 記事は,Ridge-i主催の論文読み会で発表した以下の資料に基づいています. TL;DR 機械学習におけるデータセットシフト Covariate Shift Target Shift Concept Shift Domain Shift Sample Selection Bias Taxonomy of NeurIPS2020 papers about Dataset Shift 論文紹介 Rethinking Importance Weighting for Deep Learning under Distribution Shift Importance Weighting for Distribut

    トップカンファレンスにおけるデータセットシフトと機械学習 - Ridge-institute R&D Blog
    shunk031
    shunk031 2021/03/10
    学習時とテスト時で入力変数の周辺分布が異なる話(Covariate Shift)から始まり、様々なデータセットのシフトについてまとめられている。非常に勉強になった
  • グノシーのパーソナライズアルゴリズムを刷新した話 (アーキテクチャ編) - Gunosyデータ分析ブログ

    こんにちは。Gunosy TechLab MediaMLチーム所属の桾澤 (@gumigumi4f) です。 前回の記事に引き続き、グノシーのパーソナライズアルゴリズムを刷新した話について、アーキテクチャの部分を説明したいと思います。 前回の記事から読んでもらえると、パーソナライズの全体像が見えるのでおすすめです。 data.gunosy.io パーソナライズに求められるレスポンスタイム アーキテクチャ ユーザーと記事のベクトル生成とデータストアへの保存 ユーザーリクエストに対し適切な記事リストを生成する処理 どれくらい高速なのか おわりに パーソナライズに求められるレスポンスタイム 前回の記事ではモデルの学習方法やオフラインでの実験などをメインに説明してきましたが、オンラインで実際にA/Bテストするときに考えなければいけないのがレスポンスタイムです。 ユーザーに対して完璧にクリック非クリ

    グノシーのパーソナライズアルゴリズムを刷新した話 (アーキテクチャ編) - Gunosyデータ分析ブログ
    shunk031
    shunk031 2021/02/09
  • グノシーのパーソナライズアルゴリズムを刷新した話 (モデル編) - Gunosyデータ分析ブログ

    こんにちは。Gunosy TechLab MediaMLチーム所属の桾澤 (@gumigumi4f) です。 この記事では、弊社で配信しているニュースアプリであるグノシーのパーソナライズアルゴリズムを刷新した話について書きたいと思います。 アーキテクチャの部分まで含めて記事にしてしまうと非常にブログが長くなってしまうので、記事ではリアルタイム性の高い重要なニュース記事についてどのようにレコメンドするかについて注目して述べます。 アーキテクチャの部分についてはブログ後編のアーキテクチャ編にて書きたいと思います。 後編はこちら data.gunosy.io ニュースアプリのパーソナライズ グノシーにおける旧来のパーソナライズアルゴリズムとその課題 グノシーの新しいパーソナライズアルゴリズム オフライン実験とA/Bテスト おわりに ニュースアプリのパーソナライズ グノシーというニュースアプリで

    グノシーのパーソナライズアルゴリズムを刷新した話 (モデル編) - Gunosyデータ分析ブログ
    shunk031
    shunk031 2021/02/08
  • CTR予測における確率補正について - MicroAd Developers Blog

    はじめに こんにちは. マイクロアドで機械学習エンジニアをしている福島です. 主に広告のClick Through Rate (CTR)予測やReal-Time-Bidding (RTB)の入札最適化を担当しています. 今回はマイクロアドでのCTR予測における確率補正について紹介したいと思います. はじめに CTR予測とは 問題1 学習データが不均衡 問題2 機械学習モデルの出力を確率として扱うのは不適切な場合がある 問題3 学習データの信頼度が高くない CTR予測における確率補正 アンダーサンプリングによって生じたバイアスの除去 Isotonic Regressionによる確率補正 確率補正の効果検証 終わりに CTR予測とは RTBでは下図のように, 広告主とメディア間でリアルタイムにオークションが開催され, オークションに勝利した広告がメディアに表示されます. マイクロアドでは現在オ

    CTR予測における確率補正について - MicroAd Developers Blog
    shunk031
    shunk031 2021/01/25
  • WI-IAT2020で学会発表をした話 - r_yanyoの日記

    この記事は TUT Advent Calendar 2020 24日目の記事です。 adventar.org 2020年12月14日から17日の間に開催されたWI-IAT2020*1という学会で学会発表を行いました。今年はオーストラリアのメルボルンで開催される予定でしたが、新型コロナウイルスの影響でオンライン開催となりました。私は普段から自宅で研究をしているため、学会にも自宅から参加しました*2。メルボルン行きかったなぁ・・・、という気持ちもあるけど、2年前シアトルに行った時は飛行機の移動などが相当しんどかったので、自宅から楽に参加できて良かったか、ぐらいの気持ち。同研究室の後輩もshort paperで採択されたので、一緒に発表しました。メルボルンは珍しく日よりも東にあるので、時差は日より2時間早いです。よって、学会の開催時間は現地時間で8:45から17:30ぐらい、日時間だと6:

    WI-IAT2020で学会発表をした話 - r_yanyoの日記
    shunk031
    shunk031 2020/12/28
    受賞おめでとうございます!非常に良い記事でした。関さんのメンタリングの素晴らしさが後半にまとまっていて分かりが溢れました!
  • 最新の深層学習技術による古典くずし字認識の現状と今後の展望 - May the Neural Networks be with you

    こんにちは。@shunk031 です。 普段は最先端の技術が大好きなパソコンのオタクですが、京都へ旅行して古き良き日文化に感化されました。 この記事は 法政大応情 Advent Calendar 2020 21 日目の記事です。 From http://codh.rois.ac.jp/ 今回は日古典籍の分類タスクについて取り組んでみようと考え、近年の日古典籍における「くずし字認識」に着目して調査をしました *1。 日古典籍といった古文書に対して、OCR 等の文字認識技術によって文字情報をデジタル化し、それらの情報をもとに解析を行う流れは現代では自然だと考えています。 しかしながら、一般的に OCR は難しく、また古文書を機械に解析させることはさらなる困難があるのは容易に想像できます。 くずし字認識に対して、近年の取り組みでは ROIS-DS 人文学オープンデータ協働センターが K

    最新の深層学習技術による古典くずし字認識の現状と今後の展望 - May the Neural Networks be with you
    shunk031
    shunk031 2020/12/22
    調べました。自分が取り組んでいる分野と少し違う分野でしたが「50本程度の論文に目を通すとざっくりと雰囲気を理解でき、何ができていないかもふんわりわかるようになる」という王道でキャッチアップしてみました
  • A/Bテストが出来ない場面での因果推論による効果検証 - Gunosyデータ分析ブログ

    記事は、Gunosy Advent Calendar 2020 19日目の記事です。 昨日はサンドバーグさんの Amazon AthenaのPartition Projectionを使ったALB Access Logの実例 (w/ terraform & glue catalog) - Gunosy Tech Blog でした。 こんにちは、GTL(Gunosy Tech Lab) 所属のクボタです。 社内では主にニュースパスというアプリの分析などを行なっています。 記事ではA/Bテストの実施が難しい場面でチームでも利用している因果推論による効果検証について簡単に紹介させていただきます。 はじめに Gunosyではアプリ内でのロジックやUIの変更、キャンペーンなどの施策においてデータに基づく効果検証をしています。 効果検証では分析対象の施策起因による変化である因果効果のみを求めたいです

    A/Bテストが出来ない場面での因果推論による効果検証 - Gunosyデータ分析ブログ
    shunk031
    shunk031 2020/12/21
  • 2020年の研究開発チームの振り返り - Gunosyデータ分析ブログ

    はじめに こんにちは、研究開発チームの関です。 2020年もまもなく終わりを迎えますね。皆さんどんな一年だったでしょうか。 私にとってはアイドルのライブがほとんどなく、生きがいの一つがなくなって辛い一年でした。 オンライン特典会やライブ配信で名前を読んでもらうことを楽しみに生きる日々です。 空いた時間でリアル脱出ゲーム・謎解きに夢中になり、この一年で約40公演に参加しました。 記事は、Gunosy Advent Calendar 2020 16日目の記事です。 昨日はQAチームakinkさんの 歴史と向き合い既存機能の棚卸しをした話 - Gunosy Tech Blog でした。 エントリでは昨年に引き続き今年も研究開発チームの振り返りをしていきたいと思います。 昨年の記事はこちらです。研究開発チームの立ち上げの経緯なども書いているので、まだ読んでいない方はよろしければこちらも合わせて

    2020年の研究開発チームの振り返り - Gunosyデータ分析ブログ
    shunk031
    shunk031 2020/12/17
    この一年もリサーチインターンとして関さんにめちゃめちゃお世話になりました!完全リモートになっても、オフラインのようなスムーズさで研究開発に取り組ませていただいております
  • 黒魔術への招待:Neural Network Stacking の探求 - 俵言

    この記事は Kaggle Advent Calendar 2020 の16日目の記事です。去年ネタ記事*1を書いたので今年は真面目なやつにしました。 はじめに Kaggler はコンペにおいてあらゆる手段を用いて評価指標の改善を目指します。特徴量エンジニアリング、モデルや学習手法の試行錯誤、特殊な前処理・後処理の考案、はたまた Leakage の利用に至るまで、ルールを破らない範囲であれば何でもする*2のが Kaggler です。今挙げた例はそのコンペ固有の性質(データの生成過程・分布、評価指標、... etc.)に着目することで大きな効果をもたらす場合が多いのですが、一方でいずれのコンペにおいても一定の効果が得られる手法があります。それは複数のモデルの予測結果を統合して予測を行う Ensemble です。Ensemble は統合するモデルに多様性があるほど性能が向上すると一般に知られてお

    黒魔術への招待:Neural Network Stacking の探求 - 俵言
    shunk031
    shunk031 2020/12/16
    ✝黒魔術✝だった
  • 僕らはいつまでUSB Type-Cケーブルを選ぶのに迷うのだろう…もう間違えないための覚え書き - Magnolia Tech

    2021/8/6更新 Thunderbolt4ケーブルがリリースされてきたので、アップデートしました。 blog.magnolia.tech 自分用の買い物メモ USB Type-Cケーブルの選び方は難しい…あらゆる規格をサポートするけど、あらゆる規格を”同時に”サポートするわけではないので、主にケーブル長や用途などで上手く選ばないと、使えなかったり、無駄に高いケーブルを選ぶことになってしまう そんなことを起こさないためのメモ あれこれ迷わないための”全部入り” 低速から高速まで色々な周辺機器の接続に使う(USB2.0, USB3.1, Thunderbolt3) ディスプレイ接続に使う(DisplayPort) 給電に使う(最大100W) などなどを考えると、長さが1.0m以下で、USB PD 5A(100W)対応と書かれているThunderbolt3ケーブルを選ぶと全部対応している。

    僕らはいつまでUSB Type-Cケーブルを選ぶのに迷うのだろう…もう間違えないための覚え書き - Magnolia Tech
    shunk031
    shunk031 2020/12/12
  • Terraform のエラーに落ち着いて立ち向かうために - Gunosy Tech Blog

    記事は、Gunosy Advent Calendar 2020 11 日目の記事です。 前回は Shohei Hida さんの「Argo RolloutsによるKubernetesでのCanary Deploy」でした tech.gunosy.io はじめに はじめまして.20 卒で GTL 所属の山です. 入社して半年以上が経ち,出社は輪読用のを取りに行った 1 回ですが,先輩方に助けて頂きながら弊社での開発にも徐々に慣れてきました. 今回は入社後,個人的に最も振り回されたツールである Terraform について紹介していきたいと思います. Terraform は今やインフラ管理をするデファクトと言えるツールであり,気づいたら導入されていたという人も多いのではないでしょうか. Terraform の場合 document が非常に充実していることや,既存実装も流用しやすいという特

    Terraform のエラーに落ち着いて立ち向かうために - Gunosy Tech Blog
    shunk031
    shunk031 2020/12/11
    最近めちゃめちゃお世話になったyamamotoさんのアドカレ記事!tfと聞くとtensorflowが浮かんでしまう…
  • その実験、再現できますか?pyenvとpoetryによる “そんなに頑張らない” 再現可能な実験環境構築 - Gunosyデータ分析ブログ

    Gunosy Tech Lab リサーチインターンの北田 (@shunk031)です。 深層学習の論文を読んでいるときに著者実装が公開されている旨を見ると嬉しい気持ちになりますよね。 いざ公開レポジトリに飛んだ瞬間その嬉しさは無となることが多いですが、くじけずにやっていきたいです。 著者実装のrequirements.txtをベースにpythonモジュールをインストールするとよく見るやつ こちらの記事は Gunosy Advent Calendar 2020 6日目の記事です。昨日は @625 さんの goで作るfirehoseのデータ変換lambda でした。 tech.gunosy.io その実験、再現できますか? リサーチインターンでは主にGunosyのデータを使った研究をしています。 特に私は深層学習による広告クリエイティブの評価や運用支援に焦点を当てて取り組んでいます*1。 深層

    その実験、再現できますか?pyenvとpoetryによる “そんなに頑張らない” 再現可能な実験環境構築 - Gunosyデータ分析ブログ
    shunk031
    shunk031 2020/12/06
    「著者実装の全然再現しないじゃん!!」「自分の実装、再現しないじゃん!!」よくある話ですね。そういう辛い話の解決を手助けする記事を書きました。他にも様々な方法があると思うのでぜひ教えて下さい。