サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
GPT-4o
pira-nino.hatenablog.com
はじめに こんにちは。nino_piraです。 ここ1, 2年間、ブログをあまり更新できていませんでしたが、最近の取り組みを言語化することで、自分を見つめ直す機会になるのでは と思い、久々に長文ブログを書きます。 新卒5年目が終わる 早いもので新卒5年目が終わります。まもなく30歳です。 新卒3年目までは毎年振り返りブログを書いていましたが、転職について記載した新卒3年目振り返りブログを最後に他話題の記事も含め、更新が滞っておりました。 本記事では、「で、転職してから何をしているの?」を振り返り、「最近考えていること」を言語化していきたいと思います。 pira-nino.hatenablog.com pira-nino.hatenablog.com pira-nino.hatenablog.com 転職してから何をしているの? 所属は?ざっくり何をやっているの? 前職: 受託分析専門の会社
はじめに お久しぶりです。nino_piraです。 ブログは更新していませんでしたが、元気です。 某タカヤナギ氏に「献本欲しいならブログを書いてくれ」とのことで献本を頂いたので、ブログのリハビリも兼ねて感想文を書きます。 本の内容については既に色々な方がブログにまとめてくださっているので、個人の感想文を書きます gihyo.jp ビジネスとデータサイエンス / 機械学習 一般的な企業に属する我々は利益貢献することを求められています。そして我々は、データサイエンスや機械学習といったツールを通し利益貢献を生業とする仕事をしている。 本書の1章では利益貢献としての定量的指標であるKPIとデータサイエンスアプローチの関係の一般論や事例を交えた罠について記載されている。 個人的には、評価とは?を考える際に「何と比較して評価するかのか」について改めて意識を強くしようという気づきがあった。 例えば「良
はじめに 生存確認を込めて、ブログを更新しようと思います 汗 タイトルにあるように、kaggleのCornell Birdcall Identificationコンペ(通称:鳥コンペ)で63rd(silver)に入賞しました。 チームで反省会に登壇することになり、資料を作成しましたので記録がてらブログで紹介させて頂きます。 www.kaggle.com connpass.com 解法 試行錯誤した内容について、反省会での登壇資料をご参照ください。 docs.google.com 音声データの知識0である自分&佐藤さんに、音声データについて基礎から諸々を叩き込んでくれた冨山さん、増田さんには大変お世話になりました。。。 ちなみに、音楽分析のイベント繋がりで声を掛けさせて頂きました。 本イベントはブログ公開現在、聴講者の応募をしておりますので、よろしければご参加下さい。 muana.connp
新卒2年目が終わる 注意書き 4-7月:因果推論案件 4月〜:Data Gateway Talk(dgtalk) 7月:新卒1-3年目でビアテラスに行く 7-10月:画像の異常検知案件 8月:執筆に携わった本が出版 8月:B’zのライブ 9月:呪いの人形事件 10月:KDD2019論文読み会 10月:白金鉱業ミートアップ登壇 11月-2月:初PMとなる画像の異常検知案件 11月:下町データサイエンティストと名乗り始める 12月-1月:kaggle DSBコンペ 12月:OpenBP質問会 1月:Music Analytics Meetup 2月:昇給焼肉 その他:本年度行った勉強会達 2年経って今思うこと 情報共有(特にドキュメント化)について ビジネスってなんだろ / 理想郷とは? 外部活動について キャリアについて 最後に 新卒2年目が終わる こんにちは。nino_piraです。 表題
こんにちは。nino_piraです。 先日、強化学習の資料の引用ツイートをしましたら、それなりに伸びたので、「もしかして、みんな強化学習に興味ある!?」と思い自分が読んだ&好きな資料をまとめてます。 また、ブログを書いているうちに「何を持って基礎とするか」などカテゴライズも自分の中でも行方不明になっていましたので、色々思うところはあると思いますが、暖かい目で読んで頂ければ幸いです。。。。 あくまでも私の経験 強化学習基礎系 [Qiita] DQN(Deep Q Network)を理解したので、Gopherくんの図を使って説明 [書籍]これからの強化学習 [pdf] (小南さん作成) 強化学習入門 [pdf] (通称) Sutton本第2版 [書籍] 機械学習スタートアップシリーズ Pythonで学ぶ強化学習 [ブログ]強化学習 もう少し強化学習を詳しく知りたい系の人へ [書籍]速習 強化学
1. AI稲葉さんを作る 2. 歌詞データの準備 3. kerasのexampleを参考にモデリング 3.1 keras example 3.2 lstm_text_generation.pyの解説 3.3 改良点 4. 結果 5. まとめ 6. おまけ 1. AI稲葉さんを作る 最近B'zの歌詞の分析をやっていなかったので、久々にネタ探ししてやってみました。 B'zの歌詞でAIを学習して歌詞生成をやってみました。 要はAI稲葉さんを作りました。*1 一応、プロセスの説明もしますが機械学習に興味がない方は結果の章まで読み飛ばしても大丈夫です。 作業用コードはこちらに公開しています。 github.com 2. 歌詞データの準備 「まず、お手元にB'zの歌詞があるとします」という前提はさすがに無理がありますね笑 自身の以前のブログにも書きましたが、歌詞の扱いは著作権で諸々ナイーブな面もあるの
0. はじめに 1. 対象データ 2. 先に各手法の結果を確認 3.準備 4. 基礎集計~CMを見た人と見ていない人での目的変数の差~ 5. 因果推論の流れのおさらい 6. 傾向スコアモデリング 6.1 モデリング 6.2 テスト / コントロールの傾向スコアの可視化 6.3Rでの傾向スコアモデリングの実装 7. 傾向スコアマッチング 7.1 結構面倒なpython 7.2 R (Matchingライブラリ) 7.3マッチングの評価 8.IPW 9. ダブルロバスト 9.1 回帰モデル 9.2ダブルロバスト 10.Proximityマッチング 11.改めて、各種手法による推定因果効果のまとめ 12.まとめ 0. はじめに 理論編に引き続き、実装を行なっていきます。 pira-nino.hatenablog.com 実装はpythonとRの両方で行いました。 作業用のコードは以下のgithu
0. はじめに 1. 因果推論~施策の本当の効果~ 1.1 TVのCMを見るとアプリのプレイ時間が短くなる!? 1.2じゃぁ理想的な比較方法は? 1.3 背景要因を揃えた比較が難しい問題 1.4 反実仮想:仮に「xxxしたら / しなかったら」の効果算出 2. 傾向スコアを用いた効果測定 2.1 絶対にこの条件は守ろう ~ 「SUTVA」/「強く無視できる割り当て条件」~ 2.1.1 SUTVA 2.1.2 強く無視できる割り当て条件 2.1.3 どうやって条件が成り立ってるか確認するの? 2.2 傾向スコアとは 3. 傾向スコア算出 3.1モデリング 3.2モデルの評価 4. 傾向スコアを用いたマッチング 4.1 マッチングのお気持ち 4.2 様々なマッチング手法 4.3 マッチングのメリット / デメリット 4.4 マッチングの評価 4.5 そもそも傾向スコアをマッチングに用いるべ
Vol.1 data-gateway-talk.connpass.com Vol.2(まだ申し込み可能!!) data-gateway-talk.connpass.com 1. はじめに こんにちはpira_ninoです。 先日自身初のイベント主催をしましたので、当日のレポートに加え、勉強会の主催ってどうやるんだろ?について開催までの経緯を書かせて頂きます。 2. Data Gateway Talk誕生まで 2.1 背景 近年のデータサイエンスブームもあり、様々な勉強会が日々行われています。 私もいくつかの勉強会に参加しているうちに、「自分も登壇したい!!」と思うようになりました。 しかし「登壇者って強くね!?」と思い登壇になかなか踏み切れませんでした。 そこで絶対に同じ思いを持っている方はいるはずだ」と思い、以下のツイートをしました。 最近の分析界隈の勉強会の登壇者強すぎるので、初級者が
1. 新卒1年目が終わる こんにちは。pira_ninoです。 表題の通り、 新卒1年目が終わりました。。。 いつまで「見習い」と名乗っていいのですかね(苦笑 せっかくの区切りなので、「受託分析会社の1年目が何をしているか」を自分の経験に基づいて書いていこうかなぁと思います。 2. 注意書き 受託分析なので、基本クライアントの名前が出る話は一切出せません。つまり、具体的な仕事内容については書けません。 これ故に、受託分析会社のデータサイエンティストは勉強会などの表舞台になかなか出てこないのかなぁと思っています。自分も色々話したいことはありますが、表舞台に出すのはやはり難しいです(汗 また、 私の所属会社を一部の方はご存知かと思いますが「一応個人のブログ」であることをご了承ください。 本記事では、「ふわっと」受託分析会社の1年目が何をしているかをお伝え出来ればと思います。 3. 全体的には良
1. はじめに こんにちは、taijestです。 本記事では先日に投稿した機械学習を用いたB'zの歌詞分析を複数のアーティストに対して行い、その結果を比較しようというのが目的です。 前回まではB'zを対象に歌詞の分析を行ってきましたが、本記事ではB'zに加えて、 Mr.Children AKB48 を対象に分析を行っていきます。 なぜこのアーティストを選んだのかに特に深い意図はないですが、1)多くの曲を出している 2)なんか雰囲気の異なる曲を歌ってそう との理由でB'zとAKBとミスチルを分析の対象としました。 異なる歌詞データを対象として別々にモデルを構築することで、分析結果の差異から歌詞の性質の違いを見ることができます。分析のフローは以下になります。 要は、B'zとミスチルとAKBで「愛」はそれぞれ何を意味するかをAI(機械学習)で分析します。 どれも非常に人気の高いアーティストですが
1. 本Part概要 こんにちは。pira_ninoです。 早速のお知らせなのですが、本編から超絶優秀な友人のtaijest君も編集に加わってもらっています。これに伴いブログのタイトルも若干変更しました。 さて本題に戻ります。 前PartではB'zの歌詞を「LDA」を用いた曲のクラスタリングを行いました。 皆様のおかげで週間のランキングで11位に載りました!!ありがとうございます!! pira-nino.hatenablog.com blog.hatenablog.com 本Partでは最近流行りの「Word 2 Vec」を用いて単語の意味の分析を行なっていきます。 目標としましては、B'zの歌詞を用いて「きれい」に意味が近い単語は何かや「あなたと恋するためには僕には何が必要か」といった分析を行っていきます。 Word 2 Vecを用いた分析の目標 2. Word 2 Vecとは 早速、本
1. 本Part概要 こんにちは。pira_ninoです。 先日、30周年ライブであるPleasureツアー@横浜に行って「やっぱB'z最高」な最近です。 ライブについて語り出すと長いので、本編へ。 前回のLDA編では皆様のおかげで週間11位というブログ初心者には恐れ多い反響を頂き、本当にびっくりしております。。。ありがとうございます。。。 pira-nino.hatenablog.com blog.hatenablog.com そんなちょっとバズったブログに関してでしたが、LDA編のトピック別のWord Cloudの図が小さいということはずっと思っており、加えてブックマークコメントにも小さいと書いていらっしゃる方を見かけまして、「それな」と思い本Partで一気に20トピックの図を貼ります。 現在、Word 2 Vec 編を絶賛執筆中なのですが気分転換で本Partを書きました。箸休め程度の
1. 本Part概要 前Partでは「歌詞データの入手」と「前処理の必要性」について話しました。 本Partでは「実際にどのような前処理をしたか」について話していきます。 pira-nino.hatenablog.com 2. 前処理の概要 先に今回行った前処理の流れについて書かせて頂きます。 mecabを用いて「名詞・動詞・形容詞」の抽出 nltk, sklearnの英語のstopwordリストを用いて英語の不用語の削除 あくまでも上記は本データへの前処理の一例であって、絶対的なものではないです。 今回対象とする歌詞データは日本語・英語が混在しているちょっと特殊な文書データとなっております。 そこで、mecabは英単語を全て名詞と判定する性質を用いて、先にmecabで品詞を絞って、後に英語の前処理を施しました*1。 3. mecabを用いた前処理 3.1 mecabとは 簡単にいうと「日
1. 本Part概要 前PartではB'zの歌詞を「TF-IDF」を用いた分析を行いました。 本Partではトピックモデルの一つである「LDA」を用いた分析についてお話しします。 pira-nino.hatenablog.com 2. LDAとは 2.1 LDAのイメージ 先に簡単な説明をしてしまいます。 LDAは「たくさんの文書データから単語のグルーピングを行う」モデルです。 このグループ1つ1つを「トピック」と呼びます。 例えば、大量のニュース記事にLDAを適用する例を考えます。 ニュース記事データにLDAを適用した例 LDAでは「各トピック(トピック数は予め指定)における各単語の所属確率」が算出されます。 理論的なことはさておき、文書データから単語をいくつかのグループに自動で分けてくれる手法 との理解で大丈夫です。 よく勘違いされることとして以下の2点を示します。 トピック数(いくつ
1. 本Part概要 前Partでは、「歌詞データの前処理」についてお話ししました。 本Partではようやく分析の本編に入り「TF-IDFを用いた分析」についてお話ししていきます。 pira-nino.hatenablog.com 2. 文書データの分析 いわゆる文書データの一般的な分析観点である「単語の重要度」や「単語・文書の定量化」を行いたいと思います。 例えば、ニュースサイトでオススメの記事*1を出す問題を考えます。 ここで、各文書を「何らかの数値で定量化」(一般にベクトルを用いる)できているならば、あるAさんがいつも読む記事に数値的に近い記事をオススメするといった応用が考えれれます。*2 導入が長くなりましたが、単語・文書を定量化する重要性をお分りいただけたでしょうか。このような分析手法として様々な手法が研究・提案されています。本Partでは、その一つである「TF-IDF」の分析例
このページを最初にブックマークしてみませんか?
『下町データサイエンティストの日常』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く