下町データサイエンティストの日常[B!]新着記事・評価

評価指標入門読書感想文 - 下町データサイエンティストの日常

3 users

pira-nino.hatenablog.com

はじめにお久しぶりです。nino_piraです。ブログは更新していませんでしたが、元気です。某ﾀｶﾔﾅｷﾞ氏に「献本欲しいならブログを書いてくれ」とのことで献本を頂いたので、ブログのリハビリも兼ねて感想文を書きます。本の内容については既に色々な方がブログにまとめてくださっているので、個人の感想文を書きます gihyo.jp ビジネスとデータサイエンス / 機械学習一般的な企業に属する我々は利益貢献することを求められています。そして我々は、データサイエンスや機械学習といったツールを通し利益貢献を生業とする仕事をしている。本書の1章では利益貢献としての定量的指標であるKPIとデータサイエンスアプローチの関係の一般論や事例を交えた罠について記載されている。個人的には、評価とは？を考える際に「何と比較して評価するかのか」について改めて意識を強くしようという気づきがあった。例えば「良

テクノロジー
2023/03/05 20:56

kaggle鳥コンペで63rd(silver)に入賞しました - 下町データサイエンティストの日常

5 users

pira-nino.hatenablog.com

はじめに生存確認を込めて、ブログを更新しようと思います汗タイトルにあるように、kaggleのCornell Birdcall Identificationコンペ(通称：鳥コンペ)で63rd(silver)に入賞しました。チームで反省会に登壇することになり、資料を作成しましたので記録がてらブログで紹介させて頂きます。 www.kaggle.com connpass.com 解法試行錯誤した内容について、反省会での登壇資料をご参照ください。 docs.google.com 音声データの知識0である自分&佐藤さんに、音声データについて基礎から諸々を叩き込んでくれた冨山さん、増田さんには大変お世話になりました。。。ちなみに、音楽分析のイベント繋がりで声を掛けさせて頂きました。本イベントはブログ公開現在、聴講者の応募をしておりますので、よろしければご参加下さい。 muana.connp

テクノロジー
2020/09/26 01:11

下町データサイエンティスト新卒2年目が終わる - 下町データサイエンティストの日常

6 users

pira-nino.hatenablog.com

新卒2年目が終わる注意書き 4-7月：因果推論案件 4月〜：Data Gateway Talk(dgtalk) 7月：新卒1-3年目でビアテラスに行く 7-10月：画像の異常検知案件 8月：執筆に携わった本が出版 8月：B’zのライブ 9月：呪いの人形事件 10月：KDD2019論文読み会 10月：白金鉱業ミートアップ登壇 11月-2月：初PMとなる画像の異常検知案件 11月：下町データサイエンティストと名乗り始める 12月-1月：kaggle DSBコンペ 12月：OpenBP質問会 1月：Music Analytics Meetup 2月：昇給焼肉その他：本年度行った勉強会達 2年経って今思うこと情報共有(特にドキュメント化)についてビジネスってなんだろ / 理想郷とは？外部活動についてキャリアについて最後に新卒2年目が終わるこんにちは。nino_piraです。表題

テクノロジー
2020/04/02 09:35

プログラミング

自分が読んだ強化学習の資料達 - 下町データサイエンティストの日常

285 users

pira-nino.hatenablog.com

こんにちは。nino_piraです。先日、強化学習の資料の引用ツイートをしましたら、それなりに伸びたので、「もしかして、みんな強化学習に興味ある！？」と思い自分が読んだ&好きな資料をまとめてます。また、ブログを書いているうちに「何を持って基礎とするか」などカテゴライズも自分の中でも行方不明になっていましたので、色々思うところはあると思いますが、暖かい目で読んで頂ければ幸いです。。。。あくまでも私の経験強化学習基礎系 [Qiita] DQN（Deep Q Network）を理解したので、Gopherくんの図を使って説明 [書籍]これからの強化学習 [pdf] (小南さん作成) 強化学習入門 [pdf] (通称) Sutton本第2版 [書籍] 機械学習スタートアップシリーズ　Pythonで学ぶ強化学習 [ブログ]強化学習もう少し強化学習を詳しく知りたい系の人へ [書籍]速習強化学

テクノロジー
2020/01/31 22:01

Deep LearningでB'zの歌詞を作詞する - 下町データサイエンティストの日常

6 users

pira-nino.hatenablog.com

1. AI稲葉さんを作る 2. 歌詞データの準備 3. kerasのexampleを参考にモデリング 3.1 keras example 3.2 lstm_text_generation.pyの解説 3.3 改良点 4. 結果 5. まとめ 6. おまけ 1. AI稲葉さんを作る最近B'zの歌詞の分析をやっていなかったので、久々にネタ探ししてやってみました。 B'zの歌詞でAIを学習して歌詞生成をやってみました。要はAI稲葉さんを作りました。*1 一応、プロセスの説明もしますが機械学習に興味がない方は結果の章まで読み飛ばしても大丈夫です。作業用コードはこちらに公開しています。 github.com 2. 歌詞データの準備「まず、お手元にB'zの歌詞があるとします」という前提はさすがに無理がありますね笑自身の以前のブログにも書きましたが、歌詞の扱いは著作権で諸々ナイーブな面もあるの

テクノロジー
2019/08/26 00:04

傾向スコアを用いた因果推論入門~実装編~ - 下町データサイエンティストの日常

57 users

pira-nino.hatenablog.com

0. はじめに 1. 対象データ 2. 先に各手法の結果を確認 3.準備 4. 基礎集計~CMを見た人と見ていない人での目的変数の差~ 5. 因果推論の流れのおさらい 6. 傾向スコアモデリング 6.1 モデリング 6.2 テスト / コントロールの傾向スコアの可視化 6.3Rでの傾向スコアモデリングの実装 7. 傾向スコアマッチング 7.1 結構面倒なpython 7.2 R (Matchingライブラリ) 7.3マッチングの評価 8.IPW 9. ダブルロバスト 9.1 回帰モデル 9.2ダブルロバスト 10.Proximityマッチング 11.改めて、各種手法による推定因果効果のまとめ 12.まとめ 0. はじめに理論編に引き続き、実装を行なっていきます。 pira-nino.hatenablog.com 実装はpythonとRの両方で行いました。作業用のコードは以下のgithu

テクノロジー
2019/08/04 23:23

傾向スコアを用いた因果推論入門~理論編~ - 下町データサイエンティストの日常

90 users

pira-nino.hatenablog.com

0. はじめに 1. 因果推論~施策の本当の効果~ 1.1 TVのCMを見るとアプリのプレイ時間が短くなる！？ 1.2じゃぁ理想的な比較方法は？ 1.3 背景要因を揃えた比較が難しい問題 1.4 反実仮想：仮に「xxxしたら / しなかったら」の効果算出 2. 傾向スコアを用いた効果測定 2.1 絶対にこの条件は守ろう ~ 「SUTVA」/「強く無視できる割り当て条件」~ 2.1.1 SUTVA 2.1.2 強く無視できる割り当て条件 2.1.3 どうやって条件が成り立ってるか確認するの？ 2.2 傾向スコアとは 3. 傾向スコア算出 3.1モデリング 3.2モデルの評価 4. 傾向スコアを用いたマッチング 4.1 マッチングのお気持ち 4.2 様々なマッチング手法 4.3 マッチングのメリット / デメリット 4.4 マッチングの評価 4.5 そもそも傾向スコアをマッチングに用いるべ

テクノロジー
2019/07/26 23:41

Data Gateway Talk Vol.1を開催しました + Vol.2の宣伝 - 下町データサイエンティストの日常

5 users

pira-nino.hatenablog.com

Vol.1 data-gateway-talk.connpass.com Vol.2(まだ申し込み可能！！) data-gateway-talk.connpass.com 1. はじめにこんにちはpira_ninoです。先日自身初のイベント主催をしましたので、当日のレポートに加え、勉強会の主催ってどうやるんだろ？について開催までの経緯を書かせて頂きます。 2. Data Gateway Talk誕生まで 2.1 背景近年のデータサイエンスブームもあり、様々な勉強会が日々行われています。私もいくつかの勉強会に参加しているうちに、「自分も登壇したい！！」と思うようになりました。しかし「登壇者って強くね！？」と思い登壇になかなか踏み切れませんでした。そこで絶対に同じ思いを持っている方はいるはずだ」と思い、以下のツイートをしました。最近の分析界隈の勉強会の登壇者強すぎるので、初級者が

テクノロジー
2019/05/25 16:44

AIに聞いた、有名アーティストにとっての「愛」とは？ - 下町データサイエンティストの日常

7 users

pira-nino.hatenablog.com

1. はじめにこんにちは、taijestです。本記事では先日に投稿した機械学習を用いたB'zの歌詞分析を複数のアーティストに対して行い、その結果を比較しようというのが目的です。前回まではB'zを対象に歌詞の分析を行ってきましたが、本記事ではB'zに加えて、 Mr.Children AKB48 を対象に分析を行っていきます。なぜこのアーティストを選んだのかに特に深い意図はないですが、1)多くの曲を出している 2)なんか雰囲気の異なる曲を歌ってそう　との理由でB'zとAKBとミスチルを分析の対象としました。異なる歌詞データを対象として別々にモデルを構築することで、分析結果の差異から歌詞の性質の違いを見ることができます。分析のフローは以下になります。要は、B'zとミスチルとAKBで「愛」はそれぞれ何を意味するかをAI（機械学習）で分析します。どれも非常に人気の高いアーティストですが

テクノロジー
2018/09/09 09:22

B'zの歌詞をPythonと機械学習で分析してみた〜Word 2 Vec編〜 - 下町データサイエンティストの日常

66 users

pira-nino.hatenablog.com

1. 本Part概要こんにちは。pira_ninoです。早速のお知らせなのですが、本編から超絶優秀な友人のtaijest君も編集に加わってもらっています。これに伴いブログのタイトルも若干変更しました。さて本題に戻ります。前PartではB'zの歌詞を「LDA」を用いた曲のクラスタリングを行いました。皆様のおかげで週間のランキングで11位に載りました！！ありがとうございます！！ pira-nino.hatenablog.com blog.hatenablog.com 本Partでは最近流行りの「Word 2 Vec」を用いて単語の意味の分析を行なっていきます。目標としましては、B'zの歌詞を用いて「きれい」に意味が近い単語は何かや「あなたと恋するためには僕には何が必要か」といった分析を行っていきます。 Word 2 Vecを用いた分析の目標 2. Word 2 Vecとは早速、本

テクノロジー
2018/08/12 14:18

B'zの歌詞をPythonと機械学習で分析してみた〜LDA番外編〜 - 下町データサイエンティストの日常

18 users

pira-nino.hatenablog.com

1. 本Part概要こんにちは。pira_ninoです。先日、30周年ライブであるPleasureツアー@横浜に行って「やっぱB'z最高」な最近です。ライブについて語り出すと長いので、本編へ。前回のLDA編では皆様のおかげで週間11位というブログ初心者には恐れ多い反響を頂き、本当にびっくりしております。。。ありがとうございます。。。 pira-nino.hatenablog.com blog.hatenablog.com そんなちょっとバズったブログに関してでしたが、LDA編のトピック別のWord Cloudの図が小さいということはずっと思っており、加えてブックマークコメントにも小さいと書いていらっしゃる方を見かけまして、「それな」と思い本Partで一気に20トピックの図を貼ります。現在、Word 2 Vec 編を絶賛執筆中なのですが気分転換で本Partを書きました。箸休め程度の

テクノロジー
2018/08/12 11:08

下町データサイエンティストの日常

7 users

pira-nino.hatenablog.com

はじめにこんにちは。nino_piraです。ここ1, 2年間、ブログをあまり更新できていませんでしたが、最近の取り組みを言語化することで、自分を見つめ直す機会になるのではと思い、久々に長文ブログを書きます。新卒5年目が終わる早いもので新卒5年目が終わります。まもなく30歳です。新卒3年目までは毎年振り返りブログを書いていましたが、転職について記載した新卒3年目振り返りブログを最後に他話題の記事も含め、更新が滞っておりました。本記事では、「で、転職してから何をしているの？」を振り返り、「最近考えていること」を言語化していきたいと思います。 pira-nino.hatenablog.com pira-nino.hatenablog.com pira-nino.hatenablog.com 転職してから何をしているの？所属は？ざっくり何をやっているの？前職: 受託分析専門の会社

テクノロジー
2018/07/31 02:58

B'zの歌詞をPythonと機械学習で分析してみた〜前処理編〜 - 下町データサイエンティストの日常

3 users

pira-nino.hatenablog.com

1. 本Part概要前Partでは「歌詞データの入手」と「前処理の必要性」について話しました。本Partでは「実際にどのような前処理をしたか」について話していきます。 pira-nino.hatenablog.com 2. 前処理の概要先に今回行った前処理の流れについて書かせて頂きます。 mecabを用いて「名詞・動詞・形容詞」の抽出 nltk, sklearnの英語のstopwordリストを用いて英語の不用語の削除あくまでも上記は本データへの前処理の一例であって、絶対的なものではないです。今回対象とする歌詞データは日本語・英語が混在しているちょっと特殊な文書データとなっております。そこで、mecabは英単語を全て名詞と判定する性質を用いて、先にmecabで品詞を絞って、後に英語の前処理を施しました*1。 3. mecabを用いた前処理 3.1 mecabとは簡単にいうと「日

テクノロジー
2018/07/31 00:10

B'zの歌詞をPythonと機械学習で分析してみた〜LDA編〜 - 下町データサイエンティストの日常

396 users

pira-nino.hatenablog.com

1. 本Part概要前PartではB'zの歌詞を「TF-IDF」を用いた分析を行いました。本Partではトピックモデルの一つである「LDA」を用いた分析についてお話しします。 pira-nino.hatenablog.com 2. LDAとは 2.1 LDAのイメージ先に簡単な説明をしてしまいます。 LDAは「たくさんの文書データから単語のグルーピングを行う」モデルです。このグループ1つ1つを「トピック」と呼びます。例えば、大量のニュース記事にLDAを適用する例を考えます。ニュース記事データにLDAを適用した例 LDAでは「各トピック（トピック数は予め指定）における各単語の所属確率」が算出されます。理論的なことはさておき、文書データから単語をいくつかのグループに自動で分けてくれる手法との理解で大丈夫です。よく勘違いされることとして以下の2点を示します。トピック数（いくつ

テクノロジー
2018/07/30 19:49

B'zの歌詞をPythonと機械学習で分析してみた〜TF-IDF編〜 - 下町データサイエンティストの日常

11 users

pira-nino.hatenablog.com

1. 本Part概要前Partでは、「歌詞データの前処理」についてお話ししました。本Partではようやく分析の本編に入り「TF-IDFを用いた分析」についてお話ししていきます。 pira-nino.hatenablog.com 2. 文書データの分析いわゆる文書データの一般的な分析観点である「単語の重要度」や「単語・文書の定量化」を行いたいと思います。例えば、ニュースサイトでオススメの記事*1を出す問題を考えます。ここで、各文書を「何らかの数値で定量化」（一般にベクトルを用いる）できているならば、あるAさんがいつも読む記事に数値的に近い記事をオススメするといった応用が考えれれます。*2 導入が長くなりましたが、単語・文書を定量化する重要性をお分りいただけたでしょうか。このような分析手法として様々な手法が研究・提案されています。本Partでは、その一つである「TF-IDF」の分析例

テクノロジー
2018/07/29 21:15

はてなブックマーク

はてなブックマーク

『下町データサイエンティストの日常』

下町データサイエンティスト新卒5年目が終わる - 下町データサイエンティストの日常

評価指標入門読書感想文 - 下町データサイエンティストの日常

kaggle鳥コンペで63rd(silver)に入賞しました - 下町データサイエンティストの日常

下町データサイエンティスト新卒2年目が終わる - 下町データサイエンティストの日常

自分が読んだ強化学習の資料達 - 下町データサイエンティストの日常

Deep LearningでB'zの歌詞を作詞する - 下町データサイエンティストの日常

傾向スコアを用いた因果推論入門~実装編~ - 下町データサイエンティストの日常

傾向スコアを用いた因果推論入門~理論編~ - 下町データサイエンティストの日常

Data Gateway Talk Vol.1を開催しました + Vol.2の宣伝 - 下町データサイエンティストの日常

データサイエンティスト見習い新卒1年目が終わる - 下町データサイエンティストの日常

AIに聞いた、有名アーティストにとっての「愛」とは？ - 下町データサイエンティストの日常

B'zの歌詞をPythonと機械学習で分析してみた〜Word 2 Vec編〜 - 下町データサイエンティストの日常

B'zの歌詞をPythonと機械学習で分析してみた〜LDA番外編〜 - 下町データサイエンティストの日常

下町データサイエンティストの日常

B'zの歌詞をPythonと機械学習で分析してみた〜前処理編〜 - 下町データサイエンティストの日常

B'zの歌詞をPythonと機械学習で分析してみた〜LDA編〜 - 下町データサイエンティストの日常

B'zの歌詞をPythonと機械学習で分析してみた〜TF-IDF編〜 - 下町データサイエンティストの日常

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

『下町データサイエンティストの日常』

このページはまだブックマークされていません

キーボードショートカット一覧

公式Twitter

はてなのサービス

このページはまだ
ブックマークされていません