タグ

ブックマーク / upura.hatenablog.com (9)

  • Poincaré Embeddings でJ1リーグのチーム・選手を可視化 - u++の備忘録

    ふと「Poincaré Embeddings」*1で遊んでみたいと思い立ち、サッカーJ1リーグのデータで試してみました。 Poincaré Embeddings gensimでの実装とデータセット Poincaré Embeddingsの学習 活用方法 おわりに Poincaré Embeddings Poincaré Embeddingsに関する説明は、ABEJA*2やscouty*3のブログに譲ります。 Poincaré Embeddings は端的に言うと word2vec の埋め込み先をユークリッド空間ではなく双曲空間にするという手法で、階層構造やべき分布をもつデータを埋め込むという問題設定において、低次元でもよい表現を与えられるという特徴があります。 Poincaré Embeddings による職種の類似度計算とその利用 - LAPRAS AI LAB gensimでの実装とデ

    Poincaré Embeddings でJ1リーグのチーム・選手を可視化 - u++の備忘録
    sh19910711
    sh19910711 2024/05/11
    "gensimの実装では正則化の影響で周囲にノードが集結しすぎないような工夫 / チーム名が中心 + 円周側に選手 / 「浦和レッズ」の近くに「サンフレッチェ広島」が配置 + 移籍した選手の影響ではないか" 2019
  • 【論文メモ】ブートストラップ法による科学ニュース記事からの雑誌名抽出 - u++の備忘録

    ブートストラップ法による科学ニュース記事からの雑誌名抽出 菊地真人, 吉田光男, 梅村恭司 (豊橋技科大) 言語処理学会第24回年次大会(NLP2018) http://anlp.jp/proceedings/annual_meeting/2018/pdf_dir/P11-6.pdf どんなもの? 日語の科学ニュース記事では,研究成果がわかりやすく述べられるが,出典となる文献情報は明記されない傾向にある.このことは,読者が研究の詳細を知ることへの障壁となっている.一方,研究内容が掲載された雑誌名は記事中に明記されることが多く,雑誌名を自動抽出することで対象の文献情報を探索する手がかりが得られる. 日語の科学ニュース記事からの雑誌名抽出に取り組み,得られた雑誌名をリスト化する 雑誌名が特定の文脈に出現しやすいという仮定を立て,雑誌名抽出に対してこの仮説を裏付けた 先行研究と比べてどこがす

    【論文メモ】ブートストラップ法による科学ニュース記事からの雑誌名抽出 - u++の備忘録
    sh19910711
    sh19910711 2024/05/07
    "雑誌名が特定の文脈に出現しやすいという仮定 + 雑誌名の両側 / ブートストラップ法: 少数の固有表現を教師データ + 抽出と辞書の拡充を交互に繰り返す + 少数の固有表現をもとに多くの固有表現を抽出" NLP2018:P11-6 2018
  • 【書籍メモ】『Pythonによる金融テキストマイニング』(朝倉書店) - u++の備忘録

    Pythonによる金融テキストマイニング』(朝倉書店)を読みました。180 ページ弱で金融関連文書を題材にした話題がまとまっていて、この領域に飛び込む初学者向けに紹介しやすい書籍だと感じました。 www.asakura.co.jp 章立てを以下に示します。第 1 章で全体像を示した後、第 2 、 3 章で開発環境構築と MeCab などのツール・ライブラリを紹介します。第 4 章から第 7 章は、応用事例です。最後に第 8 章で、書籍内で扱えなかった話題や将来展望を解説しています。 金融テイストマイニングの概要 金融データ解析・機械学習の環境構築 テキストマイニングツールの使い方 多変量解析を用いた日銀レポート解析と債券市場予測 深層学習を用いた価格予想 ブートストラップ法を用いた業績要因抽出法 決算短信テキストからの因果関係の抽出 金融テキストマイニング応用の課題を将来 まず、第 4

    【書籍メモ】『Pythonによる金融テキストマイニング』(朝倉書店) - u++の備忘録
    sh19910711
    sh19910711 2024/04/29
    "金融テキストマイニングというと金融時系列予測を想像しがち / 第 6 章で業績要因、第 7 章で因果関係の抽出なども応用事例として紹介 / 7章: 決算短信テキストからの因果関係の抽出" 2022
  • Adversarial Validationを用いた特徴量選択 - u++の備忘録

    先日公開した「IEEE-CIS Fraud Detection」コンペの解法*1の中で、Adversarial Validationの考え方を用いた特徴量選択について何回か質問がありました。 記事では、Adversarial Validationの考え方を用いた特徴量選択を解説します。 Adversarial Validationとは いつ使う? 解決策 Adversarial Validationを用いた特徴量選択 CPMPさんの「Microsoft Malware Prediction」の解法 具体的なやり方 おわりに Adversarial Validationとは 以前に書いた自分の記事*2から抜粋します。 いつ使う? TrainデータとTestデータの分布が異なる場合 → Trainデータから適切にValidationデータを作成するのが難しい → Kaggleの場合、Loca

    Adversarial Validationを用いた特徴量選択 - u++の備忘録
    sh19910711
    sh19910711 2024/04/25
    "TrainデータとTestデータの分布が異なる + Kaggleの場合、LocalCVとLBのスコアが一致しない / Adversarial Validation: 「TrainデータかTestデータかを判定する分類器」を作る + 似ている順にソート / 応用方法の一つとして特徴量選択" 2019
  • 【論文メモ】強化学習を用いないGANによる文生成モデル「LaTextGAN (latent-space GAN for text)」 - u++の備忘録

    Adversarial Text Generation Without Reinforcement Learning どんなもの? 強化学習を使用しないGANによる文生成モデル「LaTextGAN (latent-space GAN for text)」を提案 オートエンコーダを利用して文の低次元表現を学習させて生成器に伝播させることで、現実的なレベルでの文生成を実現 論文リンク https://arxiv.org/abs/1810.06640 著者/所属機関 David Donahue, Anna Rumshisky / University of Massachusetts Lowell 媒体 arxiv 投稿日付 [v1] Thu, 11 Oct 2018 22:50:38 GMT 先行研究と比べてどこがすごい? テキストのシーケンスが離散的で勾配が識別器から生成器に伝播できないため

    【論文メモ】強化学習を用いないGANによる文生成モデル「LaTextGAN (latent-space GAN for text)」 - u++の備忘録
    sh19910711
    sh19910711 2024/04/16
    "LaTextGAN: AEを利用して文の低次元表現を学習 + GANが独自のベクトルを生成するように訓練 / 文ベクトルを可視化することで、提案モデルがオートエンコーダーの潜在空間を正しく学習していると示した" arXiv:1810.06640 2018
  • 企業名認識のデータセット「JCLdic」で学習したEncoder-Decoderモデル - u++の備忘録

    TISが公開している企業名認識のためのデータセット「JCLdic」*1を用いて、Encoder-Decoderモデルを学習させてみました。 結果と考察 学習・検証に利用していないデータに対して適応した結果を下図に示します。統計的な出現頻度に基づくので当然な気がしますが①「ヤ」→「ャ」に修正②「有限会社」を明示しない場合は「株式会社」を付与ーーしています。 Encoder-Decoderモデルを用いた正規化は、クックパッドのブログ*2を読んで以来、試してみたいと考えていました。 今回は簡単のため「JCLdic」をそのまま活用しましたが「株式会社」を前に付けるか後に付けるかなどは、統計的に処理するのは不可能なタスクなように感じます。学習前のtgt側のデータから「株式会社」「有限会社」などを削除しておくことで、会社名部分のみの正規化というタスクに変換する方が理にかなっていそうです。 実装 実装に

    企業名認識のデータセット「JCLdic」で学習したEncoder-Decoderモデル - u++の備忘録
    sh19910711
    sh19910711 2023/05/13
    2020 / "JCLdic: TISが公開している企業名認識のためのデータセット / 「株式会社」を前に付けるか後に付けるかなどは、統計的に処理するのは不可能なタスクなように感じます"
  • 【論文メモ】29組のデータアナリストに同じデータセットと同じ質問を与えても、分析結果がバラバラだったという研究 - u++の備忘録

    どんなもの? 29グループ(計61人)のデータアナリストに、同じデータセットと同じ質問を与えたときの分析アプローチのバラツキを分析。質問は「サッカーの主審は、肌の白い選手に比べて肌の黒い選手にレッドカードを与える可能性が高いですか?」。 分析アプローチはチーム間で大きく異なり、オッズ比で0.89から2.93の範囲だった(中央値は1.31)。20チーム(69%)が統計的に有意な正の結果を示した一方で、9チーム(31%)は有意な関係を示さなかった。 これらの知見は、たとえ真摯な専門家集団であっても、複雑なデータの分析結果に主観的な要素が入り込むのは避け難いことを示唆している。 分析を透明化する手段として、同じ研究課題を同時に調査するために多数の研究チームを採用する「クラウドソーシング」が有用であると提言している。 論文リンク http://journals.sagepub.com/doi/10

    【論文メモ】29組のデータアナリストに同じデータセットと同じ質問を与えても、分析結果がバラバラだったという研究 - u++の備忘録
    sh19910711
    sh19910711 2022/12/07
    2018 / "同じデータセットと同じ質問を与えたときの分析アプローチのバラツキ / 完全に「客観的」はあり得ないので、その中でどうやって意思決定に値する分析をしていくかを考えさせられる論文 / doi/10.1177/2515245917747646"
  • 機械学習を用いたサービス開発者として最近読んだ3冊 - u++の備忘録

    機械学習を用いたサービス開発者として、最近読んだ3冊の簡単な紹介です。 ここ2年ほどは、自らプロジェクトを設計して推進する立場も多くなってきました。 いずれも手元に置いておいて、しばらくして読み返すとまた違った気づきがあるような書籍だと思います。 『よくわかるパーソナルデータの教科書』(オーム社) 企業でのパーソナルデータの利活用について、法律・倫理・技術など分野横断で解説している書籍です。 平易な文章で具体例多めに書かれていて、非技術者でも取っ付きやすいと思います。 機械学習を活用する上で、入力となるデータや出力されたスコアの扱い方には細心の注意を払う必要があります。 「個人情報」や「パーソナルデータ」とは何か、情報技術分野との用語の使い方の違い、意識すべき観点など、頭の中を整理しておく上で役立つ情報がまとめられていると感じました。 改めて気を引き締め直す良い契機となりました。 www.

    機械学習を用いたサービス開発者として最近読んだ3冊 - u++の備忘録
    sh19910711
    sh19910711 2022/08/18
    "『よくわかるパーソナルデータの教科書』: パーソナルデータの利活用について、法律・倫理・技術など分野横断で解説している書籍 + 情報技術分野との用語の使い方の違い、意識すべき観点など"
  • TF-IDFを用いた「Kaggle流行語大賞2018」【kaggle Advent Calendar 14日目】 - u++の備忘録

    記事は、kaggle Advent Calendar 2018の14日目の記事です。12日目で最後の予定でしたが、穴が空いていたので2日ぶり6回目の投稿です。 qiita.com はじめに 記事では、年の瀬ということで「Kaggle流行語大賞2018」という題材に取り組みます。 具体的には、今年に公開された全てのKernelのタイトルを収集し、単語ごとの登場回数を計算しました。冠詞や代名詞などの一般的な単語を除外し、さらにTF-IDFを用いて2018年に特に多く登場した単語を特定することで、栄えある「Kaggle流行語大賞2018」を決定したいと思います。 データ収集 今回は「Meta Kaggle」という、Kaggle公式が1日ごとにデータを更新しているメタ情報を利用します。最新のデータが12月12日の時点のcsvをダウンロードしました。 www.kaggle.com "Kernel

    TF-IDFを用いた「Kaggle流行語大賞2018」【kaggle Advent Calendar 14日目】 - u++の備忘録
  • 1