タグ

ブックマーク / zenn.dev/tellernovel_inc (4)

  • Mercari Dataflow Templateの紹介

    テラーノベルで機械学習を担当している川尻です。テラーノベルで定期実行タスクの管理には、Google CloudのマネージドサービスであるCloud Composerを活用しています。以前にもテラーノベルのテックブログで他のサービスと比較して紹介しています。 定期実行タスクの中で典型的な処理の一つとして、BigQueryで処理した結果をGoogle Cloud StorageやCloud Spannerに書き出すというものが挙げられます。そういった処理のとき、Mercari Dataflow Templateが便利なので紹介します。また、最後にComposerから使うときのTipsをまとめました。 Dataflowのつらいところ Dataflow[1] というのは、Google Cloudのフルマネージドでサーバーレスなデータ処理サービスです。処理のパイプラインは、Apache Beam[2

    Mercari Dataflow Templateの紹介
    sh19910711
    sh19910711 2024/04/20
    "ComposerからDataflowを呼び出すのは簡単 / 自分でDataflowのコードを書くのは結構手間 / Mercari Dataflow Template: 必要な設定を記入してコマンドやコードからFlex Templateを起動するだけで実行 + 単発で実行する処理にもとても便利"
  • BigQueryリモート関数で機械学習モデルを動かす

    テラーノベルで機械学習を中心に担当している川尻です。 テラーノベルでは、定期バッチ処理は主にBigQueryかDataflowを組み合わせて実行しています。データはBigQueryのテーブルにほとんど保存されているため、基的にはBigQueryで完結させたいです。しかし、自作した機械学習モデルは前処理も含めてpythonで書く必要があるため、そこだけDataflowを使っていました。最近、BigQueryリモート関数を使ってみたところ、意外と簡単にBigQueryだけでシンプルに完結させることができました。今回は、機械学習モデルをBigQueryから実行したときのちょっとしたハマりどころや、実際にどれくらいコストや処理時間がかかったのか紹介します。 BigQueryリモート関数とは BigQueryリモート関数は、好きな言語やフレームワークでCloud FunctionsやCloud R

    BigQueryリモート関数で機械学習モデルを動かす
    sh19910711
    sh19910711 2024/04/17
    "リモート関数: パラメータの調整が少し難しかった + 何度もリトライされてしまう + 少しずつ増やしながらエラーが出ないパラメータを探索 / BigQuery Dataframes: デコレーターをつけるだけで簡単にリモート関数が使えて" 2023
  • 大規模グラフデータの可視化:Cosmographの紹介

    テラーノベルで機械学習を中心に担当している川尻です。最近、グラフニューラルネットワーク(GNN)に注目しており、サーベイや検証をしております。以前にも以下の記事を書きました。 複雑なアルゴリズムを適用する前に、当たりをつけたり、結果を確認したりするためには、可視化が重要です。記事では、いくつかあるグラフの可視化ツールの中でも、大規模なネットワークでも簡単に使えるCosmographを紹介し、テラーノベルのデータを使って可視化してみます。 Cosmographとは グラフデータを可視化するツールはたくさんありますが、もっとも有名なのはgrapgvizです。graphvizにはsfdp[1]という大規模なデータに対応したアルゴリズムが用意されていますが、ノード数が10k以上のような大規模なグラフになると計算時間もかなりかかって、パラメータ調整も大変になります。 Cosmographは、Web

    大規模グラフデータの可視化:Cosmographの紹介
    sh19910711
    sh19910711 2023/09/07
    "Cosmograph: WebGLを使用して大規模なグラフをレンダリングできる + 100k以上のノードを持つグラフでも計算しながらレンダリング / npmパッケージとして公開されているため、自分でウェブアプリに組み込むことも可能"
  • グラフニューラルネットワーク(GNN)を使ったタグ分類

    テラーノベルで機械学習を中心に担当している川尻です。最近、グラフニューラルネットワーク(GNN)に注目してサーベイしています。今回は、実際のテラーノベルのデータを簡単なモデルに適用してみたので報告します。 グラフニューラルネットワーク (GNN) グラフニューラルネットワーク(GNN)とは、グラフ理論において対象を「ノード」と「エッジ」からなる「グラフ」として扱うためのニューラルネットワークの一種です。例えば、テラーノベルにおいては、ノードがユーザーや作品の一つ一つを表し、エッジが「読んだ」「いいね」「フォロー」などを表します。ディープラーニングの発展に伴い、GNNの研究も盛んになっており、大規模なデータや様々なタスクに適用されるようになっています[1]。 テラーノベルでのグラフの例 arxivで投稿された年ごとの「Graph Neural Network」がタイトルに含まれている件数 G

    グラフニューラルネットワーク(GNN)を使ったタグ分類
    sh19910711
    sh19910711 2023/06/04
    "作品についたタグのクラス分類 / 特に二次創作ファン同士だけで通じるような、wrx2、2434、ci、knkz、zmなど、イニシャルで省略されたものも多い / ユーザーや作品との関係性もヒントにグラフとして解くことができるのでは"
  • 1