タグ

ブックマーク / recruit.gmo.jp (17)

  • Seaborn Objects ~ グラフィックの文法で強化された Python 可視化ライブラリの新形態 ~ - GMOインターネットグループ グループ研究開発本部

    2023.02.10 Seaborn Objects ~ グラフィックの文法で強化された Python 可視化ライブラリの新形態 ~ お久しぶりです。グループ研究開発部・AI研究開発質の T.I. です。色々あって久しぶりの Blog となりました。今回は、趣向を変え、最近大幅に改良された Python のデータ可視化ライブラリである Seaborn の新しい機能を紹介します。昨年9月にリリースされたばかりということもあるのか、邦どころか英語で検索しても解説資料は公式サイト以外はほぼ皆無(当方調べ)というレアな情報となります。 はじめに データ分析機械学習などにおいて、データの様々な特徴を可視化しながらの調査・探索(Exploratory Data Analysis (EDA))は、対象の正確で深い理解には不可欠なアプローチと言えます。Python のデータ可視化ライブラリとしては、

    Seaborn Objects ~ グラフィックの文法で強化された Python 可視化ライブラリの新形態 ~ - GMOインターネットグループ グループ研究開発本部
    sh19910711
    sh19910711 2024/05/04
    "Seaborn: Seaborn Objects という Interface が追加 / Seaborn Objects: R の ggplot2 と同じ Grammar of Graphics (グラフィックの文法)という思想で開発された機能 / 従来のSeaborn の機能では難しい可視化が直感的に自由にできる" 2023
  • メタ学習(meta-learning)の紹介:Regression版で今年の東京の気温を当ててみました~ | GMOインターネット 次世代システム研究室

    2018.10.01 メタ学習(meta-learning)の紹介:Regression版で今年の東京の気温を当ててみました~ こんにちは。次世代システム研究室のK.S.(女性、外国人)です。 夏休みはいかがでしたか? 暑い日々がそろそろ終わり、これからは涼しくなって行くでしょう。では、来月の気温はどれくらいになるでしょうか? 気温がよい感じで下がってくれれば、秋には綺麗な紅葉が見られるかな? 紅葉を楽しみにしているので、機械学習の関連技術を利用し、東京の気温を予測してみたいなあと思いました。 最近、International Conference on Learning Representations (ICLR)といった有名な機械学習の学会が去年の3つの最優秀論文を発表しました。その中の一つは メタ学習についての論文 でした。発表結果を聞いて、え、meta-learningってなんです

    メタ学習(meta-learning)の紹介:Regression版で今年の東京の気温を当ててみました~ | GMOインターネット 次世代システム研究室
    sh19910711
    sh19910711 2024/04/20
    "メタ学習: 学習方法を学習すること(learning to learn) / ディープラーニングならparameter、loss、optimiserだけで十分ですが、メタ学習はさらにmeta-parameter、meta-loss、meta-optimizerが必要" 2018
  • LLMコード生成ツール:plandexを試してみた - GMOインターネットグループ グループ研究開発本部

    みなさんこんにちは、グループ研究開発AI研究開発室のK.Fです。 最近、大規模言語モデル(LLM)を活用したコード生成ツールが注目を集めていますよね。先月(2024年3月)には、Devin AIがCognitionから発表され話題を集めていました。まだ、waiting list状態ですが、実際に試せる日が待ち遠しいです。今回は、そのDevin AIに影響され積極的に開発が進んでいるOSSのコード生成ツールを試してみます。 トレンド調査 GitHub Trendingを眺めていると、以下のようなものが注目を集めているようです。 Devika: https://github.com/stitionai/devika OpenDevin: https://github.com/OpenDevin/OpenDevin gpt-pilot: https://github.com/Pythago

    LLMコード生成ツール:plandexを試してみた - GMOインターネットグループ グループ研究開発本部
    sh19910711
    sh19910711 2024/04/14
    "OpenDevin: チャットベース + 環境の構築からファイルの編集まで自動で進めてくれます / plandex: 開発者の生産性向上を目的とされており、cliベースで提供 + 指示を達成するための計画(plan)と、subtasksを書き出し
  • Universal Sentence Encoderによる文章埋め込みの紹介と、転移学習への有用性の検証 - GMOインターネットグループ グループ研究開発本部

    2022.01.12 Universal Sentence Encoderによる文章埋め込みの紹介と、転移学習への有用性の検証 こんにちは。次世代システム研究室のS.Y.です。なんだかお堅そうなタイトルですが、今回はNLPネタです。 NLPの分野ではコンピュータに言語を理解させ、人間のように高度な言語認識・処理を行わせることが大きな目標の一つです。 近年の機械学習モデルベースなNLP手法は世界中の文書コーパスを学習データとすることで、高度で複雑な言語表現空間の獲得に成功し、文書分類・質問応答・含意関係認識(NLI)など様々なタスクで成果を上げています。 一方で実社会の企業・機関にとっては、それぞれに固有なタスクのために巨大な規模のデータセットを用意することは容易ではありません。そこで近年、巨大なコーパスで事前学習したモデルを使った転移学習の需要が高まっています。 転移学習に有用な埋め込みベ

    Universal Sentence Encoderによる文章埋め込みの紹介と、転移学習への有用性の検証 - GMOインターネットグループ グループ研究開発本部
    sh19910711
    sh19910711 2024/03/23
    "Universal Sentence Encoder: 文脈を考慮した各単語のベクトルを足し込み + 文章の長さで正規化 / Deep Average Network: 単語とbi-gramの埋め込みベクトルを算出 + averageなベクトルをMLPを通して固定長のベクトルへと変換" arXiv:1803.11175 2022
  • QRNNでLSTM(深層学習を用いた時系列分析)をスピードアップ - GMOインターネットグループ グループ研究開発本部

    [mathjax] 序文 お疲れ様です、次世代システム研究室のYTです。 普段からミッションとして金融データとにらめっこの毎日を過ごしています。 金融データの分析では、時間の経過に伴う変化に手がかりが含まれることが多いです。 深層学習で時系列を分析するときには、LSTM(Long Short Term Memory)をはじめとしたリカレントネットワークを使うと便利です。 深層学習は優れた学習能力がある一方、学習に結構時間がかかります。数時間などザラ、腰をすえた学習となると数日、数週間になることもあります。 この学習時間が短縮できれば、トライ&エラーを通してよりスピーディーに有益なルールを発見できるようになります。 資金力を頼りに強力なGPUマシンを揃えるのが基ですが、もっと懐にやさしいアプローチがほしいところです。 そこで今回は、LSTMを高速化するアルゴリズム QRNN(Quasi-R

    QRNNでLSTM(深層学習を用いた時系列分析)をスピードアップ - GMOインターネットグループ グループ研究開発本部
    sh19910711
    sh19910711 2024/02/20
    "資金力を頼りに強力なGPUマシンを揃えるのが基本ですが、もっと懐にやさしいアプローチがほしいところ / QRNN: 擬似的にリカレントニューラルネットワークを実現するアルゴリズム + CNNを活用して、計算処理の並列化" / 2017
  • 論文紹介:「常識」を使って強化学習してみた(意訳) - GMOインターネットグループ グループ研究開発本部

    こんにちは。次世代システム研究室のJK(男)です。今回は表題の通り論文紹介をします。紹介する論文は、今年の5月に投稿された「Enhancing Text-based Reinforcement Learning Agents with Commonsense Knowledge」(以下、Murugesan+20)です。直訳すると、「常識を用いることで、テキストベースの強化学習のレベルを上げることができたよ」といったところでしょうか。1章でハイライト、2-4章で論文をざっくり紹介して最後に感想を書いています。ちなみに自分が面白いと思ったところだけ紹介しますので、気になった方は元論文にあたってください。 1.論文の背景とハイライト この論文のポイントは「常識」の部分です。強化学習は人の脳内での学習系に似ており、未知の環境でのエージェントの学習などに向いています(強化学習の説明は以前のブログ等を

    sh19910711
    sh19910711 2023/07/16
    "エージェントは橋から落ちたら危険ということを事前には知らないので、まず落ちてみます。落ちて報酬が低いことを学習して、初めて橋から落ちずに渡ることができます / 命がいくつあっても足りない" / 2020
  • GitHub Copilot にいいコードを書いてもらう方法 - GMOインターネットグループ グループ研究開発本部(次世代システム研究室)

    D.M.です。 AI とともにプログラミングをしてみた体験記です。 モチベーション 2022年11月、 ChatGPT が登場したことにより、今の学生は AI にレポートを書かせるというような話が普通に出るご時世になりました。 ChatGPT は例えばプログラミングのお題を投げると AI がかなり高精度なプログラムを書いてレスポンスしてくれたりします。この技術は将来的に Google 検索を脅かす存在になるのではというほどの注目を集めています。 ペアプログラマー Github Copilot よりプログラミングに特化した AI サービスとして、 GitHub Copilot があります(ギットハブ コパイロットと読む)。 2022年6月に正式リリースされています。 このツールには以下のような特徴があります。 ・ソースの流れやコメントに合わせて次に書くべきコードをサジェストしてくれる。 ・V

    GitHub Copilot にいいコードを書いてもらう方法 - GMOインターネットグループ グループ研究開発本部(次世代システム研究室)
    sh19910711
    sh19910711 2023/05/01
    "GitHub Copilot と仲良くやる方法: コメント書け / 1人でググりながらサンプルを読んであれこれやるより、GitHub Copilot と一緒にプログラミングをしたほうがだいぶ早く実装が完了するし、何より楽しい"
  • Spark 3.0の新機能によるFXデータの抽出時間を短縮してみた - GMOインターネットグループ グループ研究開発本部(次世代システム研究室)

    こんにちは。次世代システム研究室のT.D.Qです。 2020年6月にビッグデータを並列処理するクラスタコンピューティングフレームワーク「Apache Spark 3.0.0」が公開されました。性能面では、Adaptive Query Execution(AQE)、Dynamic Partition Pruning(DPP)、各種の最適化機能により、TPC-DSのベンチマークテストでは、Spark 3.0はSpark 2.4よりもおおよそ2倍高速です。今回の記事は大量FXデータの抽出にどのくらい時間を短縮できるかSpark 3.0の新機能を検証して紹介したいと思います。 検証実行環境 今回利用するミドルウェアは、以下のものでCentOS7.8サーバで構築されたクラスタで試しました。 Hadoop 3.2.1 Spark 3.0.0 Delta Lake 0.7 (delta-core_2.1

    Spark 3.0の新機能によるFXデータの抽出時間を短縮してみた - GMOインターネットグループ グループ研究開発本部(次世代システム研究室)
    sh19910711
    sh19910711 2023/01/15
    2021 / "Spark 3.0の新機能を使って大量のテーブル結合クエリの実行時間を短縮できるか検証 / AQE: 実行中に実際のデータの統計情報を見て発生するクエリを再最適化 + デフォルト設定がOff"
  • 自然言語処理と時系列を考慮した推薦システムの関係(Transformer4Rec) - GMOインターネットグループ グループ研究開発本部

    こんにちは。次世代システム研究室のT.Y.です。よろしくお願いします。 皆さん、推薦システム使っていますか? ここで使っていないと答える方はほぼいないのではないでしょうか。 わかりやすいところではSNSや動画サイト、ECサイトで使われていますが、その他にもニュースサイトやインターネット上の広告など、気づかないうちに様々な場所で我々は情報を推薦されています。 そんな推薦システムですが、実は機械学習の分野で推薦システムは自然言語処理と深い関わりがあるという話があります。こう言うと、「ニュースとかSNSとか、テキストを含んだ情報を推薦するのだから当たり前では?」と思われる方もいるかもしれません。 確かにテキスト情報は推薦システムを構築するときによく使う情報で、テキスト情報を扱うときには自然言語処理は欠かせないのですが、今回のお話はそういう関わりの話ではありません。 今回の話は、自然言語処理の機械

    sh19910711
    sh19910711 2022/01/23
    "テキストデータ全体で各単語の出現回数 > 一部の単語が非常に多く出現し、その他の単語はあまり出現しない / アイテムの購入数の分布や閲覧数の分布も似たような形 / 最初の手法はWord2VecをもとにしたProd2Vec (2014)"
  • β版のDataproc on GKE (Google Kubernetes Engine) でSparkを検証してみた~ついでにBigQueryのコストも調査 - GMOインターネットグループ グループ研究開発本部

    結論を先に言うと、GKEクラスターの作成以上にメタストア連携にどハマりし、、、メタストア連携を通してやりたかったことは今回見送りました。。メタストアを指定してGKE用のDataprocクラスターを作成すること自体は成功しますが、Sparkのジョブを送信したときに一度目はテーブル作成できても、二度目のジョブ送信時に新たなSparkセッションで処理しようとすると、メタストアに格納されたはずのテーブル定義の情報が取得できませんでした。 GKE用DataprocイメージのHadoopやSparkのバージョンが2系ということもあり、メタストアのバージョンを2.3.6にしていましたが、それでうまくいかなかったのでひとつ前の2.2.0でも試しましたがやっぱりダメでした。 結局、GKE用のDataprocクラスターは以下のように作成しました。 GKE_CLUSTER=dataproc-gke-cluste

    sh19910711
    sh19910711 2022/01/23
    "GKEクラスターの作成以上にメタストア連携にどハマり / 通常のDataprocクラスター > Storage PD CapacityのSKUコストが結構かかる印象 > GKE用のDataprocクラスターではそういうことはなく > より処理量に応じたコストに"
  • Word2Vec で見つけられなかった自分らしさに fastText で速攻出会えた話 - GMOインターネットグループ グループ研究開発本部

    D. M. です。昨今はテキスト解析が非常にやりやすい時代になりました。チーム内でも活発に検証・活用されており、私も流れに乗って Word2Vec や Doc2Vec を触りだしましたが、参考になる日語の記事多いですね。よくあるのはニュース記事・青空文庫Wikipedia の解析ですが、各社の独自の文字列データ、しかも結構なサイズのデータをわせて関連語を出す記事などもあったりして、実利用可能かどうかは関係無しに楽しそうです。 やりたいこと 類語判定について、ウェブ上では既に相当いろんな種類の記事を上げられていて凄いなあと思いつつ、結構簡単に見えたので私も何か検証しようと思いました。ただ同じことをやってもあまり面白みが無いですし小規模でも始められるようなことを考えて、ひとまず自分の Twitter のつぶやきをわせて類語を見てみることにしました。今日はそんな初歩的な試みの紹介です。

    Word2Vec で見つけられなかった自分らしさに fastText で速攻出会えた話 - GMOインターネットグループ グループ研究開発本部
    sh19910711
    sh19910711 2021/10/16
    "非常に個人的なことなのでこの感動を皆さんに伝えられないのは本当に残念ですがこの類似語は完全に私です。過去につぶやいた内容が頭に浮かぶようです"
  • GNNを使ってビットコインWalletを分類して可視化してみた - GMOインターネットグループ グループ研究開発本部

    こんにちは。次世代システム研究室のC.W.です。 暗号資産って最近流行っていますね。今年の年始からビットコイン(BTC)の価格がジェットコースターの様に動いているのは皆さんご存知かと思います。その後ろにインフルエンサー達がSNSで暗号資産の良し悪しについて発信して価格を動かしたり、BTCの資産家が膨大なBTCを買い売りしていることが存在しています。 BTCの一つの特性は全ての取引(Transactions)が公開資料です。ですけど、前記のインフルエンサーや資産家の様なことが存在しているのは分かっていますが、そうの様は容易に捉えることができません。その根的な原因は複雑なTransactionsのネットワークと個人が複数のWalletを所有しているのだと思います。その謎を少しでもときたいため、今回は機械学習のGraph Neural Network(GNN)を使ってTransaction N

    GNNを使ってビットコインWalletを分類して可視化してみた - GMOインターネットグループ グループ研究開発本部
    sh19910711
    sh19910711 2021/10/11
    "Transaction Networkを無向グラフとして扱う + AttentionWalkでNode Embedding + K-meansでEmbeddingの特徴量をクラスタリング / AttentionWalk: Self-attention layerと同じ年で同じくGoogle AIから発表"
  • node2vecの論文紹介 - GMOインターネットグループ グループ研究開発本部

    こんにちは次世代システム研究室のJK(男)です。最近グラフデータに興味を持ちつつあるので、今回は気になった論文の簡単な紹介をします。紹介する論文はnode2vecです。 グラフデータとは、ノード(頂点)とノード間の連結関係を表すエッジ(枝)で構成されるデータ構造のことです。エッジに重み(どのくらい強く結びついているか)の情報が付加される場合もあります。たとえば、Facebookのユーザー(ノード)とユーザー間の友達関係(エッジ)をつなげていくと、巨大なグラフができますね。あとよく言われるのは、空港(ノード)とその間をつなぐ航路(エッジ)とか。ハブ空港という単語を聞くこともあると思いますが、たくさんのエッジを持っている空港と解釈できます(=多くの空港からの発着便がある)。グローバル化・IT化による物理空間・デジタル空間でのつながりが広がるなか、グラフデータの理解はこれからますます重要になって

    node2vecの論文紹介 - GMOインターネットグループ グループ研究開発本部
  • FPGAに機械学習モデルを実装する – その1:ランダムフォレストによるクラス分類 - GMOインターネットグループ グループ研究開発本部

    こんにちは,次世代システム研究室のS.T.です。普段はHadoopネタを書いていますが,今回はテーマをがらっと変えて,FPGAネタです。 「FPGA機械学習の推論部分を実装し高速に処理を行う」という技術は耳にしたことがありましたが,漠然としたイメージがあるだけで実際にどのように実装していくのかということは知りませんでした。調べてみると,高位合成を用いた手法(1)や,学術研究として開発されたアクセラレータとしてのアーキテクチャ(2)は存在するようですが,シンプルなサンプルコードの形で存在するものはないようです。 もちろん「ソフトウェアエンジニアやデータサイエンティストが作成したモデルを高位合成でFPGAに落とし込みアクセラレータとして使用する」というユースケースを考えれば納得がいきますし,応用できる範囲もHDLで直接実装するより広くなると思います。 しかし,「低コスト小規模なローエンドFP

    FPGAに機械学習モデルを実装する – その1:ランダムフォレストによるクラス分類 - GMOインターネットグループ グループ研究開発本部
    sh19910711
    sh19910711 2021/06/03
    "784次元のMNIST手書き文字画像をそのまま784ビットの入力信号 => 4ビットの識別結果(2進値) / 伝搬遅延を実質的な「推論に要する時間」と考え,ソフトウェア実装の「predictを呼び出してから結果を得るまでの時間」と比較"
  • Apache HAWQ を最新の Hadoop パッケージ ( HDP 2.5.3 ) で使ってみた(前編) | GMOインターネット 次世代システム研究室

    2017.04.04 Apache HAWQ を最新の Hadoop パッケージ ( HDP 2.5.3 ) で使ってみた(前編) こんにちは。次世代システム研究室のデータベース・Hadoop (MySQL/MariaDB/PerconaServer, PostgreSQL, Hive, HBase, etc..) 担当のM.K.です。 今回は一連の GreenplumDB の検証の続きで、GreenplumDB を Hadoop とくっつけてしまった変種?の Apache HAWQ を試してみます。 HAWQ のアーキテクチャー理解と、HAWQ クラスタの構築をやってみました。 とりあえず前編です!後編はまたいつか・・ HAWQ は Hadoop で動くものの、GreenplumDB の特徴自体は変わらないので、以前に書いた「CentOS 7 に Greenplum DB クラスタを構築

    Apache HAWQ を最新の Hadoop パッケージ ( HDP 2.5.3 ) で使ってみた(前編) | GMOインターネット 次世代システム研究室
    sh19910711
    sh19910711 2021/01/04
    "GreenplumDB は PostgreSQL のフォークで Redshift のようなプロダクト / HAWQ はそれをさらにHadoop の HDFS に搭載したようなもの / HAWQ は HAdoop With Query の頭文字から命名"
  • Hive3のトランザクションを有効にしたテーブルにSpark2を連携してみる~Hive Warehouse Connector検証 - GMOインターネットグループ グループ研究開発本部

    2020.01.10 Hive3のトランザクションを有効にしたテーブルにSpark2を連携してみる~Hive Warehouse Connector検証 こんにちは。次世代システム研究室のデータベース と Hadoop を担当している M.K. です。 前回のブログでHive3の新しくなったACIDトランザクションを試しましたが、今回はそのトランザクションを有効にしたテーブルと、Spark2の連携について検証してみました。実際の運用では多くの場合、HiveとSpark両方を使うことが想定されるためです。 目次 環境 環境とデータ Hadoopクラスタのパラメータ設定 検証準備 Hive3とSpark2の連携はどうやるのか? 検証概要 Hive Warehouse Connectorを使う準備 Hive Warehouse Connectorの検証 先ずPySparkシェルで試す spark

  • Digdag 入門 - GMOインターネットグループ グループ研究開発本部

    D. M. です。レガシーの crontab が肥大化して困っています。今日はそのリプレイス候補である Digdag を使ってみた話です。 やりたいこと crontab は Linux のスケジューラの仕組みで定期バッチの実行用途でよく利用されますが低機能です。順序の依存関係やアラートは毎回独自に作りこまなければいけません。そのため近年は代替スケジューラを利用するケースが多いです。その候補のひとつである Digdag について検証したいと思いました。 Digdag を使うべき人 一般的にバッチスケジューラに求められる要件的には以下のようなものがあります。 ・スケジュール実行 ・複数バッチの順番の制御(ワークフロー) ・GUIでの管理 ・失敗時のアラート ・SLA 機能(長時間実行していたらアラートを飛ばす) ・分散実行 などなど 代替として広く知られているものですと Jenkins でのワ

    Digdag 入門 - GMOインターネットグループ グループ研究開発本部
  • 1