サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
GPT-4o
zenn.dev/bilzard
概要 KaggleのHMSコンペ[4]の1st place solution[3]のアンサンブルモデルの一つにSuperlets[1]というfilterbankが使われていた。このfilterbankの特徴を原著により確認していく。 原著ではEEGに対する視覚的評価などを行なっているが、ここではとりあえず何をやっているかを把握したいだけなので理論的な内容に留める。 なお、タイトルの「超解像度」というのは原著のタイトルにちなんだ。おそらく著者らの意図としては「単一フィルタにおける理論的な制約を超えた解像度の表現が得られる」というのが言いたいのだと思われる。 用語 日本語でどう訳すのが一般的かわからなかったが、本稿では仮に以下の訳を用いる。 周期数(number of cycles): Wavelet変換(Morlet)における窓関数のパラメータc。直感的には「window中に含まれる有効な周
論文 Recurrent Neural Networks with Top-k Gains for Session-based Recommendations 概要 時系列ベースの推薦モデルであるGRU4Recのロス関数と負例のサンプリング戦略を改良し、GRU4Recと比較してMRRとRecall@20で最大35%の改良に成功した。 GRU4Recの課題を改良した新しい損失関数を提案 負例のサンプリング方法を改良 前提知識 GRU4Recとは何か? 時系列ベースの推薦モデルの一種で、LSTMの簡易バージョンであるGRUを採用したもの。 Session-based Recommendations with Recurrent Neural Networks 時系列ベースの推薦モデルとは? あるユーザの商品に対するアクション(クリックした、カートに入れた、購入したなど)の時系列を入力として、次
論文 Training data-efficient image transformers & distillation through attention 概要 ViTの学習には300M枚の画像からなる膨大なデータセットが必要だった。これに対し、提案手法はViTと同じアーキテクチャを使い、学習方法の改善と新たに提案した知識蒸留手法を適用することで、imagenetのみを使って最新のConvNetと同等以上の性能を達成した。 提案手法の特徴 Transformerに特化した注意ベースの知識蒸留[1]手法を新たに提案 上記知識蒸留手法と重いデータ拡張などによる一連の学習手法の改善により、一般的に使われているimagenetのみによって最新のConvNetの同等以上の精度を達成(図1) 図1: 最新モデルとの精度-スループットの比較 注意による知識蒸留 Soft distillation: 教
概要 本稿ではRNNが学習できるコンテクスト長について考察する。 「LSTMやGRUは素のRNNと比べて長期的なコンテクストを学習しやすい」と一般的に言われているが、具体的にどのような構造によってそのような性質を持つのか、また、どの程度「長期的な」コンテクストを学習できるのかについて数学的形式に基づいた洞察を得ることを目的とする。 本稿の成果は以下である。 各種RNNのアーキテクチャの特徴と各構成要素の機能について直感的な解釈を示した LSTMやGRUが素のRNNに比べて「長期的なコンテクストを学習しやすい」とする根拠について定義式に基づき議論した RNNの各種アーキテクチャについて まず、各種RNNのアーキテクチャごとの違いを整理する。 数学的表現および表記については[1]を参照した。 表記: t: 時系列のインデックス x_t: 入力信号の時系列 o_t: 出力信号の時系列 h_t:
本Surveyの目的 近年LLMの学習や推論に関するさまざまな新しい手法が提案されている。本surveyではこれらの手法を外観することで、近年のLLM研究のキャッチアップを容易にすることを目的とする。また、これらの手法で用いられたアイデアの幾つかはLLM以外の言語モデルや、言語以外のドメインにおいても転用できるものもあると信じている。 LLMに関する提案手法の外観 以下の観点でまとめる。 アーキテクチャの改善に関する手法 事前学習の安定性に関わる手法 事前学習の高速化に関わる手法 推論の高速化に関する手法 Decode手法 解釈性に関する手法 注意事項として、今までに自分が読んだ論文を中心にまとめているため網羅的なsurveyとはなっていない。また、fine-tuningに関わる手法については提案された手法の多さと比較して自分の調査した範囲が不足していると考えたためこのsurveyからは除
概要 Transformerはvision, textなど各種ドメインで成功を収めているが、計算量とメモリ消費が系列長の2乗に比例するため、長い系列を扱うのに課題がある。本稿ではこのような計算量の課題に対応することを目的として提案されたTransFormerの代替アーキテクチャについてまとめる。 以下に挙げる手法は自分が過去に論文を読んだことのあるものをまとめたものであり、網羅的ではないことに注意。 代替パターン 概ね以下のいずれかに分類される。 attentionの間引き 近似計算 計算過程の最適化 表1に画像、言語の各ドメインについてこれらの手法をまとめる。 Attentionの間引き Attentionは長さNの系列について、全てのペアについてattentionを計算しているが、関連性の強いペアのみに限定することで計算量を減らすというのがこの種の手法の方針である。 画像ドメインにいて
概要 勾配ベースの最適化手法について直近数ヶ月で読んだ論文を元にまとめる。網羅的ではないことに注意。 構成 以下のような構成でまとめる。 Adamの派生手法 補助的に用いられる最適化手法 リソース消費を最適化する手法 1. Adamの派生手法 Decoupled weight decay (SGDW, AdamW) [5]ではAdamのweight decayの実装の問題点を理論的に解明し、これに対処する代替アルゴリズムを提案した。提案手法はAdamの汎化性能を改善し、CIFAR-10, ImageNet32x32による評価でSGD with momentum(提案手法以前ではAdamを上回ることが多かった)と同等の性能となることを示した。 Rectified Adam (RAdam) RMSpropやAdamなどのadaptiveな最適化手法において、warmupが学習の安定性や汎化性能
論文 Zero-shot Audio Source Separation through Query-based Learning from Weakly-labeled Data 概要 これまで提案された音源分離手法は以下のいずれかである。 個々の音源のクラスに対して個別にモデルの学習が必要なもの 1つのモデルで複数のクラスの音源を学習できるが、未知の音源には対応しないもの 本論文で提案するのは1つのモデルで未知の音源を含む普遍的な音源の分離を可能とするモデルである。 提案手法の特徴 弱ラベル付きデータセット(AudioSet)を使った音声イベント検出器[1]を提案 1つのモデルで複数のクラスの音源を分離する 学習時に使用されていない未知の音源にも対応 未知の音源に対しては新たにモデルのパラメータの学習を必要としない[2] 提案モデルのアーキテクチャ 以下の3つのモジュールからなる(図1
問題 以下のコマンドでカーネルを書き換えようとしても、ignoring: Read-only file systemと表示されて失敗する。 sysctl: setting key "kernel.randomize_va_space", ignoring: Read-only file system 原因 カーネルパラメータはホストマシンとDockerコンテナで共通の設定になっている。 デフォルトでDockerコンテナからカーネルの設定を変更しようとすれば、ホストマシンにも影響が及ぶので警告が出て失敗するのは正しい振る舞いである。 コンテナをprivilegeモードで起動した場合はホストマシンの設定も変更できようになるが、Dockerコンテナ内でカーネルのパラメータを変更すればホストマシンにも変更が及ぶ。 つまり、privilegeモードで起動したコンテナはホストマシン側に影響する変更を許
はじめに Transformerにおけるアテンションの計算式は、scaleを無視すると以下のように計算される[1]。 \text{output} := \text{softmax}(QK^\top) \tag{1}V この計算が数理的にどのような意味を持つのかについて考察する。 記法 以下の議論では、表記を簡単にするため、「Xの埋め込みベクトルのシーケンス」を単に「Xのシーケンス」と表現する。 考察 まず、式(1)の計算は以下の2つのパートに分割できる: アテンションスコアの計算 特徴量の選択 1. アテンションスコアの計算 \text{softmax}(QK^\top)の部分である。ここで、Q, Kはそれぞれ(n, d)次元のベクトルとする。nはシーケンス長で、dは埋め込みベクトルの次元である。すなわち、Q, Kの行方向はトークンのシーケンスを表し、列方向は埋め込みベクトルを表す。この時
概要 Unicodeにはディスプレイに表示されない制御文字というのがあるらしい。 通常無害なものだとは思うが、古くは2011年に報告されているWindowsのファイル拡張子の偽装[1]や、最近では2021年に報告された、ソースコードに制御文字を埋め込み、人間のレビュワーが気づかずにシステムに悪意のあるコードを埋め込めてしまう脆弱性がある[2]。 確かに悪用できそうな特徴ではあるので、稼働中のサービスでどのような問題意識と対応が取られているのかを調べてみる。 事例 事例1: ブラウザで遊べる絵チャット(令和最新版) 制御文字のみを入力した悪意あるユーザがシステムのバリデーションを通過して非表示のユーザ名で登録できてしまったという話。こういうの普通のサービスはどうしてるんだろうか?なお、このブログで上がっているのは「非表示文字のみからなるユーザのプロフィールを別のユーザが表示できないため、悪用
はじめに entity matchingにけるmatcherに事前学習済み言語モデルを採用することで、各種ベンチマークにおいてSOTAを実現した手法。本論文では他にも1)ドメイン知識の追加 2) augmentation 3) 長いセンテンスの要約 を適用することでさらなる性能改善を実現した。 提案手法の構成について まず、entity matchingタスクは以下の要素で構成される。 blocker: 同じエンティティのペアの候補絞り、ふるいにかける matcher: エンティティのペアの候補を2値分類する 本論文で提案する手法は、matcherに事前学習済み言語モデルを採用することで、センテンス中の文脈の情報により注目する。 次に、本論文で提案するmatcherの構成について説明する。 先行研究のDeepMatcherでは、2つのentityのペアのタプルのembeddingの距離をM
機械学習周りとPython開発について何か書いています。
概要 テキスト、コードに加え、コードの変数の依存関係を表す有向グラフ(=データフロー)の情報を入力し、グラフの構造を加味した2つのタスクで事前学習を行うことで、4つの下位タスクでCodeBERTを抜いてSOTAを達成した。 Abstract: https://arxiv.org/abs/2009.08366v4 研究の特徴 CodeBERTはコードを一方向のシーケンスとして捉えるためコードの構造を意識しない。 例えばv = max_value - min_valueという式において、変数名のみから変数vの役割を推定するのは困難だが、「vが2つの変数max_value, min_valueに依存する」という情報を用いると、変数vの役割を知る手がかりとなる。 先行研究には構文木を利用した研究があるが、本研究では構文木を直接利用せず、そこから抽出したデータフロー(=変数どうしの依存関係を示す有効
このページを最初にブックマークしてみませんか?
『bilzardさんの記事一覧』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く