keijakのブックマーク (1,107)

  • LEIA: 言語間転移学習でLLMを賢くする新しい方法

    Studio Ousiaと理化学研究所に所属している山田育矢です。 この記事では、大規模言語モデル(LLM)の性能を向上させる新しい方法であるLEIA(Lightweight Entity-based Inter-language Adaptation)を紹介します。 LLMは言語によって性能に顕著な差があり、訓練に使われるテキストが最も多い英語において特に性能が高い傾向があることが知られています。LEIAは、LLMが蓄えている英語の知識を他の言語から使えるようにする訓練を施すことで、英語以外の言語でのLLMの性能を向上させる新しい手法です。 この度、英語・日語の2言語LLMであるSwallowの7Bと13Bのモデルに対してLEIAによる訓練を施して性能向上を行ったモデルを公開します。 ライセンスは、Swallowと同様のLlama 2 Community Licenseです。これらのモ

    LEIA: 言語間転移学習でLLMを賢くする新しい方法
    keijak
    keijak 2024/04/25
  • 臭いお方は服と体以外を洗ってないんだと思う

    追記:特定の界隈への差別が含まれているという指摘を受けたので修正しました。 三大クサイお方が洗わないもの ・カバン・布団・コート 特に酷いのがカバン。 鞄を洗う習慣が全く無いお方は多い(と思う)。 だって臭いお方のカバンが満員電車で近寄ってくるとそれ自体が明らかにクセーから。 ランドセルみたいに革製ならともかく、布製のリュックは洗わないと汚れがドンドン奥に染み込んでいって臭くなる。 臭いお方特有の感覚での「使える」は破けるまでだろうけど、一般的には「臭くなってきた」の時点で既に使えないゴミなのだ。 そこから使ってもいいカバンに戻すために「洗う」という選択を取るのが一般的な感覚である。 革製なら何も考えずにクリーニング屋に出せ。 素人が革の手入れとか考えるな。 布の場合は大事に使いたいなら手もみ洗いがベストだが、割り切って洗濯機に突っ込んでしまうのも手だ。 もう一度言うが「臭くなってる」時点

    臭いお方は服と体以外を洗ってないんだと思う
  • Obsidianが大学生活を変える! 学生必見の活用術 - Qiita

    ナレッジベース共有ではなく、自分のためだけのクローズドなローカル環境で動作する点において差別化がされている。何かを発信するのではなく自分自身のためにテキストをまとめるのです。 このテキストも外出先で書いています。 金欠学生はもちろん格安を売りにしたプロバイダーと契約しているので3GB程度しか余裕がないはずです(私は月の半ばでなくなりました)。しかしローカルで動作するので速度制限を恐れることなく使うことができるのです。 Obsidianは単なるノートアプリではなくアイデアを書き溜め、思考をまとめ上げ、一つの思想を創り上げる、最強のセカンド・ブレインである。 —私 メリット 日常的に使えばマークダウン記法に慣れて、サークルや研究室のesaの記事を書く心理的ハードルが下がる QiitaやZennなどの記事を公開するハードルも下がる 有名な使い方としてはドイツの社会学者が考案したツェッテルカステン

    Obsidianが大学生活を変える! 学生必見の活用術 - Qiita
  • 【追記あり】無能なワーママ部下をなんとかしてやりたい

    俺:係長 A子:部下、役無し 会社:非常にホワイトな大企業 これはただの愚痴だ 「私はどうして主任になれないんですか」 「女だから差別されてるんですか」 違う。今は女性の昇進目標30%があるから、女の方が推薦しやすい環境だ 女を無理やり昇進させたせいで、今は降職希望で人事部が困ってるくらいだ 「じゃあ産休と育休取ったから差別されてるんですね」 違う。産休と育休を取っても働いてた扱いで考査しろと厳命されてる 休んでた期間は平均的な評価がついている うちはホワイト大企業で女性管理職比率30%に血眼だ 「じゃあ時短だから」 違う。時短でも構わずどんどん昇進させてる うちはホワイト大企業(略 「子どもが熱出して突発休みするから」 違う。そんなことはどうでもいい。誰でも休むときは休む。休んだからって評価は下がらない 問題はそこじゃないんだ お願いだから仕事のメモを残してくれ 急ぎの仕事を教えてくれ

    【追記あり】無能なワーママ部下をなんとかしてやりたい
  • 資本家をビビらせろ | p2ptk[.]org

    以下の文章は、コリイ・ドクトロウの「Precaratize bosses」という記事を翻訳したものである。 Pluralistic 詩人アンジェロウの「人が性を見せたら、それを信じなさい」という言葉、政治における「すべての非難は自白である」という自明の理のを組み合わせると、次のようになる。「誰かがあなたを悪徳だと非難するたびに、その人は自分自身の性を見せているのであり、あなたはそれを信じるべきだ」。 そうした非難について考えてみよう。CARES法による対コロナ緊急経済対策の小切手をめぐる道徳的パニックを覚えているだろうか? 支配階級の代弁者たちは、ありとあらゆるケーブルテレビに出演し、「こんなことをしたら、誰も働きたがらなくなるだろう」と口々に不満を漏らした。労働者は、すべて――家、子供、冷蔵庫の料など――を失うことへの恐怖心のみに突き動かされて仕事に就くのだと彼らは考えている。 こ

    資本家をビビらせろ | p2ptk[.]org
    keijak
    keijak 2024/04/21
    "独占から得られる利益と比べると、テック業界のR&D支出は極めて少ないのが現実だ。"
  • タイムスタンプの精度を落とすときは切り捨てろ - methaneのブログ

    とあるプロジェクトでナノ秒からミリ秒への変換で四捨五入してきた人がいて、時刻を扱うときは保存精度未満は切り捨てるべきというのが常識になっていないなーと思ったので。 2023-10-01 を、何年か表示する時に、2024年に丸める人はいないだろう。 13:45 が何時か表示する時も、13時と表示するだろう。(口頭で何時?と聞かれたら14時と答えるかもしれないけれど) つまり、ある精度で表した時刻は、実際には次のような半開区間を示しているのである。 2023-01-01 00:00:00 <= 2023年 < 2024-01-01 00:00:00 13:45:00.000 <= 13:45 < 13:46:00.000 そして、そう決めたからには一貫して同じように、指定精度未満は切り捨てというルールを維持しなければならない。秒以下は四捨五入で、とかやってはいけないのだ。 一貫しないと何が問題

    タイムスタンプの精度を落とすときは切り捨てろ - methaneのブログ
    keijak
    keijak 2024/04/20
  • 24年4月の量子コンピュータ業界の動向がよくわからんというので書いてみました。 by Yuichiro Minato | blueqat

    昨年から量子コンピュータ業界は大きな転換期に入りました。これまで人類には難しすぎるという量子コンピュータはみんなで四苦八苦しながら開発をしてきたと思います。具体的な沿革としては、 1、2012年に簡易型量子コンピュータみたいな量子アニーリングマシンが出る。 2、量子アニーリングマシンは2016年をピークに2018年ごろに廃れる。(デスクトップパソコンと大差ないことがわかる) 3...

    24年4月の量子コンピュータ業界の動向がよくわからんというので書いてみました。 by Yuichiro Minato | blueqat
    keijak
    keijak 2024/04/18
  • さようなら、全てのエヴァーノート - 本しゃぶり

    2011年6月10日、Evernoteを使用開始。 2014年9月19日、有料プランに加入。 2024年3月23日、クソみたいなメールが届く。 プラン、廃止 いつも Evernote をご利用いただき、ありがとうございます。このたびは今後の Evernote 登録プランに関する変更についてご案内させていただきます。 お使いの Evernote アカウントは Plus から Personal に移行されました。Evernote Plus など、一般のお客様に数年間ご利用いただけなかった従来の登録プランが廃止となったためです。この変更により、Personal プランで利用可能な機能すべてをご利用いただけます。 今後はAnnualの登録プランが現在の Evernote Personal プランの料金 129.99 USD/Yearに合うように更新されます。この料金は次の更新日である2024/4/

    さようなら、全てのエヴァーノート - 本しゃぶり
  • キレッキレなPMは他と何が違うのか? シリコンバレーのPMが重視する「Step Change」という視点

    キレッキレなPMは他と何が違うのか? シリコンバレーのPMが重視する「Step Change」という視点 シリコンバレーのプロダクトマネージャー達に見る、 覚悟を決めたPMは何が違うのか? #1/4 酸いも甘いも経験してきたシリコンバレーのプロダクトマネージャー 曽根原春樹氏:みなさんお集まりいただきまして誠にありがとうございます。初めましての方も、またお会いできましたねの方も、ご無沙汰しています。曽根原です。今年も「PMカンファレンス」に戻ってきました。 今回はテーマが「覚悟」ということで、どんな話をしようかなと思っていたのですが、みなさんにとって刺激的な話になるといいなと思って、それでこのタイトルに決めたわけですね。「シリコンバレーのプロダクトマネージャー達に見る、覚悟を決めたPMは何が違うのか?」ですね。 題に入る前に、僕のことをぜんぜん知らないという方もいらっしゃるかもしれないの

    キレッキレなPMは他と何が違うのか? シリコンバレーのPMが重視する「Step Change」という視点
    keijak
    keijak 2024/04/12
  • 『この記事が公開されたという事は、いままでありがとうございました。』

    今晩はPajaです。 この記事が出たという事は、私の命の灯火が消えたという事です。 生前にこの記事を書いてにお願いして公開するように言ってあります。 皆様当にありがとうございました!! 皆様のおかげでここまで生きてこれました。 思えば2023年夏に年内厳しいという主治医の言葉から今日まで生きる力をくれたのは フォロワー様の応援があったからと言っても過言じゃありません。 もちろん、私の大好きな家族にも沢山支えてもらってここまで来れたんだと思います。 私は、癌に負けたんじゃありません。 たまたま、臓器が壊れてしまったからです。病に破れたんじゃないんです。 主治医の予想を大きく超えてここまで生きてこれたのがなによりの証拠!! 辛い抗がん剤治療、怖い手術や抜歯、緊急入院色々と貴重な経験しました。 お疲れ様、俺! よく、ここまで頑張った!! でも、なんか不思議だねwこの記事書いている時は、生きて

    『この記事が公開されたという事は、いままでありがとうございました。』
  • データ分析のためのSQLを書けるようになるために

    はじめに 稿では分析用クエリをスラスラ書けるようになるまでの勉強方法や書き方のコツをまとめてみました。具体的には、自分がクエリを書けるようになるまでに利用した教材と、普段クエリを書く際に意識していることを言語化しています。 想定読者として、SQLをガンガン書く予定の新卒のデータアナリスト/データサイエンティストを想定しています。 勉強方法 基礎の基礎をサッと座学で勉強してから、実践教材で実際にクエリを書くのが望ましいです。 実務で使える分析クエリを書けるようになるためには、実務経験を積むのが一番良いですが、だからといって座学を御座なりにして良いというわけではありません。SQLに自信がない人は、一度基礎に立ち返って文法の理解度を確認した方が良いと思います。 書籍 SQL 第2版: ゼロからはじめるデータベース操作 前提として、SQLに関する書籍の多くがデータベース運用/構築に関する書籍がほ

    データ分析のためのSQLを書けるようになるために
    keijak
    keijak 2024/04/02
  • 「不機嫌な上司から逃げるのは正しい」 まつもとゆきひろ氏が語る、心の健康を守り、キャリアを長持ちさせる方法

    「不機嫌な上司から逃げるのは正しい」 まつもとゆきひろ氏が語る、心の健康を守り、キャリアを長持ちさせる方法 #9 エンジニア生存戦略 生存戦略のためには“健康”が一番 まつもとゆきひろ氏:こんにちは、まつもとゆきひろです。この放送もだいぶ休み休みになってきましたが、中断してしまわないように努力しようと思っています。 今月の15日(※放送は2022年6月17日)に、「Social Tech Talk #03」というのが開催されました。「Qiita」と日立のコラボで開催されたウェビナーだったんですけれども、その中で基調講演を依頼されて「若手エンジニアの生存戦略」というテーマでお話ししました。 エンジニアを目指す学生さんを対象にしてイベントを開いたりしているサポーターズさんという会社が若手エンジニアエンジニアを目指す学生の生存戦略みたいなテーマをずっと依頼されていたので、そこの話をベースに、

    「不機嫌な上司から逃げるのは正しい」 まつもとゆきひろ氏が語る、心の健康を守り、キャリアを長持ちさせる方法
    keijak
    keijak 2024/03/31
  • Rust製高速データフレームライブラリ、Polarsを試す | gihyo.jp

    門脇@satoru_kadowakiです。今月のPython Monthly Topicsでは、Rust製の高速データフレームライブラリ Polars について紹介します。 Polarsとは Pythonデータ分析に使用される主なライブラリに pandas があります。Polarsはpandasと同様にデータフレームというデータ構造オブジェクトを提供するサードパーティライブラリです。特にpandasを意識して作られており、メインページに「Lightning-fast DataFrame library for Rust and Python」とあるように、Rustによる高速処理を謳っています。 Polarsのリポジトリや関連ドキュメントは以下を参照してください。 Github: https://github.com/pola-rs/polars ユーザーガイド: https://pola

    Rust製高速データフレームライブラリ、Polarsを試す | gihyo.jp
    keijak
    keijak 2024/03/31
  • PanderaでPolarsのデータバリデーションを試す

    この記事は何? データバリデーションライブラリのPanderaがPolarsのサポートを開始したので、早速それを試してみるもの。基的なバリデーションのやり方を確認した上で、実行速度への影響を簡単な実験で確認した。 なお2024/3/16現時点では機能はベータ版という状態であるため、今後なんらかの大きな変更が発生する可能性がある。最新の情報を得たい場合は、公式のリリースやドキュメントを参照してほしい。 Beta release 0.19.0b0: Polars integration Data Validation with Polars 前提 Panderaとは? Panderaは、pandas.DataFrameのような2次元の表形式の構造を持つデータ(=データフレーム)に対するバリデーションを提供するライブラリである。事前にデータフレームに対して、各カラムの型や制約をスキーマとして

    PanderaでPolarsのデータバリデーションを試す
    keijak
    keijak 2024/03/31
  • 新しい静的コード解析ツール「Ruff」をご紹介 | gihyo.jp

    福田(@JunyaFff)です。今月の「Python Monthly Topics」は、最近私が個人的に気になっている静的コード解析ツールRuffについて紹介します。 どんなプログラミング言語でも、静的コード解析ツール(リンター)やフォーマッターは非常に便利です。Pythonでコードを書く場合、皆さんはどんなツールを使っているでしょうか?Flake8やBlack、isortなどが人気で、世界中で多くのPythonエンジニアに利用されています。 Ruffは2022年8月にリリースされた比較的新しい、Pythonのリンター兼フォーマッターです。Ruffはリリースからまだ半年足らずしか経っておりませんが、多くの著名なライブラリで採用[1]され、毎日のようにアップデートされています。2023年3月時点でのRuffの使い方、そしてこれからの発展について、記事で紹介します。 Ruffとは? ここでは

    新しい静的コード解析ツール「Ruff」をご紹介 | gihyo.jp
    keijak
    keijak 2024/03/31
  • 純粋数学のアカデミア(研究職)から離れるにあたっての遺書 ― 数学が辛い人へ

    2024-03-29: 初稿 注意: 「遺書」とありますが、別に自殺はしないのでご安心ください。 はじめに 私は代数学専攻のポスドク(学振PD3年目30歳)ですが、2024年3月末でアカデミアを離れて、4月から一般企業へ就職します。 このようにアカデミア界隈のポスドクやら研究者やらが、研究職のアカデミアを離れて民間企業へ就職することを 脱アカ・acadexit と呼ぶことがあります。そういう人はよく記事を書くようなので、私も書いてみることとします。 そういう記事でありがちな就活体験談や就活ノウハウ等というよりは、かなりシリアスでな精神面についての重い話になりますが、私の経験を共有して、同じような悩みを持つ人に少しでも助けになれば、またアカデミアの人たちにも「こういう人もいるんだ」という参考になればと思い、書いています。正直過去の自分へ向けて・また現在の自分の心境の整理という意味の強い記事

    keijak
    keijak 2024/03/31
  • 内部エラーと外部エラー、それからGoのerrorがスタックトレースを含まない理由の考察

    TL;DR Goerrorは外部エラーを表現するもので、利用者(ライブラリならアプリケーション開発者、アプリケーションならユーザー)に入力値や環境の不備を伝える目的で存在している 一方で、開発中のソフトウェアが思っていたのと違う挙動を示した場合、その調査にはソフトウェアの特性によって異なるツールを使い分ける必要があり、一筋縄では行かない 両者を分けて考えることで、よりよいエラーハンドリングへの議論が初めて進められると考える 背景 Goerrorがスタックトレースを含まないことは度々Goの欠点として挙げられます。たしかに、一度作ってどこかにデプロイしたソフトウェアがバグっており、スタックトレースがないせいでその原因調査に手間取ったことは筆者も一度のみならず体験しています。 一方で、(しばしばベテランのプログラマから)エラーはノイズを含むべきではないと主張されることも少なくありません。 2

    内部エラーと外部エラー、それからGoのerrorがスタックトレースを含まない理由の考察
    keijak
    keijak 2024/03/31
  • Everything I know about the XZ backdoor

    Everything I Know About the XZ Backdoor stateevergreeninblogdate3/29/2024Please note: This is being updated in real-time. The intent is to make sense of lots of simultaneous discoveries regarding this backdoor. last updated: 5:30 EST, on April 2nd Update: The GitHub page for xz has been suspended. 2021JiaT75 (Jia Tan) creates their GitHub account. The first commits they make are not to xz, but the

    keijak
    keijak 2024/03/30
  • 【統計学「p<0.05」に下げる方法】統計好きでも意外と知らない「p値ハッキング」の中身

    心理学者。キングス・カレッジ・ロンドンの精神医学・心理学・神経科学研究所の講師。2015年に科学的心理学会(アメリカ)の「期待の星(ライジンング・スター)」賞を受賞。『タイムズ』『ワシントン・ポスト』『ワイアード』などに数多く寄稿し、BBCラジオなどの出演もある。 Science Fictions あなたが知らない科学の真実 スタンフォード監獄実験はイカサマだった! 権威ある心理学研究の100件のうち、再現に成功したのはたったの39%!? 科学の信頼性を根底から揺るがす「再現性の危機」に迫る真実の書、日上陸! 科学における不正・怠慢・バイアス・誇張が起きる仕組みを多数の実例とともに解説。既存ので知ったウンチクを得意げに語る人に読ませたい、真実の書。 バックナンバー一覧 「すべての科学研究は真実である」と考えるのは、あまりに無邪気だ――。 科学の「再現性の危機」をご存じだろうか。心理学、

    【統計学「p<0.05」に下げる方法】統計好きでも意外と知らない「p値ハッキング」の中身
    keijak
    keijak 2024/03/30
  • 『ゼロから作る Deep Learning ❺』 公開レビューのお知らせ|斎藤 康毅(さいとう こうき)

    問題に感じた箇所や改善すべきと思った点など、コメントいただけますと幸いです。レビューに貢献していただいた方には、感謝の印として、書に名前を記載させていただく予定です(もちろん、同意のある方のみです)。下記のように、レビューアの方の名前をクレジットとして掲載する予定です。 左は『ゼロから作るDeep Learning ❷』、右は中国語に翻訳された『Deep Learning 2』なお、のタイトルに「❺」とありますが、前作までの知識がなくても読める内容になっています。前提条件としては、Python数学の基的な知識が必要になります。数式も多く登場します。ちなみに、書の概要は次のとおりです。 人気シリーズの第5弾。今回のテーマは「生成モデル」です。書では「正規分布」から「拡散モデル」に至るまでの技術を繋がりのあるストーリーとして展開します。読者は小さな学びを積み重ねながら、ステップバイ

    『ゼロから作る Deep Learning ❺』 公開レビューのお知らせ|斎藤 康毅(さいとう こうき)
    keijak
    keijak 2024/03/29