並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 372件

新着順 人気順

データマイニングの検索結果1 - 40 件 / 372件

  • 東大が無料公開している超良質なPython/Data Science/Cloud教材まとめ (*随時更新) - Digital, digital and digital

    東京大学がちょっとびっくりするくらいの超良質な教材を無料公開していたので、まとめました Python入門講座 東大のPython入門が無料公開されています。scikit-learnといった機械学習関連についても説明されています。ホントいいです Pythonプログラミング入門 東京大学 数理・情報教育研究センター: utokyo-ipp.github.io 東大のPython本も非常にオススメです Pythonによるプログラミング入門 東京大学教養学部テキスト: アルゴリズムと情報科学の基礎を学ぶ https://amzn.to/2oSw4ws Pythonプログラミング入門 - 東京大学 数理・情報教育研究センター Google Colabで学習出来るようになっています。練習問題も豊富です https://colab.research.google.com/github/utokyo-ip

      東大が無料公開している超良質なPython/Data Science/Cloud教材まとめ (*随時更新) - Digital, digital and digital
    • 「未経験文系から3ヶ月でデータサイエンティストになって一発逆転」はここで終わり (2020/7/31 更新) - todo-mentor’s diary

      データサイエンティストを生業にする手段と実態について述べる。 途中、具体例・境界値の例として私個人の話もするが、なるべく一般性のある話をする。 この記事で言いたいことは具体的には4つだ。 プログラミングスクールをディスるなら代わりの入門方法を提供しようよ。 もう「未経験文系から3ヶ月でデータサイエンティストで一発逆転物語」を止めろ。*1 おじさんは人生逆転したいなら真面目にやれ。 若者はワンチャンじゃなくて、ちゃんと化け物になれよ。 この記事についてはパブリック・ドメインとして転載・改変・リンク記載を自由にしてよいです。 (続き書いた) a. 入門は辛いが… b. 思考停止でプログラミングスクールに通うな。 なろう系・始めてみよう系資料一覧 (最速・最短ルート用) まずは動かしてみよう。強くてニューゲームが体験出来るぞ! 入門以前の本 一般向け業界本 (AI業界と展望がわかる本) 技術者入

        「未経験文系から3ヶ月でデータサイエンティストになって一発逆転」はここで終わり (2020/7/31 更新) - todo-mentor’s diary
      • データベース概論Ⅰ | 筑波大学オープンコースウェア|TSUKUBA OCW | 北川博之

        データベースシステムに関する入門。データベースの基本概念、データモデリング、リレーショナルデータモデル、データベース言語SQL、リレーショナルデータベース設計論、物理的データ格納法、問合せ処理等について講述する。 (2018年度) 【教科書】 「データベースシステム」(北川博之著、オーム社) 北川 博之筑波大学 計算科学研究センター教授1978年東京大学理学部物理学科卒業。1980年同大学理学系研究科修士課程修了。日本電気(株)勤務の後、筑波大学電子・情報工学系講師、同助教授を経て、現在、筑波大学計算科学研究センター教授。理学博士(東京大学)。データベース、データ統合、データマイニング、ストリーム処理、情報検索、ビッグデータ等の研究に従事。著書「データベースシステム」(オーム社)等。日本データベース学会会長、ACM SIGMOD日本支部委員長等を歴任。情報処理学会フェロー、電子情報通信学会

          データベース概論Ⅰ | 筑波大学オープンコースウェア|TSUKUBA OCW | 北川博之
        • Hiroshi Takahashi

          Skip to the content. 機械学習の研究者を目指す人へ 機械学習の研究を行うためには、プログラミングや数学などの前提知識から、サーベイの方法や資料・論文の作成方法まで、幅広い知識が必要になります。本レポジトリは、学生や新社会人を対象に、機械学習の研究を行うにあたって必要になる知識や、それらを学ぶための書籍やWebサイトをまとめたものです。 目次 プログラミングの準備 Pythonを勉強しよう 分かりやすいコードを書けるようになろう 数学の準備 最適化数学を学ぼう 基本的なアルゴリズムとその実践 機械学習の全体像を学ぼう 基本的なアルゴリズムを学ぼう 深層学習の基礎を学ぼう scikit-learnやPyTorchのチュートリアルをやってみよう サーベイの方法 国際会議論文を読もう Google Scholarを活用しよう arXivをチェックしよう スライドの作り方 論文の

          • 機械学習が独学できる日本語Youtube難易度別まとめ - Qiita

            こんにちは。 在宅の機会が増えて以来Youtubeを見る機会が増え、機械学習などが勉強できるチャンネルをいくつか探しては見ていました。探した中でよかったと思ったものをメモしていたのですが、せっかくなので公開したいと思います。日本語のソースがあるもののみ対象にしており、『これ無料でいいのか?』と思ったチャンネルを紹介したいと思います。主観で以下のレベルに分けましたがあくまで参考程度にお願いいたします。 基本:Pythonを触ってみた人 Pythonの説明・動かし方などを解説していて、動画によっては踏み込んだ内容になる 応用:アルゴリズムを使いこなしたい人 「model.fit(X, y)して動かしてみた」よりも踏みこみ、Python自体の説明は少ない 発展:研究開発もしたい人 最新の手法の仕組みの理解などが主眼であり、Pythonの解説はほぼ無い もしおすすめのチャンネルございましたらぜひコ

              機械学習が独学できる日本語Youtube難易度別まとめ - Qiita
            • 大学で読んだ情報科学関連の教科書 - ジョイジョイジョイ

              先日、博士(情報学)になりました。学部と大学院をあわせた 9 年間で読んだ情報科学関連の教科書・専門書を思い出を振り返りつつここにまとめます。私は授業はあまり聞かずに独学するタイプだったので、ここに挙げた書籍を通読すれば、大学に通わなくてもおおよそ情報学博士ほどの知識は身につくものと思われます。ただし、特に大学院で重要となる論文を読み書きすることについては本稿には含めておりません。それらについては論文読みの日課についてや論文の書き方などを参考にしてください。 joisino.hatenablog.com 凡例:(半端)とは、数章だけ読んだ場合か、最後まで読んだものの理解が浅く、今となっては薄ぼんやりとしか覚えていないことを指します。☆は特におすすめなことを表します。 学部一年 寺田 文行『線形代数 増訂版』 黒田 成俊『微分積分』 河野 敬雄『確率概論』 東京大学教養学部統計学教室『統計学

                大学で読んだ情報科学関連の教科書 - ジョイジョイジョイ
              • 1. 機械学習概論と単回帰 (1) | 筑波大学オープンコースウェア|TSUKUBA OCW

                計算機による自律的な学習を目指す機械学習や, 大規模情報源からの知識発見を実現するデータマイニングの理論について, 教師付き学習, 教師なし学習を中心に理解する.

                  1. 機械学習概論と単回帰 (1) | 筑波大学オープンコースウェア|TSUKUBA OCW
                • #あつ森 の花の交配の仕組みは実際の遺伝学に基づいていた…→遺伝子を逆算し攻略本で出現率1%とされた青バラを25%にする交配法を発見した話

                  小森雨太 @comori_uta 物語とおえかきが趣味です。超絶雑食で永遠の厨二病なのでご了承下さい。■垢分けしていないのでメインの取り扱いはコロコロと変わります。■虫も猫もすき。生き物は大体すきです。■成人済です twpf.jp/comori_uta 小森雨太 @comori_uta あつ森の花の交配システムの解説のために遺伝子について話してたら、擬人化からフォローしてくれてる生物クラスタが「ゲームなのに複対立遺伝子が実装されてる?!」と食いついて来て、システムを見せたら「完全に生物」「ゲームであり教育」「青バラはレポート書けるレベル」と大絶賛してるのが今です 2020-05-12 05:13:55 小森雨太 @comori_uta 実際、 海外勢が遺伝子コードをデータマイニング →遺伝子データを元に、有志が遺伝子を逆算 →発売から約1ヶ月を経て、青バラの咲く確率が、攻略本想定のルート(

                    #あつ森 の花の交配の仕組みは実際の遺伝学に基づいていた…→遺伝子を逆算し攻略本で出現率1%とされた青バラを25%にする交配法を発見した話
                  • FLoCとはなにか - ぼちぼち日記

                    1. はじめに Google がChrome/89よりトライアルを開始しているFLoC (Federated Learning of Cohorts)技術に対して、現在多くの批判が集まっています。 批判の内容は様々な観点からのものが多いですが、以前より Privacy Sandbox に対して否定的な見解を示してきたEFFの批判「Google Is Testing Its Controversial New Ad Targeting Tech in Millions of Browsers. Here’s What We Know.」が一番まとまっているものだと思います。 これまで Privacy Sandbox 技術に関わってきた身としては、各種提案の中でFLoCは特にユーザへの注意が最も必要なものだと思っていました。しかし、これまでのド直球なGoogleの進め方によって、FLoCのトラ

                      FLoCとはなにか - ぼちぼち日記
                    • アメリカの授業料無料のオンライン大学 University of the People って実際どうなの!?1年間学んで感じたこと・学習内容・魅力などまとめ - 別にしんどくないブログ

                      この記事は社会人学生 Advent Calendar 2021 - Adventarの 16 日目の記事です。投稿が遅くなってしまい申し訳ありません。なんせこれから話す大学の課題に追われていてなかなか執筆の時間が取れませんでした(言い訳)。 私は、Web エンジニアとして働きながら昨年の 9 月からオンライン大学でコンピューターサイエンスを学んでいる 30 代男性です。また、未就学の子どもの育児もしています。 今回は、私が登録している University of the People というアメリカのオンライン大学について、入学してみて感じたこと・学習内容・魅力などを紹介します。同じようにコンピューターサイエンスの学部へ進学したい方やアメリカの大学に興味がある方、働きながら大学で学ぼうと考えている方の参考になれば幸いです。 目次 目次 アメリカのオンライン大学へ行くきっかけ Univers

                        アメリカの授業料無料のオンライン大学 University of the People って実際どうなの!?1年間学んで感じたこと・学習内容・魅力などまとめ - 別にしんどくないブログ
                      • 30分で完全理解するTransformerの世界

                        はじめに 初めまして。ZENKIGENデータサイエンスチームのはまなすです。正式な所属はDeNAデータ本部AI技術開発部なのですが[1]、業務委託という形で今年度から深層学習系の開発等に携わっています。 深層学習界隈では、2017年に衝撃的なタイトル(Attention Is All You Need)の論文が発表されてから早5年半、元出自の機械翻訳タスクを大きく越えて、Transformer関連の技術が様々な領域で用いられる汎用アーキテクチャとして目覚ましく発展し続けています。 今回はそんなTransformerが現時点までにどのように活用されてきたか、また、どのように工夫されてきたかをざっくりと俯瞰し、流れをおさらいする目的の記事になります。本記事の大枠は、2021年時点でのサーベイ論文である A Survey of Transformers に倣いつつ、適宜、2023年2月上旬現在ま

                          30分で完全理解するTransformerの世界
                        • 全くのゼロから「駆け出しデータサイエンティスト」を育てる方法論 - 渋谷駅前で働くデータサイエンティストのブログ

                          (Image by Pixabay) 「データサイエンティスト」の第一次ブーム勃興から6年余り、人工知能ブームに便乗した第二次ブームで人口に膾炙してから3年余り、気が付いたら何やかんや言われながらもデータサイエンティスト及びその類似職が、じわじわと日本国内の産業各分野・企業各社に広まりつつあるように僕の目には映ります。 そういう背景がある中で、ここ1年ぐらいの間にそこかしこで目立つようになってきたのが「ゼロからデータサイエンティストを育てたいのだがどうしたら良いか」という相談や議論。割とあるあるなのが「取引先がデータサイエンティストを採用して商談の席に同席させるようになって、彼らがデータサイエンスの知識を駆使してビシバシ突っ込んでくるのだが、こちらにデータサイエンティストがいないので対応できない」みたいなお話。これは実はUSでも同様だと聞くので*1、案外洋の東西を問わない課題なのかもしれま

                            全くのゼロから「駆け出しデータサイエンティスト」を育てる方法論 - 渋谷駅前で働くデータサイエンティストのブログ
                          • 2023年版:実務データ分析を手掛けるデータサイエンティスト向け推薦書籍リスト(初級6冊+中級8冊+テーマ別15冊) - 渋谷駅前で働くデータサイエンティストのブログ

                            (Image by wal_172619 from Pixabay) 去年で恒例の推薦書籍リストの更新は一旦終了したつもりだったんですが、記事を公開して以降に「これは新たにリスト入りさせないわけにはいかない!」という書籍が幾つも現れる事態になりましたので、前言撤回して今年も推薦書籍リストを公開しようと思います。 初級向け6冊 実務総論 データサイエンス総論 R・Pythonによるデータ分析プログラミング 統計学 機械学習 中級向け8冊 統計学 機械学習 テーマ別15冊 回帰モデル PRML 機械学習の実践 Deep Learning / NN 統計的因果推論 ベイズ統計学 時系列分析 グラフ・ネットワーク分析 データ基盤 コメントや補足説明など 完全なる余談 初級向け6冊 今回は新たに加わったテキストがあります。 実務総論 AI・データ分析プロジェクトのすべて[ビジネス力×技術力=価値創出

                              2023年版:実務データ分析を手掛けるデータサイエンティスト向け推薦書籍リスト(初級6冊+中級8冊+テーマ別15冊) - 渋谷駅前で働くデータサイエンティストのブログ
                            • エンジニアに読んで欲しい技術書90選 - Qiita

                              はじめに タイトル通り、読んで欲しい(圧)技術書をたくさん集めてみました。自身の担当から外れる領域に関しては、会社の人に協力を仰ぎ、編集しました。「何を読めばいいかわからない」、「次の読む本を探したい」などのように考えている方の参考になればと思います。 また、大きく、 ・新米エンジニア ・脱新米エンジニア と分けてまとめたので、参考にしてみてください。 技術書のススメ 技術書の紹介の前に、技術書で得られるものについて説明したいと思います。全然読み飛ばしてもらって大丈夫です。この章から本の紹介を行なっていきます。 技術書は体系的な構成となっているため、技術書を読むことで、 ・論理的な思考力が身に付く ・技術の歴史・背景を知れる ・技術の知識、手法を学べる これらを学ぶことができます。論理的な思考力、知識はわかるけど、技術の歴史・背景を知ってどうするんだと思う方もいるかもしれません。しかし、歴

                                エンジニアに読んで欲しい技術書90選 - Qiita
                              • 実務の専門家として機械学習や統計分析を手掛けたい人にオススメの書籍初級5冊&中級8冊+テーマ別11冊(2020年2月版) - 渋谷駅前で働くデータサイエンティストのブログ

                                (Image by Pixabay) この記事は以下のオススメ書籍リスト記事のアップデートです。 毎回の断り書きで恐縮ですが、この記事では「データサイエンティストや機械学習エンジニアなどデータ分析の実務の専門家として」*1機械学習や統計分析を手掛けていきたいという、主に初級ないし中級ぐらいのスキルレベルの人たちにお薦めしたい書籍を、初級向け5冊・中級向け8冊及び細かいテーマ別に11冊、それぞれ挙げていきます。スタンスとしては相変わらず「当座の最終到達点を『中級』に置いた時に最初に読んで内容をマスターしておくべき書籍」を初級に置いているので、世の中のこの手のお薦め書籍リストに比べると若干ハードな内容のものが初級向けに多いかもしれません。 後はちょっと気が早いかもしれませんが、機械学習パートに関しては「AutoML時代にあっても実務の専門家であれば知っておくべき知識」を収めた書籍を選んでおきま

                                  実務の専門家として機械学習や統計分析を手掛けたい人にオススメの書籍初級5冊&中級8冊+テーマ別11冊(2020年2月版) - 渋谷駅前で働くデータサイエンティストのブログ
                                • データサイエンティストは何を勉強すべきか:「教養」と「必須」と「差別化」と - 渋谷駅前で働くデータサイエンティストのブログ

                                  (Image by Wokandapix from Pixabay) 個人的な観測範囲での話ですが、データサイエンティストという職業は「21世紀で最もセクシーな職業」として刹那的な注目を集めた第一次ブーム、人工知能ブームに煽られて火がついた第二次ブーム、そして「未経験から3ヶ月で人生逆転」ムーブメントと折からのDXブームに煽られる形で沸き起こった第三次ブームを経て、何だかんだで社会に定着してきた感があります。 で、このブログを始めた頃からの連綿と続くテーマになっていますが、いつの時代も話題になるのが「データサイエンティスト(になるに)は何を勉強すべきか」ということ。7年前から恒例にしてきた「スキル要件」記事では、基本的には「どれも必要な知識(学識)」であるという前提で分野・領域・項目を挙げてきました。少なくとも、最初の3回ぐらいはそういう認識でスキル要件記事を書いていた気がします。 ところ

                                    データサイエンティストは何を勉強すべきか:「教養」と「必須」と「差別化」と - 渋谷駅前で働くデータサイエンティストのブログ
                                  • 元素の「周期律」にほころび? 金属元素「ドブニウム」が金属の性質持たず

                                    重い金属元素「ドブニウム(Db)」の性質を調べた結果、周期表から予想できる性質に反して金属的な性質を失っていることが分かった──日本原子力研究開発機構が、7月7日にこんな研究結果を発表した。この元素の化合物を分離して調べたのは世界で初めてのことで、今回分かった性質から、いまだに完成していない周期表の理解が進むことが期待できるという。 ドブニウムは1967年に発見された、原子番号105番の元素。核融合反応で人工的に生成できるが、生成率が5分当たり1個と低いことと、寿命(半減期)が約30秒と短いため、実験で扱うのが難しく、その化学的性質は明かされていなかった。 研究チームは、同機構の加速器を使ってドブニウムを合成し、独自に開発した分離装置によってドブニウムの純粋な化合物を分離。この化合物と、ドブニウムと同じ周期表第5族の元素(ニオブやタンタル)の化合物について、気体になりやすさを比較したところ

                                      元素の「周期律」にほころび? 金属元素「ドブニウム」が金属の性質持たず
                                    • 普通のデータサイエンティストと世界トップクラスのデータサイエンティストの違い ニュースイッチ by 日刊工業新聞社

                                      「データサイエンティストと名乗るのは厚かましいというか、自分はむしろ外れ値です」そう切り出した小野寺和樹さんは現在、DeNAのAI本部データサイエンス第一グループに所属している。 確かにデータサイエンティストには数学や物理学の修士や博士といった理系のバックグラウンドを有する人が多い中、小野寺さんは経済学部出身で数学の知識も「二次関数の頂点がわかるくらい」だという。 そんな小野寺さんだがKaggle Grandmaster(カグル グランドマスター)という称号を持っている。世界では163人、日本では10人程度しかいない(2019年11月現在)。 【補足説明】Kaggle(カグル)とは、データサイエンティストや機械学習エンジニアが集まる世界最大のコミュニティ。大きな特徴は、誰でも参加可能なコンペティションがあることだ。世界中の企業や研究機関などが提供したビッグデータと課題に対し、モデルの精度を

                                        普通のデータサイエンティストと世界トップクラスのデータサイエンティストの違い ニュースイッチ by 日刊工業新聞社
                                      • ChatGPTのコア技術「GPT」をざっくり理解する - Qiita

                                        ※本記事はOracleの下記Meetup「Oracle Big Data Jam Session」で実施予定の内容です。 ※セミナー実施済の動画に関しては以下をご参照ください。 本記事の対象者 これから機械学習を利用した開発をしていきたい方 機械学習のトレンド技術を知りたい方 なるべく初歩的な内容から学習したい方 はじめに Transformerの登場以降、著しい技術革新が続くここ数年、特にOpenAI社のChatGPTのサービス開始以降、おびただしい数の技術ブログや記事がインターネット上に存在する中、本記事に目を留めていただいてありがとうございます。 この勉強会では、専門用語や難解な公式を極力排除し、初学者の方々を対象に、「そもそも自然言語の機械学習ってどういうもの?」、「言語モデルって要するに何?」というところからGPTをざっくり理解することを目的としています。従って、本記事に記載のあ

                                          ChatGPTのコア技術「GPT」をざっくり理解する - Qiita
                                        • 【初心者必見】プログラミング未経験から3年間のPython学習ロードマップ完全版 - 仮想サーファーの日常

                                          近年、Pythonの求人数・案件数が増加すると同時に単価も上がってきており、エンジニアの中で人気が高まっています。 これからプログラミング言語Pythonを学んで、Webアプリケーション開発エンジニアや機械学習エンジニアになりたいと思っている方も多いのではないでしょうか。 この記事では以下のような方向けに、Pythonを未経験からどのような手順で学びPythonエンジニアになるのか、またPythonエンジニアになった後にどのように学び続けていけばいいのか、具体的な方法をまとめています。 この記事の対象読者 エンジニアではないけど、未経験からPythonエンジニアに転職したい方 エンジニアではないけど、未経験からPythonでデータ分析や業務効率化をしたい方 非Web系の会社で働いているけど、Web系のPythonエンジニアに転職したい方 Pythonとは Pythonとは何か Python

                                            【初心者必見】プログラミング未経験から3年間のPython学習ロードマップ完全版 - 仮想サーファーの日常
                                          • 「全数調査なら何でもわかる」という誤解 - 間違えがちな母集団とサンプリングそしてベイズ統計 - - ill-identified diary

                                            この文章は pandoc-hateblo で tex ファイルから変換しています. PDF 版はこちら 2021/10/15 追記: 後半のベイジアンブートストラップに関する解説はこちらのほうがおそらく正確です ill-identified.hatenablog.com 概要挑発的なタイトルに見えるかも知れないが, 私はしらふだしこれから始めるのは真面目な話だ — 正直に言えばSEOとか気にしてもっと挑発的なタイトルにしようかなどと迷ったりはしたが. 「全数調査できれば標本抽出の誤差はなくなるのだから, 仮説検定は不要だ」という主張を見かけた. いろいろと調べた結果, この問題を厳密に説明しようとすると最近の教科書には載ってない話題や視点が必要なことが分かった. ネット上でも勘違いしている or よく分かってなさそうな人をこれまで何度か見かけたので, これを機に当初の質問の回答のみならず関

                                              「全数調査なら何でもわかる」という誤解 - 間違えがちな母集団とサンプリングそしてベイズ統計 - - ill-identified diary
                                            • データサイエンティストという職業の10年間の変遷を振り返る - 渋谷駅前で働くデータサイエンティストのブログ

                                              (Image by Gordon Johnson from Pixabay) TL;DR 今年の6月に僕自身がデータサイエンティストに転じて10年という節目の年を迎え、10月でDavenportの「データサイエンティストは21世紀で最もセクシーな職業である」HBR総説から10周年になるのを機に、この10年間のデータサイエンティストという職業の変遷を振り返ることにしました。 6月の回顧録記事でも書いた通り、僕がデータサイエンティストの仕事に就いてから今年で10年になります。最近も同じかどうかは分かりませんが、古くから「10年ひと昔」という常套句がある通りで個人的には大きな節目の年だと感じています。 一方で、今年の10月にはあまりにも有名な「データサイエンティストは21世紀で最もセクシーな職業である」HBR総説が出てから10周年を迎え、後述するようにDavenportは「今もデータサイエンティ

                                                データサイエンティストという職業の10年間の変遷を振り返る - 渋谷駅前で働くデータサイエンティストのブログ
                                              • 趣味でKaggleを始めたことをきっかけにデータサイエンティストになった話 - Qiita

                                                Kaggleアドベントカレンダー2023の19日目の記事です. TL;DR データ分析未経験からkaggleでどんなことを学んだか 想像していたデータ分析と実業務とのGap kaggleやっていて良かったこと、kaggleでは学ばなかったこと はじめに 趣味でkaggleを始めたことをきっかけに、現在はデータ分析の仕事をしています。 Muj!rush!というアカウントでKaggleをしています。Kaggle expertです。 kaggleを始めてから3年程度経過したので(この3年間は、地球の公転が早まってんのかってくらい時間が経つのが早かったです)、これまでを振り返ることで、今後kaggleを始めてデータサイエンティストを目指すような方への参考になれば幸いです。 Kaggleと出会ったことで仕事への向き合い方や、今後のキャリアの考え方が変わったので、 僭越ながら一言だけ言わせてもらうと、

                                                  趣味でKaggleを始めたことをきっかけにデータサイエンティストになった話 - Qiita
                                                • 自然言語を簡単に可視化・分析できるライブラリ「nlplot」を公開しました - ギークなエンジニアを目指す男

                                                  こんにちは。たかぱい(@takapy0210)です。 本日は自然言語の可視化を手軽にできるようにしたパッケージnlplotをPyPIに公開したので、これのご紹介です。 nlplotとは? nlplotで何ができるか 使い方 使用データ 事前準備 ストップワードの計算 N-gram bar chart N-gram tree Map Histogram of the word count wordcloud co-occurrence networks sunburst chart まとめ nlplotとは? 自然言語の基本的な可視化を手軽にできるようにしたパッケージです。 現在は日本語と英語で動作確認済みです。 基本的な描画はplotlyを用いているため、notebook上からインタラクティブにグラフを操作することができます。 github.com (スター★お待ちしております🙇‍♂️)

                                                    自然言語を簡単に可視化・分析できるライブラリ「nlplot」を公開しました - ギークなエンジニアを目指す男
                                                  • RDBの限界とNoSQLの登場

                                                    事実世界のインターネット人口が増えたのは1990年代からだ。 [引用] http://www.soumu.go.jp/johotsusintokei/whitepaper/ja/h10/html/98wp2-3-1f.html [引用] http://www.soumu.go.jp/johotsusintokei/whitepaper/ja/h29/html/nc144210.html __NoSQL__の登場 1990年に入るとインターネットの利用人口が急激に増加することになる。 この頃からトランザクションに最適化されて設計されたDBでは性能劣化が始まり、システムはデータベースに対しスケール性能を必要とし始める。 多くの開発者は、単一の強力なサーバーでリレーショナル・データベースを実行するのではなく、リレーショナル・データベース管理システム (RDBMS) のパーティショニング (シャー

                                                      RDBの限界とNoSQLの登場
                                                    • オンライン講座MOOCで英語版「プログラミングしながら学ぶコンピュータサイエンス入門」を公開

                                                      東京工業大学は、インターネット上で誰でもいつでも無料で受講できる大規模オンライン講座MOOC(ムーク)※1を2015年10月より提供しています。すでに10コースを公開し、200を超える国と地域から10万人以上が受講しています。5月から人気コース「プログラミングしながら学ぶコンピュータサイエンス入門」の英語版として、「Introduction to Computer Science and Programming」を世界的なMOOCのプラットフォームedX(エデックス)※2で公開しました。 新型コロナウイルス感染症の影響で、2020年は世界中でMOOC受講者が急激に増加し、前年より6000万人も増えました。日本語からほかの言語への翻訳も求められています。 「プログラミングしながら学ぶコンピュータサイエンス入門」は渡辺治理事・副学長(研究担当)が担当し2019年8月に日本語で公開しました。今回

                                                        オンライン講座MOOCで英語版「プログラミングしながら学ぶコンピュータサイエンス入門」を公開
                                                      • “LLM for SRE“の世界探索 - ゆううきブログ

                                                        ChatGPTが登場した当初、対話や要約、翻訳、コード生成などの典型的な言語タスクができても、SREやAIOpsの研究開発にはあまり関係ないのではないかと正直思っていた。AIOpsでは典型的にはいわゆるObservabilityデータ(メトリクス、ログ、トレースなど)が入力となるため、自然言語ではなく数値のデータを解析することが求められる。自然言語のタスクを研究対象としていなかったため、AIOpsとChatGPTに強い関係性は見いだせなかった*1。 しかし、自分で大規模言語モデル(Large Language Model: LLM)を日常的に使用したり、表題にあるようにSREのためのLLM(LLM for SRE, LLM4SRE)に関する論文を読むうちに、LLMのテキスト生成器としての性質よりもその優れた推論機械としての性質に注目するようになった。特にSREの障害診断は、人間の専門家が推

                                                          “LLM for SRE“の世界探索 - ゆううきブログ
                                                        • PythonとType Hintsで書くバックエンド | メルカリエンジニアリング

                                                          こんにちは、AIチーム所属の@shidoです。CRE (Customer Reliability Engineering) 領域でMLを扱っています。 みなさんはPythonで本番コードを書くことについてどうお考えでしょうか。「研究/分析以外には使いたくない」「遅い」「動的型付け言語を本番用に使いたくない」といった声が聞こえてきそうです。 しかしながら機械学習サービス(または機械学習サービスのためのサービスなど)を作りたい場合、「学習に利用したPython用のライブラリを使用したい」「Pythonでやっていた分析と同じことを本番環境内でもやりたい」など、Pythonでバックエンドを実装したくなることがあると思います。 この記事ではtype hintsを付けながらPythonを書くことで、GoやJavaのようなサーバーサイドでよく使われる言語と可読性や保守性、場合によっては型安全性も同じレベ

                                                            PythonとType Hintsで書くバックエンド | メルカリエンジニアリング
                                                          • 2024年版:独断と偏見で選ぶ、データ分析職の方々にお薦めしたいホットトピックス&定番の書籍リスト - 渋谷駅前で働くデータサイエンティストのブログ

                                                            毎年四の五の言いながら書いている推薦書籍リスト記事ですが、何だかんだで今年も書くことにしました。なお昨年度版の記事を上にリンクしておきましたので、以前のバージョンを読まれたい方はそちらをお読みください。 今回のバージョンでは、趣向をちょっと変えて「定番」と「注目分野」というように分けました。何故こうしたかというと、平たく言って 「初級&中級向け」推薦書籍リストは定番化していて毎年あまり変更点がない 逆に直近のホットトピックスに関するテキストは毎年入れ替わりが激し過ぎて網羅しづらい という課題があり、特に2点目についてはあまりにもデータサイエンス関連書籍の新規刊行が多過ぎる&僕自身がその流れについていけておらず完全に浦島太郎状態ですので、万人向けに等しくウケるようなリストを作るのは今回をもって完全に諦めたというのが実態です。 その上で、前回まで踏襲されていた定番書籍リストはバルクで提示すると

                                                              2024年版:独断と偏見で選ぶ、データ分析職の方々にお薦めしたいホットトピックス&定番の書籍リスト - 渋谷駅前で働くデータサイエンティストのブログ
                                                            • マイクロサービスの再考: タダ飯なんてものはない

                                                              どうも、株式会社プラハCEO兼エンジニアの松原です。 先日かとじゅんさんがツイートで紹介していたマイクロサービスに関する論文を読むついでに、適度に意訳した内容を音声入力してみました。ついでに意訳レベルなので翻訳の質は保証できないのですが、もし内容を読んでみて少しでも興味を持てた場合は実際の論文にも目を通してみると良いかもしれません。 論文のリンク: 「これ日本語でなんて言うの?」って分からなかった部分も多々あったのでより適切な単語があったら教えてほしい...! 導入 マイクロサービスには様々なプラクティスや技術を用いて以下のメリットを目指す 素早いデリバリー 高いスケーラビリティ 自律性 しかし実際にこの業界で実装されるマイクロサービスは採用するプラクティスや効果に大きな差があるため、オンラインサーベイ(51回答)と経験豊富なマイクロサービス実践者14名にインタビューを行った。 わかったこ

                                                                マイクロサービスの再考: タダ飯なんてものはない
                                                              • 2019-nCoVについてのメモとリンク

                                                                リンク集目次 国内外の状況 政府機関・国際機関等 学術情報 疫学論文 分子生物学/ウイルス学論文 臨床論文 インフォデミック関係 ワクチン関係 変異株関係 時系列メモ目次 新型コロナウイルス(2020年1月6日,11日) インペリグループによる患者数推定(2020年1月18日) 患者数急増,西浦さんたちの論文(2020年1月20日,23日) WHOはPHEIC宣言せず(2020年1月23-24日) 絶対リスクと相対リスク(2020年1月26日) 研究ラッシュが起こるかも(2020年1月27日) なぜ新感染症でなく指定感染症なのか? なぜ厚労省令でなく閣議決定なのか?(2020年1月27日) コロナウイルスに対する個人防御(2020年1月27日) 国内ヒト=ヒト感染発生(2020年1月28日) フォローアップセンター設置,緊急避難等(2020年1月29日) PHEICの宣言(2020年1月3

                                                                • Kaggleで10年遊んだGrandMasterの振り返り | ho.lc

                                                                  2011年2月16日に Kaggle アカウントを取得して10年が経過した。長い間 Kaggle Ranking 世界 1 位を目指してきたが、この目標やモチベーションが大きく変化してきたと感じたため、一区切りつけるためにもこの10年+αを振り返る。今の目標は対象を問わずアルゴリズムで資産を最大化すること。エンジニアリングを駆使してデータからアルファを探し、システム化して運用する。実利的で定量評価できる最高に楽しいタスクです(記事では触れません)。 競技プログラミングからKaggleを始めるまで¶ Kaggle ができる前は ICPC や ICFP Programming Contest といった競技プログラミング系のコンテストに参加していた。ICPC ではアジア地区会津大会 2007、アジア地区東京大会 2008 に出場したが大敗して悔しくて仕方がなかった。コードゴルフも嗜む程度に遊んで

                                                                    Kaggleで10年遊んだGrandMasterの振り返り | ho.lc
                                                                  • 自然言語処理でBERTまでの流れを簡単に紹介 - moriyamaのエンジニアリング備忘録

                                                                    はじめまして@vimmodeです。普段はMNTSQというリーガルテックの会社で自然言語処理をしています。今回はBERTとBERTまでの流れを簡単に紹介します。 自然言語処理で今やデファクトスタンダードとなりつつであるBERT。登場当時はモデルの複雑さに伴う計算環境や計算リソースの確保が難しく気軽に動かせなかったが、ColabやKaggleカーネル環境が整備されたきたおかげで誰でも気軽に使えるようになりました。 また、haggingface社が公開したBERTと関連モデルのラッパーライブラリであるtransformersによりわずか10行程度でBERTモデルを記述できます。 一方、自然言語処理を始めて間もない段階でいきなりBERTを突きつけられても理解の壁が高いと思いますので、今回は数式やコードを使わずにBERTに至るまでの流れを簡単に紹介したいと思います。 ※これらはあくまで私の理解であり

                                                                      自然言語処理でBERTまでの流れを簡単に紹介 - moriyamaのエンジニアリング備忘録
                                                                    • 達人出版会

                                                                      探検! Python Flask Robert Picard, 濱野 司(訳) BareMetalで遊ぶ Raspberry Pi 西永俊文 なるほどUnixプロセス ― Rubyで学ぶUnixの基礎 Jesse Storimer, 島田浩二(翻訳), 角谷信太郎(翻訳) 知る、読む、使う! オープンソースライセンス 可知豊 きつねさんでもわかるLLVM 柏木餅子, 風薬 R/RStudioでやさしく学ぶプログラミングとデータ分析 掌田津耶乃 データサイエンティストのための特徴量エンジニアリング Soledad Galli(著), 松田晃一(訳) 実践力をアップする Pythonによるアルゴリズムの教科書 クジラ飛行机 スッキリわかるサーブレット&JSP入門 第4版 国本 大悟(著), 株式会社フレアリンク(監修) 徹底攻略 基本情報技術者教科書 令和6年度 株式会社わくわくスタディワール

                                                                        達人出版会
                                                                      • 博士号取得体験記(社会人早期修了) - 私と理論

                                                                        2023年3月24日,筑波大学で博士(工学)を取得しました. 社会人早期修了というシステムによって,会社で書いた論文を業績として使うことで1年で博士号を取ることができました. 少し珍しいパターンでの博士号取得だと思いますので,自分の備忘録も兼ねて体験記を書きます. なぜ修士卒業時に博士課程に行かなかったのか なぜ博士号を取るのか どこで博士号を取るか なぜ社会人早期修了プログラムを使うのか 具体的な経過 2021/8 2021/9 2021/10 2021/12 2022/1 2022/2 2022/3 2022/4 2022/5, 6 2022/7 2022/8 2022/9 2022/10 2022/11 2022/12 2023/1 2023/2 2023/3 終わっての感想 今後 なぜ修士卒業時に博士課程に行かなかったのか 理由は簡単で,博士課程でやっていくのはキツそうだな〜と思っ

                                                                          博士号取得体験記(社会人早期修了) - 私と理論
                                                                        • 機械学習 | 筑波大学オープンコースウェア|TSUKUBA OCW | 佐久間 淳

                                                                          計算機による自律的な学習を目指す機械学習や, 大規模情報源からの知識発見を実現するデータマイニングの理論について, 教師付き学習, 教師なし学習を中心に理解する. 佐久間 淳筑波大学 システム情報系教授2003年3月東京工業大学大学院総合理工学研究科博士後期課程修了. 博士(工学). 同年4月日本アイ・ビー・エム株式会社入社, 東京基礎研究所に配属. 2004年7月, 東京工業大学総合理工学研究科助手, 2007年4月同助教, 2009年4月,筑波大学大学院システム情報工学研究科准教授, 2016年4月同教授. 2009年10月から2012年3月,科学技術振興事業団さきがけ研究員兼任, 2012年2月から2014年3月, 国立情報学研究所客員准教授兼任, 2016年9月,理化学研究所革新統合知能研究センターグループリーダー兼任, 現在に至る.

                                                                            機械学習 | 筑波大学オープンコースウェア|TSUKUBA OCW | 佐久間 淳
                                                                          • データサイエンスにオススメの本80冊! - Qiita

                                                                            文字数が超えるため、本の画像をて削除しました。興味がある方は、元記事をご覧ください。 2019年データサイエンスにオススメの本80冊! ビッグデータの発展とともに、データサイエンスは今広く知られるようになりました。大学にデータサイエンスを学べる学部ができたり、データサイエンティストを目指している人もたくさんいるでしょう。この記事では、統計学から機械学習やマーケティングまで、初心者がデータサイエンスを学ぶのにおすすめの本を80冊紹介します! #Part I: データサイエンス概論 1.『データサイエンス講義 』Rachel Schutt、Cathy O'Neil 著 本書では、データサイエンスを行う上で、どのようなプロセスが必要か、データサイエンティストとしてはどのようなスキルセットが必要で、どのような思考方法を選択する必要があるのかを実例を多数示しながら紹介します。 2.『戦略的データサイ

                                                                              データサイエンスにオススメの本80冊! - Qiita
                                                                            • A/Bテストのベストプラクティスと落とし穴 ~KDD2019 レポート~ - Gunosyデータ分析ブログ

                                                                              はじめに 研究開発チームの関です。古川未鈴さんの結婚、ニジマス大門果琳さんの卒業、uijinの解散とアイドル業界も激動の秋を迎えていますね。 2019年8月4日から5日間、アメリカはアラスカ州アンカレッジで開催されたデータマイニング領域のトップカンファレンスであるKDD2019にGunosyから北田と関が参加・発表してきました。 これまでに2つのレポートを公開しています。 data.gunosy.io data.gunosy.io 本レポートではTutorialとして開催された「Challenges, Best Practices and Pitfalls in Evaluating Results of Online Controlled Experiments」の内容をレポートします。 内容は現在のA/Bテストのガイドラインと言ってもいい内容で、非常に参考になるポイントが多かったです。

                                                                                A/Bテストのベストプラクティスと落とし穴 ~KDD2019 レポート~ - Gunosyデータ分析ブログ
                                                                              • 市場価値の高いエンジニアとは?? はむかずさん、そのっつさんが語る「エンジニア転職の本音〜意外な転職先の真相に迫る~」 - Findy Engineer Lab - ファインディエンジニアラボ

                                                                                2019年11月28日、エンジニアを対象としたイベント「エンジニア転職の本音 〜はむかずさん(SoftBank)そのっつさん(ZOZO)が語る〜」が開催されました。 エンジニアの求人倍率は7倍とも言われ、転職活動においては売り手市場になってきています。エンジニアの転職をサポートするFindyは、1,000名以上のユーザーにお会いし、多くの方のキャリア相談に向き合ってきました。 その中で、最近ではエンジニアの転職先として、従来のメガベンチャーやスタートアップだけではなく、外資や大手企業も当たり前のように選択肢になってきていることがわかってきました。 そこで今回は、シルバーエッグテクノロジー株式会社からソフトバンク株式会社へ転職をしたはむかずさん、株式会社ディー・エヌ・エーから株式会社ZOZOテクノロジーズへ転職をしたそのっつさんをお呼びして、パネルディスカッションを実施。「エンジニア転職の今

                                                                                  市場価値の高いエンジニアとは?? はむかずさん、そのっつさんが語る「エンジニア転職の本音〜意外な転職先の真相に迫る~」 - Findy Engineer Lab - ファインディエンジニアラボ
                                                                                • 2021年版:データサイエンティストを初めとするデータ分析職向け推薦書籍リスト(初級5冊+中級8冊+テーマ別14冊) - 渋谷駅前で働くデータサイエンティストのブログ

                                                                                  (Image by Pexels from Pixabay) 今年も恒例の推薦書籍リストの季節がやって参りました。……なのですが、昨年はCOVID-19の影響で*1データ分析業界及び隣接分野の新刊書を読む機会が減ってしまいましたので、例年に比べてラインナップの変更をほとんど検討しないままでリストアップしている点、予めご容赦いただければと思います。 そして今回の記事では、これまで以上に「実務家向け」「実践的」であることを重視しています。そのため昨年までのリストに比べて大幅に刷新されているカテゴリもあったりします。また、末尾に僕なんぞが選ぶよりもずっと優れた推薦書籍リストへのリンクも付しておきました。併せて参考にしていただけると幸いです。 初級向け5冊 総論 統計学 機械学習 中級向け8冊 統計学 機械学習 テーマ別14冊 PRML 機械学習の実践 Deep Learning 統計的因果推論

                                                                                    2021年版:データサイエンティストを初めとするデータ分析職向け推薦書籍リスト(初級5冊+中級8冊+テーマ別14冊) - 渋谷駅前で働くデータサイエンティストのブログ