We distribute pre-trained word vectors for 157 languages, trained on Common Crawl and Wikipedia using fastText. These models were trained using CBOW with position-weights, in dimension 300, with character n-grams of length 5, a window of size 5 and 10 negatives. We also distribute three new word analogy datasets, for French, Hindi and Polish. Download directly with command line or from python In o
概要 GPyを用いて、サンプルパスの生成、ガウス過程回帰、クラス分類、ポアソン回帰、Bayesian GPLVMを実行しました。自分用のメモです。 参考資料 [1] 公式ページ [2] 公式のチュートリアル [3] Gaussian Process Summer Schoolsの資料 理論的背景は上記の[3]を参考にしてください。日本語でもガウス過程の解説がMLPシリーズから豪華著者陣で出るようです。超期待しています。 以下のサンプルプログラムは基本的に[2]を元にしています。しかし、古くてそのままでは動かないプログラムや分かりにくいプログラムを少し加工修正しています。なお、環境は以下の通りです。 Windows 7 64bit Python 3.5.2 :: Anaconda 4.2.0 (64-bit) GPy 1.5.5 サンプルパスの生成 RBFカーネルで適当に定めたパラメータの値
はじめに 私はこれまで機械学習のパラメータチューニングに関し、様々な書籍やサイトで学習を進めてきました。 しかしどれもテクニックの解説が主体のものが多く、 「なぜチューニングが必要なのか?」 という目的に関する記載が非常に少なかったため、体系的な理解に苦労しました。 この経験を後世に役立てられるよう、「初心者でも体系的に理解できる丁寧さ!」をモットーに記事にまとめたいと思います。 具体的には、 1. パラメータチューニングの目的 2. チューニングの手順とアルゴリズム一覧 3. Pythonでの実装手順 (SVMでの分類を例に) の手順で解説を進めます。 独自解釈も含まれるため、間違っている点等ございましたら指摘頂けると有難いです。 なお、文中のコードはこちらのGitHubにもアップロードしております。 2021/9/6追記:LightGBMのチューニング実行例追加 以下の記事に、Ligh
ホーム ホーム 1. Python を始める 2. 基本仕様 3. クラス 4. モジュールとパッケージ 5. ファイル操作 6. 例外 7. ジェネレータ 8. テスト このサイトは Python を学ぶ人向けのオンライン学習サイトです。 対象¶ Python を初めて学ぶ人 プログラム言語を 1 つ以上経験したことのある人 関数やクラス・オブジェクト指向に対する知識をある程度前提にします。 Python の特徴¶ 学習コストが低い 標準ライブラリが非常に豊富 インデントをすることが言語仕様になっている Python のバージョンについて¶ 2.x.x: 2020 年 1 月 1 日でサポート終了 3.x.x: 現行バージョン 2.x.x 系は新規開発では使用すべきではありません。このサイトでは 3.x.x をベースに説明を行います。
目次 概要 動作環境 紹介するPythonライブラリ flake8 pyformat isort mypy bpython ipdb 最後に 概要 仕事でよくつかうパッケージからプライベートで開発するときに、必ずインストールしているパッケージをまとめて紹介してみた。 データサイエンス系の人はJupyterを使うと思うのでWeb開発向きだと思います。 DjangoなどWebフレームワークを使うときは便利な専用のパッケージもありますが本記事には記載してないです。 パッケージ管理はPipenvやpoetryなど有名なものがあるがこの記事では書いてないです。 動作環境 筆者の動作環境。 環境に依存したパッケージはないはずだが念の為。 MacOS Python 3.8.0 anyenv 1.1.1 pyenv 1.2.15-1-g49bf5952 紹介するPythonパッケージ flake8 プロジ
ここ1〜2年くらいで、業務やプライベートのデータ分析・データサイエンスで参考にした本(と一部本じゃないもの)をまとめてみました(注:もちろん全部読んでいます).*1. なお, あくまでワタシ個人(@shinyorke)の見解に基づいた独自解釈であり、所属組織・チームの意向とは関係ありません(とだけ最初に断っておきます). サクッとまとめると 「レベル感(はじめて・経験者)」だけででなく,「エンジニア面を鍛える or 理論を固める」の軸で考えると良い書籍・学び方に出会える確率上がる エンジニアでも理論でもどっちから初めても良い, がどちらかが得意な方が絶対幸せ(≒片方だけじゃお話にならない可能性) 個人的なオススメは「機械学習図鑑」「前処理大全」「機械学習のための特徴量エンジニアリング」そして「試して学ぶ機械学習」です. おしながき サクッとまとめると おしながき 対象読者&執筆者について
English version available on dev.to はじめに matplotlibで作ったグラフの細かい調整は大変です。何をどういじったらいいのかを調べるのにアホみたいに時間がかかることがあります1。「何を」の部分の名前さえわからないこともあります。解決の糸口を掴んだ後も希望通りの見た目を実現するまでの最後のアレンジに苦労することが多いです2。これらの問題はmatplotlibのグラフがどういう要素で構成されていて、それらに対してどういうことができるかを知ることでいくらか改善されます。私はひたすらStack Overflowの回答を読むことでいろんなつまづきを時間をかけて乗り越えてきましたが、最近になってようやく公式チュートリアルにこの苦労を回避できたはずのヒントが書いてあることに気づきました。初期にざっと目を通したのですが「なるほど、よくわからん」と判断して読み込まな
この記事はNIFTY Advent Calendar 2017の24日目の記事です。 昨日は@megane42さんのNeo4j を駆使して格ゲーに勝つという記事でした。 1 はじめに 1.1 モチベーション 普段はネットワークとかインフラ寄りのエンジニアをしているニフティ4年目の@licht110です。 今回は完全に趣味でやっていることの話で、この記事を書いたモチベーションは以下の通りです。 ブロックチェーンを調べているうちに仮想通貨の取引にハマった 機械学習・深層学習を学ぶことによるスキルアップ 仮想通貨で大儲けして遊んで暮らしたいなどとは微塵も思っていませんよ。 ※この記事を参考にして行った仮想通貨の取引によって生じた損害またトラブルについては一切の責任を負いかねます。 1.2 この記事で取り扱う内容 仮想通貨取引所のAPIを使って価格データを取得する kerasとscikitlear
ディープラーニングで新しい画像変換 数ヶ月前ですがディープラーニングの分野で「pix2pix」という技術が話題になりました。これは簡単に言うと画像フィルタを入力画像と出力画像のペア(教師データ)だけから自動で生成してくれる技術です。詳細は、以下の記事や元の論文を参照下さい。 pix2pixの紹介 | 株式会社クロスコンパス's Blog GAN(と強化学習との関係) 「pix2pix」を使うと、従来の画像処理では難しかった、白黒画像をカラーにしたり、手書きの絵を写真にしたりといった、ぶっ飛んだ画像フィルタを教師データを用意するだけで生成できてしまいます。具体的な応用例に関しては、以下の記事などが参考になります。 できそうなことはだいたいできる画像生成AI、pix2pixの汎用性に驚く - WirelessWire News(ワイヤレスワイヤーニュース) 自分も何か面白い画像変換フィルタ作っ
ニューラルネットの学習過程の可視化を題材に、Jupyter + Bokeh で動的な描画を行う方法の紹介 [Jupyter Advent Calendar 2017] 前置き Jupyter Advent Calendar 2017 14日目の記事です。この記事は、Jupyter notebookで作成したものをnbconvertでmarkdownに変換し、手で少し修正して作りました。読み物としてはこの記事を、実行するにはノートブックの方を参照していただくのが良いかと思います。 ノートブック (gist) nbviewer 概要 適当なニューラルネットの学習過程の可視化(ロス、正解率の遷移等)を題材にして、Bokehを使って動的にグラフを更新していくことによる可視化の実用例を紹介します。このノートブックの冒頭に、最後まで実行すると得られるグラフ一覧をまとめました。どうやってグラフを作るのか
今回は多様体学習を使ってデータの次元を縮約する方法について。 これはデータの前処理として、主に二つの目的で使われる。 一つ目は、次元を縮約することで二次元や三次元の形でデータを可視化できるようにするため。 もう一つは、次元を縮約した結果を教師データとして用いることでモデルの認識精度を上げられる場合があるため。 データの次元を縮約する手法としては主成分分析 (PCA) が有名だけど、これは線形な変換になっている。 ただ、実際に取り扱うデータは必ずしもそれぞれの次元が線形な関係になっているとは限らない。 そこで、非線形な変換をするのが多様体学習ということらしい。 今回使った環境は次の通り。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.12.6 BuildVersion: 16G1114 $ python --version Python
あらまし Couseraの機械学習コースをはじめました.前々から視界にはかすめていたのですが、やっと今頃重い腰を上げた次第です.しかし、Octaveで書くのが少々億劫1だったこと、コードの一部を埋めるのではなくインターフェイスから全て自分で書いたほうが勉強になると思い、Pythonで書き直してみることにしました.この記事は自分の勉強メモです. 一応Courseraを受講していない人でもなんとか追えるかな?という内容にしたつもりです.もし興味を持たれたら、ぜひ受講してみてください.最高に丁寧ですばらしい講義ですよ. 巷に溢れる機械学習の教材のひとつとして、利用して頂けると幸いです. 機械学習のキモ 機械学習で登場する重要キャラクターの紹介です.5人います: ① $X$: 入力データセット.例えば 1.土地の広さとか、 2.タイタニック号乗船者の性別・年齢とかとか ② $y$: 出力データセッ
この記事はUnity 2 Advent Calendar 2017の7日目の記事です。 この記事でのバージョン Unity 2017.2.0f3 はじめに ちょっと前にUnityが機械学習用のSDK、 Unity Machine Learning Agents (ML-Agents)を公開しました。 特に使う予定がなかったので触れずにいたのですが、Advent Calendarという良い口実が出来たので ちょっと触って、記事にしてみました! なお、タイトルにAIと入れたのは、そちらの方が受けが良さそうだと思ったからです!! 目次 はじめに 目次 Unity準備 python準備、学習 学習結果の反映 おわりに 参考 Unity準備 まずはGitHubからML-Agentsを入手。 次にUnity-environmentをUnity(2017.1以降)で開き、 TensorFlowSharp
Simon J.D. Prince, Computer vision: models, learning and inference (2012) に頻繁に出てくるヒートマップに刺激されて真似てみた。 #coding: utf-8 import numpy as np import matplotlib.pyplot as plt import matplotlib.mlab as mlab def main(): x = np.linspace(-4.0, 4.0, 200) y = np.linspace(-4.0, 4.0, 200) X, Y = np.meshgrid(x, y) # 2次元正規分布 # matplotlib.mlab : MATLAB compatible command # matplotlib.mlab.bivariate_normal(X, Y, sigm
マルチラベルデータのプロット プロットするデータの作成 二次元で可視化 三次元で可視化 三次元で可視化してそれを回転させるアニメーションを作成 分類問題データのプロット Isomapで次元削減したものを可視化 プロットのマーカを変える+ランダムに色を生成する その他 矢印をプロットに追加 棒グラフなどを模様で埋める(hatch) jupyter notebookでアニメーションを埋め込む 長方形の枠をプロットする ヒートマップのアニメーション 利用可能なカラーマップの取得 利用可能なマーカー(点の形)の一覧の取得 ラベルの位置の調整 その他のプロットのサンプルコード 宇宙工学・天文学など seaborn のギャラリー matplotlibのギャラリー 毎回ぐぐるのもあれだったので。 よく使うものでなるべくドキュメントのギャラリーになさそうなもの。 適当に追記するかもしれません。 マルチラベ
この記事のまとめ 64-bit版Windows環境上でMeCab用Pythonモジュールをインポートするまでの手順をまとめます。 背景 日本語解析を少しやってみようと思って、形態素解析ツールのMeCabをWindows (64-bit)上のPythonで使ってみようと思ったのですが、これがなかなかの曲者でした。Windows 64-bit環境でPythonからMeCabを使うのはとてもめんどくさいです。とりあえずMeCab用Pythonモジュールをインストールして、それをインポートするところまではできたので、私のケースの対処法を書いておきます。 MeCabをPythonで使えるようにするための流れ MeCab本体(32-bit)をインストールする MeCab本体を64-bitでコンパイルし直し、関連ファイルを64-bit版に更新する MeCabのPythonモジュールをビルドし、インストー
MeCabでwakatiとchasenを使うと、それぞれ分かち書きと形態素解析ができる。 これらの結果を利用しやすくするために、前者は単語のリスト、後者は単語と品詞のセットのリストとして取得できるようにした。 分かち書き まずはMeCabの使い方から。最初は分かち書き。 パラメーターに"-Owakati"を指定する。 text = '日本語の自然言語処理は本当にしんどい。' tagger = MeCab.Tagger("-Owakati") result = tagger.parse(text) print result 結果。これをリストにする。 日本語 の 自然 言語 処理 は 本当に しんどい 。 分かち書き結果をリストで取得 メソッドは以下の通り。 文字コードとか、不要な情報とかを除去してリスト化している。 def word_tokenize(self, doc): """ Exe
RNNで「てにをは」を校正する 余談 2017/3/19に、どの深層学習フレームワークがこれから深層学習を始める人におすすめなのかというアンケートをtwitterで取らせていただきました。 五位 Theano(個別カウント) はじめに RNNによる文章校正がリクルートによって提案されて以来、調査タスクとして私のものとに来たりして、「できるんでしょう?」とか軽く言われるけど、実際には簡単にはできません。 RNNによる文章生成ができるから、校正もできるというのが人間の自然な発想なのかもしれませんが、英語と日本語の違いに着目した場合、英語がアルファベットのみで構築されるのに比べて日本語は、漢字・ひらがな・カタカナと非常に多く、同じように問題を適応すると、すごい高次元の問題を解くこととなり、理想的なパフォーマンスになかなかなりません。 まぁ、あんまり完成してるわけでない技術を完成したようにプレスリ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く