8月に Google Developers Expert となり、新米の様にオロオロとしています。過去の GDE ミーティングの議事録を見せて頂いているのですが Google Document に保存されており、Go だけでなく他のカテゴリの GDE に関する物も含めると全てに目を通すのはなかなか骨が折れます。技術者なので問題は技術で解決すべく、これらの資料を grep 検索できる様にしました。 Google Document はエクスポートすると Microsoft Word の形式となるので、Microsoft Word から Markdown に変換するプログラムを書けばテキスト検索もできるし、なんならそのまま GitHub に貼り付けてしまう事もできます。 GitHub - mattn/docx2md docx2md Convert Microsoft Word Document
曖昧・多義的に使われている専門用語は全然珍しくありません。確率・統計の分野でも、たくさんの曖昧語・多義語が登場します。そのなかでも、特に曖昧性がひどく、意味不明の四天王だと僕が思っている言葉は、 確率変数 分布 母集団 標本 です。どれも手強くて、「四天王の中でも最弱」とか「最強」とかの順位付けは難しいです。 *1 「確率変数」については何度も話題にしています。2つだけ過去記事を選ぶなら: 「確率変数」と言うのはやめよう 「確率変数」の正体は米田埋め込み 「分布」に関しては: 確率・統計の「分布」の意味と使用法 心が安らぐ「分布の空間」を定義してみる 今回この記事では、残る2つの超曖昧語「母集団」「標本」について、出来る限りの解明を試みます。中心的話題は、「標本」に対するまったくかけ離れた2つの定義を結びつけることです。2つの定義を結びつけるために、「独立ベキ測度の前送り定理」を紹介します
今回はツイッターからツイートデータを取得し、それをWordCloudというライブラリを使って可視化してみたいと思います。 Word Cloud関連の記事は、既に多くあり特に目新しいものではないですが、可視化ツールとしてはなかなかインパクトがあるので、テキストマイニング関連の分析の一例として今回やってみました! ちなみに、今回、好きな芸人の中の一人である、スピードワゴン小沢さんのツイートを取得して、可視化してみました。(勝手にごめんなさい。。。) 結果をまず先にお見せします! 今回の流れWord Cloudでは、頻出する単語ほど、つまり特徴的な単語ほど大きな文字で表示されます。右下の「好き」「幸せ」「友達」という言葉がまず目に入りました。 小沢さんのツイートは、とても詩的で素敵です。そんな小沢さんの人柄、芸術性溢れたツイート内容がうまく可視化できているのではないかと思います! さて、この図を
単語の分散表現は現在の自然言語処理で当たり前のように使われています。最近は学習済みのモデルが数多く公開されており、自分で時間とお金をかけて学習させる必要性が少なくなってきました。しかし、公開されているとはいえ自分で探してきてダウンロードするのはなかなか手間がかかります。 この手間をなくすために単語分散表現のダウンローダを作ってみました。名前は chakin です。 chakki-works/chakin (スターつけていただけるとやる気がでますm(__)m) chakinの特徴としては、Pythonで書かれておりpipでインストールできる、検索からダウンロードまでワンストップでできる、23のベクトルをサポートしている(2017/5/29時点)と言ったことが挙げられます。サポートするベクトルについては今後増やしていく予定です。 では使い方をご紹介します。 chakinの使い方 インストールは
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く