ksmznのブックマーク (257)

  • http://www.dbl.k.hosei.ac.jp/~miurat/readings/May2013a.pdf

    ksmzn
    ksmzn 2016/06/03
  • Collaborative Topic Modeling for Recommending Scientific Articles

    論文"Collaborative Topic Modeling for Recommending Scientific Articles"を読んだ際に使用したスライド

    Collaborative Topic Modeling for Recommending Scientific Articles
    ksmzn
    ksmzn 2016/06/02
  • 第4回 Amazon Redshiftにデータをロードしてみよう | gihyo.jp

    前回は、Amazon Redshiftの起動から、ローカルマシンでAmazon Redshiftクラスタへ接続するまでの説明を行いました。今回は、Amazon Redshiftを実際に運用する上で重要となるデータのロードを中心に、例を交えて説明していきます。なお、チュートリアルの中で利用するデータはAmazon Redshift Getting Started Guideで紹介されているデータを利用しています。 連載のチュートリアルは、AWSアカウント、起動中のAmazon Redshiftクラスタ、また接続するクライアントツールがすでに準備されていることを前提としています(※⁠)⁠。実際に試される方は、前回の記事を参考に環境準備をしておいてください。 ※) Hapyrusでは、RedshiftとFlyDataをお試しいただけるSandbox環境を無料で提供しています。また、ブラウザ上か

    第4回 Amazon Redshiftにデータをロードしてみよう | gihyo.jp
    ksmzn
    ksmzn 2016/05/31
    “distkeyを指定したカラムは同じ値の場合に同じノードに保存されるようになり,そのカラムを含むテーブルをJOINで結合するSQLの高速化が期待できます。sortkeyは,指定したカラムの値がソートされてノードに保存される”
  • Visualizing Data Using t-SNE

    Tomoki HayashiCOO / Postdoctoral Researcher at Human Dataware Lab. Co., Ltd. / Nagoya University

    Visualizing Data Using t-SNE
    ksmzn
    ksmzn 2016/04/26
  • コサイン類似度が高いベクトルはどれくらい似ているか(岩波データサイエンス刊行イベントより) - Mi manca qualche giovedi`?

    岩波データサイエンス vol.2 の発刊を記念して、刊行トークイベント「統計的自然言語処理 - ことばを扱う機械」が 3月3日 に開催されました。 岩波データサイエンス Vol.2 : 岩波データサイエンス刊行委員会 : : Amazon.co.jp トークイベント「統計的自然言語処理ーことばを扱う機械」(岩波データサイエンス Vol.2 刊行記念) - connpass イベントの様子はニコニコ動画さんで生中継されましたが、その録画は YouTube で公開させてもらっています。 【トークイベント「統計的自然言語処理ーことばを扱う機械」(岩波データサイエンス Vol.2 刊行記念) - YouTube】 1. 挨拶と著者団トーク 2. 招待講演「当は怖い統計的自然言語処理」(賀沢秀人; グーグル株式会社) 3. 自然言語処理についてのパネルセッション+クロージング 自然言語処理に詳

    コサイン類似度が高いベクトルはどれくらい似ているか(岩波データサイエンス刊行イベントより) - Mi manca qualche giovedi`?
    ksmzn
    ksmzn 2016/04/25
  • ランダムフォレストを使った初期分析例 | カメリオ開発者ブログ

    白ヤギコーポレーションのデータ分析担当 堅田です。 今回は、時間がない中でデータをさくっと分析したいという人向けに、RのrandomForestパッケージを使った分析方法を紹介したいと思います。 データの前処理 まずデータの前処理では、難なくRのrandomForestに突っ込むための加工を施します。主なステップは以下の4つです。 1. データのサンプリング 初期分析の段階で全データを使う必要はないと考えます。変数のサイズにもよりますが、私は10%くらいのデータでまずやるようにしています。 2. 数値型の変数の欠損値は中央値で補完。さらに、欠損の有無そのものを新たな変数とする RのrandomForestのデフォルト設定では、欠損値があると実行できません。そのため、欠損値を補完する必要があります。 数値データの欠損は、来は理由に応じて処理すべきですが、理由がわからなければ中央値で補完して

    ランダムフォレストを使った初期分析例 | カメリオ開発者ブログ
    ksmzn
    ksmzn 2016/04/15
  • 個人開発アプリのサーバーサイド環境を金と時間をかけずに用意する方法 - Qiita

    この記事はSansanアドベントカレンダー3日目です。 前提 個人でアプリを開発していても、やっぱりなんだかんだサーバーサイドが必要になる機会ってあると思います。ただ、注力したいのはやっぱりアプリ側の開発なのでできるだけサーバーサイドにはコストをかけたくない、そんなときどうすれば、、、みたいな話です。 基的には、 金をかけたくない 時間をかけたくない でもサーバーサイド用意したい という前提で雑にサーバーサイド環境を用意する場合の話です。 作ったアプリなど 最近は放置気味になっていますが、下記のようなアプリをこれまでにリリースしました。いずれも2人で開発した個人アプリで、アプリに注力しながらもそれなりに頑張ってサーバーサイド側も用意しました。瞬間最大風速では、1000リクエスト/秒くらいのアクセスがあっても特に負荷などの問題も起きず、一応正常に動作してました。 ヒミツのアルバム(写真管理

    個人開発アプリのサーバーサイド環境を金と時間をかけずに用意する方法 - Qiita
    ksmzn
    ksmzn 2016/03/09
    “MBaaS”
  • データ可視化チートシート - Qiita

    はじめに データ可視化では、データの性質によって概ねどのような可視化ができるのか決まる場合があります。データ可視化は探索的なデータ分析をする場合や、データ分析した結果を誰かに伝えるために重要であり、その時々の目的に合わせた可視化を選択するべきですが、そもそも可視化手法の特性とデータの性質があっていないとあまり効果がない場合があります。筆者が業務においてデータ可視化する際にデータの性質から可視化手法を導く場合の道のりを整理し、チートシートとしてまとめてみました。 もちろん、調べたい・表現したい内容によって自分で自由に選んでもまったく問題無いですが、データを前にして「どうやって可視化しよう?」と悩んでいる方の一助になれば幸いです。 また、この記事では主に一般的な可視化(グラフ)手法にフォーカスしており、イラスト的な要素を含むインフォグラフィックなどについては触れていません。(が、だいたいのデー

    データ可視化チートシート - Qiita
    ksmzn
    ksmzn 2016/03/07
  • ⭐️PDFの情報・文章をRでごっそり取得する - cucumber flesh

    便利なRパッケージを見つけたのでメモがてら紹介しておきます。以前、Rを使ってPDF上のテキストを取得するパッケージとして{tm}パッケージを紹介しましたが、同様の機能をもった{pdftools}は以下の特徴があります。 PDFがもつ各種の情報やテキストを取得できる 日語も問題なし PDFがロックされている場合、パスワードで開ける PDFを画像として出力できる 開発者はrOpenSciの一員でもあるJeroen Oomsです。 github.com uribo.hatenablog.com {tm}パッケージでは日語が含まれるPDFを扱う際にはちょっとした工夫が必要でしたが、{pdftools}では日語の出力も問題なく行うことができてちょっと感動しました。機能としてPDFの情報を得る、ということとPDFを画像として出力する、というものがあります。 🔰 使用例 CRANに登録されている

    ⭐️PDFの情報・文章をRでごっそり取得する - cucumber flesh
    ksmzn
    ksmzn 2016/02/29
  • 機械学習によるデータ分析まわりのお話

    某所で機械学習の講習会(?)のようなものをしたときの資料です. 機械学習によるデータ分析について,アルゴリズムやツールの使い方*以外*の部分で 重要だと思うことを重点的にまとめたつもりです.Read less

    機械学習によるデータ分析まわりのお話
    ksmzn
    ksmzn 2016/02/26
  • Resources for ggmcmc | Xavier Fernández i Marín

    ggmcmc is an R package aimed at providing tools for assessing and diagnosing convergence of Markov Chain Monte Carlo simulations, as well as for graphically display results from full MCMC analysis. The package also facilitates the graphical interpretation of models by providing flexible functions to plot the results against observed variables. Development ggmcmc is developed in github and has attr

    Resources for ggmcmc | Xavier Fernández i Marín
    ksmzn
    ksmzn 2016/02/19
  • Stan(MCMC サンプリング)を使ったクラウドサービスセットアップ時間の推定 - Cybozu Inside Out | サイボウズエンジニアのブログ

    サイボウズ・ラボの中谷です。 先日、このブログでインフラチームの湯谷さんが R と統計の社内勉強会での資料を公開する記事を書いていましたが、同じくその社内勉強会で行ったクラウドサービスのデプロイ時間を分析したお話をします。 blog.cybozu.io 5分で使えるクラウドサービス サイボウズでは cybozu.com というクラウドサービスを展開しています。 クラウドサービスといえば「申し込んですぐ使える」のが一般的なイメージでしょう。 cybozu.com も web サイトから申し込むと、5~10分でサービスが利用可能になります。 これを実現するために、インフラ担当者が24時間待機しておき、申し込みの通知を受付けたらデータベースを切って、サービスインスタンスに申し込まれたアプリケーションをデプロイして……なんてことをしていたら担当者がすぐに倒れてしまうので、そこのところは当然自動化さ

    Stan(MCMC サンプリング)を使ったクラウドサービスセットアップ時間の推定 - Cybozu Inside Out | サイボウズエンジニアのブログ
    ksmzn
    ksmzn 2015/10/23
  • 利益率3割 日本企業が失ったアップル大もうけのカギ - 日本経済新聞

    イノベーションを生み出す企業の代表とも言える米Apple(アップル)は、業績面でも超が付くほどの優良企業だ。例えば、2014年度(2014年9月27日を末日とする会計年度)では、売上高が約18兆円、営業利益率が約30%と驚異的な数値をたたき出し、直近の2015年度第3四半期(4~6月)でも前年同期比で売上高が33%増、純利益が39%増と、第3四半期で過去最高を記録した。Appleはなぜ、こんなにもうかるのか。当の理由を、管理会計および技術領域の改革を融合したコンサルティングを手掛けるプリベクトの北山一真氏に解説してもらう。

    利益率3割 日本企業が失ったアップル大もうけのカギ - 日本経済新聞
    ksmzn
    ksmzn 2015/10/21
  • Xgboost のR における具体例 (クラス分類) - puyokwの日記

    前回、Xgboost のパラメータについて列挙しましたが、あれだけ見ても実際にどう使うのかよく分かりません。そこで今回はR で、とりあえず iris data を用いてその使い方を見ていきたいと思います。 まず、iris data の奇数番目を訓練データ、偶数番目を検証データとします。 dim(iris) # 行数:150, 列数:5 odd.n<-2*(1:75)-1 iris.train<-iris[odd.n,] # 奇数を訓練データ iris.test<-iris[-odd.n,] # 偶数を検証データ 次に、xgboost に適した形式に変換します。 library(xgboost) y <- iris.train[,5] # 目的変数 y <- as.integer(y)-1 #xgboost で既定されいるクラスは 0 base train.x<-iris.train[,1:

    Xgboost のR における具体例 (クラス分類) - puyokwの日記
    ksmzn
    ksmzn 2015/10/19
    “xgb.importance”
  • 山崎製パン カビさせないもう一つの技術 | FOOCOM.NET

    どんなコラム? 職業は科学ライターだけど、毎日お買い物をし、家族の事を作る生活者、消費者でもあります。多角的な視点での課題に迫ります プロフィール 京都大学大学院農学研究科修士課程修了後、新聞記者勤務10年を経て2000年からフリーランスの科学ライターとして活動 山崎製パン(株)はもう、臭素酸カリウムを使っていない。このことを私は、欄でも書いたし、雑誌の連載記事などでも書いている。しかし、相変わらず間違った情報が多い。最近ではこれ、である。すかさず、産経新聞の平沢裕子記者が『山崎製パン「添加物バッシング」の真相は? カビにくいのは「無菌製造だから」臭素酸カリウムは残留ゼロ&現在使用せず』という記事を出していた。 記事にもあるとおり、山崎製パンは臭素酸カリウムを2014年2月から使用していない。私は、記事にも登場する山崎製パン中央研究所の山田雄司所長に思い切って尋ねたことがある。同社が

    山崎製パン カビさせないもう一つの技術 | FOOCOM.NET
    ksmzn
    ksmzn 2015/09/25
    すぐに反論するよりも、結果的にブランディングになっている気がする
  • プログラム組んだら負け!実はHTML/CSSだけでできること2015夏

    ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発慎一 古賀

    プログラム組んだら負け!実はHTML/CSSだけでできること2015夏
    ksmzn
    ksmzn 2015/09/04
  • Swift is like Go

    Fork the repo if you want to help improve it. :) You may also check Hyperpolyglot C, Go, Swift: a side-by-side reference sheet

    ksmzn
    ksmzn 2015/08/28
  • esa.io - 趣味から育てたWebサービスで生きていく

    YAPC::Asia 2015 http://yapcasia.org/2015/talk/show/c191c08a-0a98-11e5-be34-67dc7d574c3a 「esa」は esa LLC が開発・運営しているチーム向けMarkdownドキュメント共有サービスです。2015年1月に正式リリースされてから約半年、βテスト期間も含めると1年ほどになります。 トークではエンジニア1人とデザイナー1人で開発・運営・経営・営業などを行う上で考えたこと、経験したことなどを中心に、オフの時間に趣味で作り始めたWebサービスを事業化することについてお話したいと考えています。

    esa.io - 趣味から育てたWebサービスで生きていく
    ksmzn
    ksmzn 2015/08/22
  • TypeScript入門しました – 機械学習の実装 1

    TypeScript lets you write JavaScript the way you really want to. TypeScript is a typed superset of JavaScript that compiles to plain JavaScript. Any browser. Any host. Any OS. Open Source. TypeScriptとは TypeScript はマイクロソフトによって開発されたフリーでオープンソースのプログラミング言語である。TypeScriptJavaScript に使用するかどうかが任意の静的型付けとクラスベースオブジェクト指向を加えたスーパーセットとなっている。C# のリードアーキテクトであるアンダース・ヘルスバーグが TypeScript の開発に関わっている。- Wikipedia とのことです

    ksmzn
    ksmzn 2015/08/20
  • はてなで大規模サービスのインフラを学んだ - ゆううきブログ

    中〜大規模サービスのインフラの様子を知りたいアプリケーションエンジニア向けに、もともとアプリケーションコードを書いていた視点から、個人的な体験をベースにはてなで大規模サービスのインフラを学んだ過程や学んだ内容の一部を紹介します。 Webアプリケーションのブラックボックス Webアプリケーションフレームワークの向こう側 なぜ複数のサーバが必要なのか 突然のWebサービス3層構成 リバースプロキシ アプリケーション データベース その他のコンポーネント キャッシュは麻薬 飛び道具としてのKVS/NoSQL 非同期処理 バッチ処理 Mackerelの場合 参考 まとめ Webアプリケーションのブラックボックス 今年もはてなインターンの時期が近づいてきた。 毎年ではないけど、はてなインターンでは「インフラ講義」というのをやっている。 今年はインフラ講義の講師としてアサインされたのでちょうど何を話そ

    はてなで大規模サービスのインフラを学んだ - ゆううきブログ
    ksmzn
    ksmzn 2015/08/04