データに関するEz-styleのブックマーク (212)

  • 『サービス終了のお知らせ - NAVER まとめ』へのコメント

    ブックマークしました ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください Twitterで共有

    『サービス終了のお知らせ - NAVER まとめ』へのコメント
    Ez-style
    Ez-style 2017/05/25
    これがアウトなら、ツイートやFacebookの書き込みはどうかという話にもつながる。後者を分析した論文は山ほどあるし、そもそも運営会社がデータを売ってるわけで/素材の選択ミスは否めない気がするけど。
  • わかるLSTM ~ 最近の動向と共に - Qiita

    Machine Learning Advent Calendar 2015 第14日です。去年のAdvent Calendarで味をしめたので今年も書きました。質問、指摘等歓迎です。 この記事の目的 ここ2~3年のDeep Learningブームに合わせて、リカレントニューラルネットワークの一種であるLong short-term memory(LSTM)の存在感が増してきています。LSTMは現在Google Voiceの基盤技術をはじめとした最先端の分野でも利用されていますが、その登場は1995年とそのイメージとは裏腹に歴史のあるモデルでもあります。ところがLSTMについて使ってみた記事はあれど、詳しく解説された日語文献はあまり見当たらない。はて、どういうことでしょうか。 記事ではLSTMの基礎をさらいつつ、一体全体LSTMとは何者なのか、LSTMはどこに向かうのか、その中身をまとめ

    わかるLSTM ~ 最近の動向と共に - Qiita
  • LSTMネットワークの概要 - Qiita

    Christopher Olah氏のブログ記事 http://colah.github.io/posts/2015-08-Understanding-LSTMs/ の翻訳です。 翻訳の誤りなどあればご指摘お待ちしております。 リカレントニューラルネットワーク 人間は毎秒ゼロから思考を開始することはありません。このエッセイを読んでいる間、あなたは前の単語の理解に基づいて、各単語を理解します。すべてを捨てて、またゼロから思考を開始してはいません。あなたの思考は持続性を持っています。 従来のニューラルネットワークは、これを行うことができません、それは大きな欠点のように思えます。たとえば、映画の中の各時点でどのような種類の出来事が起こっているかを分類したいと想像してください。従来のニューラルネットワークが、映画の前の出来事についての推論を後のものに教えるためにどのように使用できるかは不明です。 リ

    LSTMネットワークの概要 - Qiita
  • CNNを利用したセンチメント分析 - にほんごのれんしゅう

    CNNを利用したセンチメント分析 Deep Learningを利用したテキスト解析が去年の12月ごろから盛んです。ネットの日語のQIITAやはてなブックマークを見ていると、流行したのが去年から今年の頭あたりでインパクトの強い文献は出尽くしているように見えます。2015年度12月を前後にLong short-term memoryやリカレントニューラルネットワークは自然言語処理、テキストマイニングで多大な功績を残しているケースが多いようです。 Deep Learningの基礎である、ニューラルネットワークは理論が提唱され有効性が実証されるが実現可能なコンピュータリソースが足りずに長いスリープタイムを経てきました。今回もまた長い眠りに入ってしまうのでしょうか。今回はビックなインパクトをシン・ゴジラなみに社会にぶちかましてほしいものです。 ■ 代表的なDeep Learningを用いたセン

    CNNを利用したセンチメント分析 - にほんごのれんしゅう
  • character-level CNNでクリスマスを生き抜く - Qiita

    この記事は Retty Advent Calendar 18日目です。 昨日は@YutaSakataのクリスマスプレゼントにはKotlin1.1が欲しいですでした。 さて、もうすぐクリスマスですが、皆さん一緒に過ごすお相手はおられますか? 私?私はもちろんいます。この子が。 独りだと酒でも飲みに行きたくなりますよね?ちょっと奮発していい店でしっとり飲むのもいいものです。 ですが、そんなつもりで入った店がリア充どもの巣窟だったらどうでしょう? せっかくの孤独のグルメタイムが台無しです。 そんな危険な店を事前に避けるため、Deep Learningの力をかりましょう。 用意するもの keras お店の口コミ kerasはtensorflowかtheanoをバックエンドにして動くDeep Learning用のライブラリです。複雑なことをしようとすると結構面倒ですが、大抵のモデルについてはかなり簡

    character-level CNNでクリスマスを生き抜く - Qiita
  • 勾配ブースティングについてざっくりと説明する - About connecting the dots.

    最近xgboostがだいぶ流行っているわけですけど,これはGradient Boosting(勾配ブースティング)の高速なC++実装です.従来使われてたgbtより10倍高速らしいです.そんなxgboostを使うにあたって,はてどういう理屈で動いているものだろうと思っていろいろ文献を読んだのですが,日語はおろか,英語文献でもそんなに資料がなかったので,ある程度概要を把握するのに結構時間をいました. そんなわけで,今回は自分の理解の確認も兼ねて,勾配ブースティングについてざっくりと説明してみようかと思います.とはいえ生理解な部分も結構あるので,マサカリが飛んできそう感が大いにしています.腑に落ちる的な理解を優先しているため,数式は一切出てきません. 勾配ブースティングとは 複数の弱学習器を組み合わせるアンサンブル学習には,いくつかの手法がありますが,ブースティングは逐次的に弱学習器を構築し

    勾配ブースティングについてざっくりと説明する - About connecting the dots.
  • readr: 高速で柔軟なテーブル読み込み

    タブ区切りテキストやCSVファイルを読み込んでdata.frameにするツール。 .gz や .xz などの圧縮ファイルも透過的に読み書き可能。 標準でも read.table() や read.csv() があるけど、それらと比べて 場合により数倍高速・省メモリ 列の名前や型を指定しやすい 指定した列だけ読み込むこともできる 生data.frameではなく安全な tibble として返してくれる 空白行を勝手にスキップする (1.2から skip_empty_rows = TRUE) 勝手に列名を変更しない する (2.0から name_repair = "unique") stringsAsFactors = FALSE とイチイチ書かなくて文字列を読める R 4.0 から標準関数もこの挙動。 tidyverse に含まれているので、 install.packages("tidyver

    readr: 高速で柔軟なテーブル読み込み
  • MeCabをブーストさせよう - Qiita

    はじめに MeCabとは日語の形態素解析器をいいます。ここで、形態素というのは言語で意味を持つ最小単位のことです。分割された単語をベクトル化したり、各語彙の頻度を調べたりするために、最小単位に分割するモチベーションが生じます。 そもそもなぜ、形態素解析なんかやるの?っていう動機については、http://qiita.com/Hironsan/items/2466fe0f344115aff177 とかに書かれている通り、(上記の記事では、単語の分割が形態素解析に当たります)、分割された単語をベクトル化したり、各語彙の頻度を調べたりするためです。今回は、MeCabを用いて、できるだけ、精度高く分かち書きできるように頑張ります。1 追記) もう一つのMecabをブーストさせよう(Google Search Console編: https://qiita.com/knknkn1162/items/

    MeCabをブーストさせよう - Qiita
  • Deep Learningで遊ぶ(3): LSTM-RNNで夏目漱石っぽい文章の生成にトライしてみる - 渋谷駅前で働くデータサイエンティストのブログ

    そう言えばこのシリーズ長らく放置してました(汗)。いよいよこのブログもネタ切れが著しくなってきたので、今更そんな古いネタやるのかよと怒られるのを承知で「単に自分がやってみたかったから」というだけの理由で今更感のあるネタをやることにします。ということで、今回のネタはLSTM-RNN (Long short-term memory Recurrent neural network)です。いつも通り完全に自分専用の備忘録としてしか書いていませんので、ちゃんと勉強したい人は他のもっときちんとした資料*1や書籍*2やソース*3を当たってください。。。 超絶大ざっぱなLSTM-RNNの説明 ぶっちゃけ以下のQiitaの記事と人工知能学会の深層学習あたりを読めば十分という気もしますが*4、我が家には色々LSTM-RNNについて解説した書籍があるのでそちらも読みながら超絶大ざっぱかつ適当に説明しておきま

    Deep Learningで遊ぶ(3): LSTM-RNNで夏目漱石っぽい文章の生成にトライしてみる - 渋谷駅前で働くデータサイエンティストのブログ
  • ロバスト統計:外れ値を含むデータの扱い方

    以下のような10個の観測値を得たとする。 2.773, 3.183, 2.969, 2.883, 3.229, 3.080, 3.204, 3.171, 2.798, 2.900 これらは標平均 = 3.019、標標準偏差 = 0.175であり、正規分布を仮定すれば95%信頼区間は [3.019 - 1.96 × 0.175, 3.019 + 1.96 × 0.175] = [2.676, 3.362] となる。実際このデータは平均 = 3、標準偏差 = 0.2 の正規乱数であるが、各統計量は良好な値を示している。しかしデータ収集時の記載ミスなどにより最後の値だけ小数点の位置がずれてしまったとすると、 2.773, 3.183, 2.969, 2.883, 3.229, 3.080, 3.204, 3.171, 2.798, 29.00 標平均 = 5.629、標標準偏差 = 8.

  • 機械学習初心者が、素早く学べるコンテンツとライブラリ19選(Python編) - paiza times

    Photo by Horia Pernea こんにちは。谷口です。 最近「機械学習に興味がある」「いつかやろうと思ってるんだよね……」と言うエンジニアの方をよく目にします。また、その倍ぐらい「機械学習難しすぎて挫折した」という方も見ます。 弊社のITエンジニアにも機械学習を勉強中という人がいますが、特に最初は難しすぎて何から手を付けたらいいのかよく分からず、とても悩んだと言っていました。そこで同じような悩みを抱えている方の参考になればと思い、初心者の頃に参考になった機械学習入門者の方に役立ちそうな記事やスライドを聞いてきました。 また、Pythonには機械学習のためにデータを処理するライブラリ(数値演算をするためのライブラリや図を作成するためのライブラリなど……)がそろっていて、呼び出したり組み合わせて処理したり……といったことがしやすいため、多くの人が機械学習で使っています。コードも短く

    機械学習初心者が、素早く学べるコンテンツとライブラリ19選(Python編) - paiza times
  • フリーエンジニアのIT案件ならレバテックフリーランス

    コンピュータに過去のデータを分析させ、未来のデータを予測させる機械学習。商品のレコメンドシステムや写真の顔検出など、身近なところに機械学習は広く活用されています。また、Microsoftの「Azure Machine Learning」、Amazonの「Amazon Machine Learning」、Googleの「Cloud Machine Learning」、といったクラウド機械学習サービスが公開されたことで、機械学習を専門としないエンジニアでも活用できるようになりました。 そこで今回は、「機械学習でどんなことができるか」をつかんでもらうために、機械学習にはどんな手法があるのかをざっくり把握できるスライドをまとめました。機械学習に興味をお持ちの方はぜひご参照ください。 機械学習の案件を提案してもらう

    フリーエンジニアのIT案件ならレバテックフリーランス
  • 財務省が貿易統計操作/斉藤議員に回答 企業の要望反映

    財務省が長年、企業の依頼をもとに「貿易統計」の数字を操作していたことが日共産党の斉藤和子衆院議員の調べで分かりました。日の輸出入の状況を示す貿易統計は環太平洋連携協定(TPP)や日米経済対話といった通商交渉の前提にもなります。「現在を映す鏡」といわれる統計の恣意(しい)的操作は、政策決定を誤らせる危険な情報操作です。 貿易統計は、貿易の実態を正確に把握することで、国の政策決定や企業の経済活動に役立てることを目的としています。品目や国ごとに輸出入の金額や量を示しています。 財務省は、申請のあった企業の情報を秘匿扱いとして貿易統計に含めない“統計隠し”を行っていました。統計に含めると個々の輸出入業者の取引単価などが明らかになる場合があり、それによって損害が生じる恐れがあるという理屈です。 斉藤氏の問い合わせに同省は、2016年には輸出10品目、輸入19品目で秘匿扱いがあったと回答。個々の品

    財務省が貿易統計操作/斉藤議員に回答 企業の要望反映
    Ez-style
    Ez-style 2017/05/09
    いわゆる秘匿措置("X"表示)なら、工業統計や事業所統計の都道府県別産業別集計でよくあるので、質問者が無知なだけ。ただ、全体の集計結果からも除外していたなら初耳。
  • [R][データ分析]階層ベイズモデルのサンプルコード bayesmパッケージを利用 - データ分析がしたい

    Rの階層ベイズモデルのサンプルコードが全然見当たらなかったので、自分で書くことにします。詳細を説明しだすとかなり面倒な領域なので、取り合えず使えるというレベルを目指します。 利用するパッケージは「bayesm」です。 階層ベイズに限らずベイズ推定用MCMCの実行はWinBUGSが一般的だと思いますが、Rのみで利用可能かつ事前分布に関する知識なしで利用可能なのが魅力的なので。 階層ベイズモデルについて 階層ベイズモデルは簡単に説明すると個体差を取り入れた統計モデルです。イメージとしては回帰モデルを作成した際の回帰係数が個体ごとに異なっているようなモデルで、最尤法に基づく重回帰モデルやロジスティック回帰モデルより高い表現力を持ちます。 もちろん単純に人ごとに回帰係数を変えるとデータ数より係数の方が多くなり推定できないのですが、係数は個体ごとに大きく異ならないという仮定を入れて問題を解きます。こ

  • 機は熟した!グラフ構造に対するDeep Learning、Graph Convolutionのご紹介 - ABEJA Tech Blog

    はじめまして。ABEJAでResearcherをやらせていただいている白川です。 先日、化合物の物性推定をDeep Learningをつかって従来手法より300,000倍高速に処理するという論文がでました([1], [2])。この論文の手法は、Graph Convolutionというグラフ上に定義されたConvolution演算がベースとなっています。物性推定に限らず、グラフ解析全般を Deep Learning で上手にこなせるようになれば、Deep Learningのアプリケーションの幅がぐっと拡がり、さらなるイノベーションが起きそうな予感がします。 ICMLやNIPSなどの機械学習系の主要国際会議でも数年前からGraph Convolutionについての論文がちらほら出現しはじめており、とくに最近その勢いが増してきている印象があります。個人的にも最近(前から?)にわかにグラフづいてい

    機は熟した!グラフ構造に対するDeep Learning、Graph Convolutionのご紹介 - ABEJA Tech Blog
  • Rによる機械学習:caretパッケージの使い方 | Logics of Blue

    ニューロンの個数を2パタン。 データへの依存度を3パタン用意すると、2×3=6パタンも試さなければなりません。 大変に面倒ですが、このハイパーパラメタを雑に設定すると予測精度が落ちてしまうこともよくあります。 めんどくさいですが、なるべくやったほうがいいです。 4.モデルを使って予測する これは簡単。単に予測をするだけです。 パッケージを使っていれば、たいていは予測用の関数が用意されています。 5.予測の評価をする 最後は評価です。 評価をすることによって、 ・どの手法の ・どのパッケージの ・どのパラメタを 採用すべきかを判断します。 で、一番予測精度がいいやつを使って予測することになります。 たくさんの手法、たくさんのパッケージ、たくさんのパラメタの組み合わせをしらみつぶしに評価する。 普通にこれをやろうと思うと、気が遠くなってしまいますね。 そこで登場するのがパッケージ「caret」

  • caret vignette "A Short Introduction to the caret Package"の和訳 - Qiita

    caret vignette "A Short Introduction to the caret Package"の和訳R機械学習caret 巻頭言 CRAN caret のvignette https://cran.r-project.org/web/packages/caret/vignettes/caret.pdf の和訳です。 2018/03/18 vignette Octover 28, 2016版に対応しました。直訳で分かりにくいところ更に訳し直しました。 caretパッケージには、複雑な回帰と分類の学習を簡易に実施できる関数群があります。多数のRパッケージから構成されていますが、最初に全てを読み込む必要はありません1。初期状態では27のパッケージが利用できます。それ以外のパッケージについては、caretでは必要となった時にそれを読み込みます。 caretのインストールは

    caret vignette "A Short Introduction to the caret Package"の和訳 - Qiita
  • 機械学習で広告の効果を推定したいお話。 | 分析のおはなし。

    アメリカへの交換留学とノルウェーへの大学院留学を経た後に、データサイエンティストを目指そうとする人の戯れ言。 こんばんは。 数学ができなくて悩む今日この頃です。 が、データ分析数学そのものでは無いので気にせずコツコツやっていこうと思う今日でもあります。 さて、 Japan.Rで発表してまいりました。 内容は「機械学習を使って広告の効果を推定する」という予測モデルを使って因果推論を試みる内容でした。 今回は内容の補足と解説を書きます。 発表した資料はこちらです。 1. Hal Varianのアプローチ そもそもこのトピックに興味を持ったのは Varianの書いた Big Data: New Tricks for Econometricsというペーパーと、 それに影響を受けたNBERのDemand Estimation with Machine Learning and Model Comb

    機械学習で広告の効果を推定したいお話。 | 分析のおはなし。
  • パッケージユーザーのための機械学習(12):Xgboost (eXtreme Gradient Boosting) - 六本木で働くデータサイエンティストのブログ

    今やKaggleやKDD cup以下名だたる機械学習コンペで絶大な人気を誇る分類器、Xgboost (eXtreme Gradient Boosting)。特にKaggleのHiggs Boson Machine Learning Challengeの優勝チームが駆使したことで有名になった感があるようで。 その実装ですが、C++ベースで高速化したものにRとPythonのラッパーをつけたものが既にGitHubで公開されています。 Rパッケージである{xgboost}のインストールについての注意事項は前回の記事に書いていますので、インストールの際はご参考にしていただければと。 さて。これだけ大人気の分類器となると国内外問わず色々な解説記事に溢れておりまして、例えば日語ブログでもこれだけの記事が既に出てます。 勾配ブースティングについてざっくりと説明する - About connecting

    パッケージユーザーのための機械学習(12):Xgboost (eXtreme Gradient Boosting) - 六本木で働くデータサイエンティストのブログ
  • A/Bテストに用いられる統計的検定手法(ロジック)のまとめ&比較 | RCO Ad-Tech Lab Blog

    リクルートデータ組織のブログをはじめました。※最新情報はRecruit Data Blogをご覧ください。 Recruit Data Blogはこちら 汎用人型雑用AIの stakaya です。 たまたま数年前に社内のBLOGに書いたABテストのロジックのまとめ&比較記事を発掘したので、 このまま眠らせているのはもったいないぞと、 圧倒的もったいない精神を発揮し、シェアさせていただきます。 あの頃は私も若かった。 社内では”堅物・真面目・一途”で有名なものでして、下記文章がお硬いのはご勘弁ください。 はじめに 記事は、施策の評価手法としてしばしば用いられるA/Bテスト(A/B testing)について、できる限り背後にある仮定を明記した上で、まとめたものである。 A/Bテストとは、主にインターネットマーケティングにおける施策の良否を判断するために、2つの施策(通常、A・Bと記載)を比較す

    A/Bテストに用いられる統計的検定手法(ロジック)のまとめ&比較 | RCO Ad-Tech Lab Blog