[B! データ] [8ページ] Ez-styleのブックマーク

『サービス終了のお知らせ - NAVER まとめ』へのコメント

ブックマークしましたここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください Twitterで共有

Ez-style 2017/05/25

これがアウトなら、ツイートやFacebookの書き込みはどうかという話にもつながる。後者を分析した論文は山ほどあるし、そもそも運営会社がデータを売ってるわけで／素材の選択ミスは否めない気がするけど。

リンク

わかるLSTM ～最近の動向と共に - Qiita

Machine Learning Advent Calendar 2015 第14日です。去年のAdvent Calendarで味をしめたので今年も書きました。質問、指摘等歓迎です。この記事の目的ここ2～3年のDeep Learningブームに合わせて、リカレントニューラルネットワークの一種であるLong short-term memory(LSTM)の存在感が増してきています。LSTMは現在Google Voiceの基盤技術をはじめとした最先端の分野でも利用されていますが、その登場は1995年とそのイメージとは裏腹に歴史のあるモデルでもあります。ところがLSTMについて使ってみた記事はあれど、詳しく解説された日本語文献はあまり見当たらない。はて、どういうことでしょうか。本記事ではLSTMの基礎をさらいつつ、一体全体LSTMとは何者なのか、LSTMはどこに向かうのか、その中身をまとめ

Ez-style 2017/05/25

リンク

LSTMネットワークの概要 - Qiita

Christopher Olah氏のブログ記事 http://colah.github.io/posts/2015-08-Understanding-LSTMs/ の翻訳です。翻訳の誤りなどあればご指摘お待ちしております。リカレントニューラルネットワーク人間は毎秒ゼロから思考を開始することはありません。このエッセイを読んでいる間、あなたは前の単語の理解に基づいて、各単語を理解します。すべてを捨てて、またゼロから思考を開始してはいません。あなたの思考は持続性を持っています。従来のニューラルネットワークは、これを行うことができません、それは大きな欠点のように思えます。たとえば、映画の中の各時点でどのような種類の出来事が起こっているかを分類したいと想像してください。従来のニューラルネットワークが、映画の前の出来事についての推論を後のものに教えるためにどのように使用できるかは不明です。リ

Ez-style 2017/05/25

リンク

CNNを利用したセンチメント分析 - にほんごのれんしゅう

■ CNNを利用したセンチメント分析 Deep Learningを利用したテキスト解析が去年の１２月ごろから盛んです。ネットの日本語のQIITAやはてなブックマークを見ていると、流行したのが去年から今年の頭あたりでインパクトの強い文献は出尽くしているように見えます。2015年度12月を前後にLong short-term memoryやリカレントニューラルネットワークは自然言語処理、テキストマイニングで多大な功績を残しているケースが多いようです。 Deep Learningの基礎である、ニューラルネットワークは理論が提唱され有効性が実証されるが実現可能なコンピュータリソースが足りずに長いスリープタイムを経てきました。今回もまた長い眠りに入ってしまうのでしょうか。今回はビックなインパクトをシン・ゴジラなみに社会にぶちかましてほしいものです。 ■ 代表的なDeep Learningを用いたセン

Ez-style 2017/05/25

リンク

character-level CNNでクリスマスを生き抜く - Qiita

この記事は Retty Advent Calendar 18日目です。昨日は@YutaSakataのクリスマスプレゼントにはKotlin1.1が欲しいですでした。さて、もうすぐクリスマスですが、皆さん一緒に過ごすお相手はおられますか？私？私はもちろんいます。この子が。独りだと酒でも飲みに行きたくなりますよね？ちょっと奮発していい店でしっとり飲むのもいいものです。ですが、そんなつもりで入った店がリア充どもの巣窟だったらどうでしょう？せっかくの孤独のグルメタイムが台無しです。そんな危険な店を事前に避けるため、Deep Learningの力をかりましょう。用意するもの keras お店の口コミ kerasはtensorflowかtheanoをバックエンドにして動くDeep Learning用のライブラリです。複雑なことをしようとすると結構面倒ですが、大抵のモデルについてはかなり簡

Ez-style 2017/05/25

リンク

勾配ブースティングについてざっくりと説明する - About connecting the dots.

最近xgboostがだいぶ流行っているわけですけど，これはGradient Boosting（勾配ブースティング）の高速なC++実装です．従来使われてたgbtより10倍高速らしいです．そんなxgboostを使うにあたって，はてどういう理屈で動いているものだろうと思っていろいろ文献を読んだのですが，日本語はおろか，英語文献でもそんなに資料がなかったので，ある程度概要を把握するのに結構時間を食いました．そんなわけで，今回は自分の理解の確認も兼ねて，勾配ブースティングについてざっくりと説明してみようかと思います．とはいえ生理解な部分も結構あるので，マサカリが飛んできそう感が大いにしています．腑に落ちる的な理解を優先しているため，数式は一切出てきません．勾配ブースティングとは複数の弱学習器を組み合わせるアンサンブル学習には，いくつかの手法がありますが，ブースティングは逐次的に弱学習器を構築し

Ez-style 2017/05/25

リンク

readr: 高速で柔軟なテーブル読み込み

タブ区切りテキストやCSVファイルを読み込んでdata.frameにするツール。 .gz や .xz などの圧縮ファイルも透過的に読み書き可能。標準でも read.table() や read.csv() があるけど、それらと比べて場合により数倍高速・省メモリ列の名前や型を指定しやすい指定した列だけ読み込むこともできる生data.frameではなく安全な tibble として返してくれる空白行を勝手にスキップする (1.2から skip_empty_rows = TRUE) 勝手に列名を変更しないする (2.0から name_repair = "unique") stringsAsFactors = FALSE とイチイチ書かなくて文字列を読める R 4.0 から標準関数もこの挙動。 tidyverse に含まれているので、 install.packages("tidyver

Ez-style 2017/05/22

リンク

MeCabをブーストさせよう - Qiita

はじめに MeCabとは日本語の形態素解析器をいいます。ここで、形態素というのは言語で意味を持つ最小単位のことです。分割された単語をベクトル化したり、各語彙の頻度を調べたりするために、最小単位に分割するモチベーションが生じます。そもそもなぜ、形態素解析なんかやるの？っていう動機については、http://qiita.com/Hironsan/it ems/2466fe0f344115aff177 とかに書かれている通り、(上記の記事では、単語の分割が形態素解析に当たります)、分割された単語をベクトル化したり、各語彙の頻度を調べたりするためです。今回は、MeCabを用いて、できるだけ、精度高く分かち書きできるように頑張ります。1 追記) もう一つのMecabをブーストさせよう(Google Search Console編: https://qiita.com/knknkn1162/it ems/

Ez-style 2017/05/22

リンク

Deep Learningで遊ぶ(3): LSTM-RNNで夏目漱石っぽい文章の生成にトライしてみる - 渋谷駅前で働くデータサイエンティストのブログ

そう言えばこのシリーズ長らく放置してました（汗）。いよいよこのブログもネタ切れが著しくなってきたので、今更そんな古いネタやるのかよと怒られるのを承知で「単に自分がやってみたかったから」というだけの理由で今更感のあるネタをやることにします。ということで、今回のネタはLSTM-RNN (Long short-term memory Recurrent neural network)です。いつも通り完全に自分専用の備忘録としてしか書いていませんので、ちゃんと勉強したい人は他のもっときちんとした資料*1や書籍*2やソース*3を当たってください。。。超絶大ざっぱなLSTM-RNNの説明ぶっちゃけ以下のQiitaの記事と人工知能学会の深層学習本あたりを読めば十分という気もしますが*4、我が家には色々LSTM-RNNについて解説した書籍があるのでそちらも読みながら超絶大ざっぱかつ適当に説明しておきま

Ez-style 2017/05/15

リンク

ロバスト統計：外れ値を含むデータの扱い方

以下のような10個の観測値を得たとする。 2.773, 3.183, 2.969, 2.883, 3.229, 3.080, 3.204, 3.171, 2.798, 2.900 これらは標本平均 = 3.019、標本標準偏差 = 0.175であり、正規分布を仮定すれば95%信頼区間は [3.019 - 1.96 × 0.175, 3.019 + 1.96 × 0.175] = [2.676, 3.362] となる。実際このデータは平均 = 3、標準偏差 = 0.2 の正規乱数であるが、各統計量は良好な値を示している。しかしデータ収集時の記載ミスなどにより最後の値だけ小数点の位置がずれてしまったとすると、 2.773, 3.183, 2.969, 2.883, 3.229, 3.080, 3.204, 3.171, 2.798, 29.00 標本平均 = 5.629、標本標準偏差 = 8.

Ez-style 2017/05/12

リンク

機械学習初心者が、素早く学べるコンテンツとライブラリ19選（Python編） - paiza times

Photo by Horia Pernea こんにちは。谷口です。最近「機械学習に興味がある」「いつかやろうと思ってるんだよね……」と言うエンジニアの方をよく目にします。また、その倍ぐらい「機械学習難しすぎて挫折した」という方も見ます。弊社のIT エンジニアにも機械学習を勉強中という人がいますが、特に最初は難しすぎて何から手を付けたらいいのかよく分からず、とても悩んだと言っていました。そこで同じような悩みを抱えている方の参考になればと思い、初心者の頃に参考になった機械学習入門者の方に役立ちそうな記事やスライドを聞いてきました。また、Pythonには機械学習のためにデータを処理するライブラリ（数値演算をするためのライブラリや図を作成するためのライブラリなど……）がそろっていて、呼び出したり組み合わせて処理したり……といったことがしやすいため、多くの人が機械学習で使っています。コードも短く

Ez-style 2017/05/12

リンク

フリーエンジニアのIT案件ならレバテックフリーランス

コンピュータに過去のデータを分析させ、未来のデータを予測させる機械学習。商品のレコメンドシステムや写真の顔検出など、身近なところに機械学習は広く活用されています。また、Microsoftの「Azure Machine Learning」、Amazonの「Amazon Machine Learning」、Googleの「Cloud Machine Learning」、といったクラウド機械学習サービスが公開されたことで、機械学習を専門としないエンジニアでも活用できるようになりました。そこで今回は、「機械学習でどんなことができるか」をつかんでもらうために、機械学習にはどんな手法があるのかをざっくり把握できるスライドをまとめました。機械学習に興味をお持ちの方はぜひご参照ください。機械学習の案件を提案してもらう

Ez-style 2017/05/12

リンク

財務省が貿易統計操作/斉藤議員に回答　企業の要望反映

財務省が長年、企業の依頼をもとに「貿易統計」の数字を操作していたことが日本共産党の斉藤和子衆院議員の調べで分かりました。日本の輸出入の状況を示す貿易統計は環太平洋連携協定（ＴＰＰ）や日米経済対話といった通商交渉の前提にもなります。「現在を映す鏡」といわれる統計の恣意（しい）的操作は、政策決定を誤らせる危険な情報操作です。貿易統計は、貿易の実態を正確に把握することで、国の政策決定や企業の経済活動に役立てることを目的としています。品目や国ごとに輸出入の金額や量を示しています。財務省は、申請のあった企業の情報を秘匿扱いとして貿易統計に含めない“統計隠し”を行っていました。統計に含めると個々の輸出入業者の取引単価などが明らかになる場合があり、それによって損害が生じる恐れがあるという理屈です。斉藤氏の問い合わせに同省は、２０１６年には輸出１０品目、輸入１９品目で秘匿扱いがあったと回答。個々の品

Ez-style 2017/05/09

いわゆる秘匿措置（"X"表示）なら、工業統計や事業所統計の都道府県別産業別集計でよくあるので、質問者が無知なだけ。ただ、全体の集計結果からも除外していたなら初耳。

データ

リンク

［R］［データ分析］階層ベイズモデルのサンプルコード bayesmパッケージを利用 - データ分析がしたい

Rの階層ベイズモデルのサンプルコードが全然見当たらなかったので、自分で書くことにします。詳細を説明しだすとかなり面倒な領域なので、取り合えず使えるというレベルを目指します。利用するパッケージは「bayesm」です。階層ベイズに限らずベイズ推定用MCMCの実行はWinBUGSが一般的だと思いますが、Rのみで利用可能かつ事前分布に関する知識なしで利用可能なのが魅力的なので。階層ベイズモデルについて階層ベイズモデルは簡単に説明すると個体差を取り入れた統計モデルです。イメージとしては回帰モデルを作成した際の回帰係数が個体ごとに異なっているようなモデルで、最尤法に基づく重回帰モデルやロジスティック回帰モデルより高い表現力を持ちます。もちろん単純に人ごとに回帰係数を変えるとデータ数より係数の方が多くなり推定できないのですが、係数は個体ごとに大きく異ならないという仮定を入れて問題を解きます。こ

Ez-style 2017/05/08

リンク

機は熟した！グラフ構造に対するDeep Learning、Graph Convolutionのご紹介 - ABEJA Tech Blog

はじめまして。ABEJAでResearcherをやらせていただいている白川です。先日、化合物の物性推定をDeep Learningをつかって従来手法より300,000倍高速に処理するという論文がでました（[1], [2]）。この論文の手法は、Graph Convolutionというグラフ上に定義されたConvolution演算がベースとなっています。物性推定に限らず、グラフ解析全般を Deep Learning で上手にこなせるようになれば、Deep Learningのアプリケーションの幅がぐっと拡がり、さらなるイノベーションが起きそうな予感がします。 ICMLやNIPSなどの機械学習系の主要国際会議でも数年前からGraph Convolutionについての論文がちらほら出現しはじめており、とくに最近その勢いが増してきている印象があります。個人的にも最近（前から？）にわかにグラフづいてい

Ez-style 2017/04/28

リンク

Rによる機械学習：caretパッケージの使い方 | Logics of Blue

ニューロンの個数を2パタン。データへの依存度を3パタン用意すると、2×3＝6パタンも試さなければなりません。大変に面倒ですが、このハイパーパラメタを雑に設定すると予測精度が落ちてしまうこともよくあります。めんどくさいですが、なるべくやったほうがいいです。 4．モデルを使って予測するこれは簡単。単に予測をするだけです。パッケージを使っていれば、たいていは予測用の関数が用意されています。 5．予測の評価をする最後は評価です。評価をすることによって、・どの手法の・どのパッケージの・どのパラメタを採用すべきかを判断します。で、一番予測精度がいいやつを使って予測することになります。たくさんの手法、たくさんのパッケージ、たくさんのパラメタの組み合わせをしらみつぶしに評価する。普通にこれをやろうと思うと、気が遠くなってしまいますね。そこで登場するのがパッケージ「caret」

Ez-style 2017/04/28

リンク

caret vignette "A Short Introduction to the caret Package"の和訳 - Qiita

caret vignette "A Short Introduction to the caret Package"の和訳R機械学習caret 巻頭言 CRAN caret のvignette https://cran.r-project.org/web/packages/caret/vignettes/caret.pdf の和訳です。 2018/03/18 vignette Octover 28, 2016版に対応しました。直訳で分かりにくいところ更に訳し直しました。 caretパッケージには、複雑な回帰と分類の学習を簡易に実施できる関数群があります。多数のRパッケージから構成されていますが、最初に全てを読み込む必要はありません1。初期状態では27のパッケージが利用できます。それ以外のパッケージについては、caretでは必要となった時にそれを読み込みます。 caretのインストールは

Ez-style 2017/04/28

リンク

機械学習で広告の効果を推定したいお話。 | 分析のおはなし。

アメリカへの交換留学とノルウェーへの大学院留学を経た後に、データサイエンティストを目指そうとする人の戯れ言。こんばんは。数学ができなくて悩む今日この頃です。が、データ分析は数学そのものでは無いので気にせずコツコツやっていこうと思う今日でもあります。さて、 Japan.Rで発表してまいりました。内容は「機械学習を使って広告の効果を推定する」という予測モデルを使って因果推論を試みる内容でした。今回は内容の補足と解説を書きます。発表した資料はこちらです。 1. Hal Varianのアプローチそもそもこのトピックに興味を持ったのは Varianの書いた Big Data: New Tricks for Econometricsというペーパーと、それに影響を受けたNBERのDemand Estimation with Machine Learning and Model Comb

Ez-style 2017/04/28

リンク

パッケージユーザーのための機械学習(12)：Xgboost (eXtreme Gradient Boosting) - 六本木で働くデータサイエンティストのブログ

今やKaggleやKDD cup以下名だたる機械学習コンペで絶大な人気を誇る分類器、Xgboost (eXtreme Gradient Boosting)。特にKaggleのHiggs Boson Machine Learning Challengeの優勝チームが駆使したことで有名になった感があるようで。その実装ですが、C++ベースで高速化したものにRとPythonのラッパーをつけたものが既にGitHubで公開されています。 Rパッケージである{xgboost}のインストールについての注意事項は前回の記事に書いていますので、インストールの際はご参考にしていただければと。さて。これだけ大人気の分類器となると国内外問わず色々な解説記事に溢れておりまして、例えば日本語ブログでもこれだけの記事が既に出てます。勾配ブースティングについてざっくりと説明する - About connecting

Ez-style 2017/04/28

リンク

A/Bテストに用いられる統計的検定手法（ロジック）のまとめ＆比較 | RCO Ad-Tech Lab Blog

リクルートデータ組織のブログをはじめました。※最新情報はRecruit Data Blogをご覧ください。 Recruit Data Blogはこちら汎用人型雑用AIの stakaya です。たまたま数年前に社内のBLOGに書いたABテストのロジックのまとめ＆比較記事を発掘したので、このまま眠らせているのはもったいないぞと、圧倒的もったいない精神を発揮し、シェアさせていただきます。あの頃は私も若かった。社内では”堅物・真面目・一途”で有名なものでして、下記文章がお硬いのはご勘弁ください。はじめに本記事は、施策の評価手法としてしばしば用いられるA/Bテスト（A/B testing)について、できる限り背後にある仮定を明記した上で、まとめたものである。 A/Bテストとは、主にインターネットマーケティングにおける施策の良否を判断するために、2つの施策（通常、A・Bと記載）を比較す

Ez-style 2017/04/26

リンク

はてなブックマーク

タグ

関連タグで絞り込む (28)

データに関するEz-styleのブックマーク (212)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第4週）

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス