並び順

ブックマーク数

期間指定

  • から
  • まで

121 - 160 件 / 4770件

新着順 人気順

マイニングの検索結果121 - 160 件 / 4770件

  • グーグルはコードの品質向上のため「バグ予測アルゴリズム」を採用している

    グーグルでは、社内のプログラマによって作り出される大量のコードの品質を保つため、チェックイン前にユニットテストとコードレビューが行われているそうです。しかし、コードが大量になってくると、ユニットテストやレビューをすり抜けるバグも少なからず発生します。 そこでコードの品質をさらに高めるために、グーグルでは「バグ予測アルゴリズム」を採用。バグがありそうな部分をレビュアーにアドバイスする仕組みを採用したとのこと。 そのバグ予測アルゴリズムとはどんなものなのか。Google Engineering Toolsブログに投稿されたエントリ「Bug Prediction at Google」(グーグルにおけるバグ予測)で説明されています。 ソースコードの修正履歴を基に予測 コードの中にバグがありそうな箇所を分析する手法としては、「ソフトウェアメトリクス」がよく用いられます。これはコードを静的に分析して、

      グーグルはコードの品質向上のため「バグ予測アルゴリズム」を採用している
    • 国が本気出してきた?総務省の『アプリDe統計』が案外お気に入り - ゆめ見るディオスクロイ

      photo by labguest 必ず知らなくてはいけないものではないけれど、ちょっと気なるし知れば「ほほ~」となる知識。それが統計データです。とはいえ明確な目的もなく総務省や厚生労働省のサイトに行って統計データを眺めるというのもちょっとアレですよね。そんな現状を打破するべく、総務省がやってくれました! 総務省統計局と統計センターは、4月15日、統計のオープンデータ高度化への取り組みの一環として、Android搭載スマートフォン向けの統計情報提供アプリ「アプリDe統計」試行版の提供をGoogle Playで開始した。価格は無料。 総務省、統計を身近に感じられるAndroidスマートフォン向け情報提供アプリ「アプリDe統計」 このアプリには3つの機能があり ① 「City Stat」:今、自分がいる場所の市区町村の統計データをスマートフォンのGPSと統計API機能を連動させ表示 ② 「ポケ

        国が本気出してきた?総務省の『アプリDe統計』が案外お気に入り - ゆめ見るディオスクロイ
      • そもそもビジネスの現場ではどういう「レベル」の統計学を使うべきなのか - 渋谷駅前で働くデータサイエンティストのブログ

        データサイエンティストブームが去りつつある一方で、データ分析ブームそのものはじわじわと広がり続けている感じのする昨今ですが。最近また、色々なところで「本当にビジネスやるのに統計学って必要なの?」みたいな話題を聞くことが増えてきたので、何となくざっくりまとめて書いてみました。 ちなみに今回の話題の参考図書を挙げようと思ったら、この辺ですかね。 とある弁当屋の統計技師(データサイエンティスト) ―データ分析のはじめかた― 作者: 石田基広,りんと出版社/メーカー: 共立出版発売日: 2013/09/25メディア: 単行本この商品を含むブログ (13件) を見る 統計学入門 (基礎統計学) 作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発売日: 1991/07/09メディア: 単行本購入: 158人 クリック: 3,604回この商品を含むブログ (78件) を見る 本当は赤

          そもそもビジネスの現場ではどういう「レベル」の統計学を使うべきなのか - 渋谷駅前で働くデータサイエンティストのブログ
        • なぜCoinhive事件でプログラマが怒っているかを一般向けに解説したい。 - かもブログ

          Coinhive事件の二審の判決が出た。一審の横浜地裁が無罪判決を出したのに対して、東京高裁は有罪判決。非常に残念な判決だった。事件が起こってからすでに1年半以上経っているが、事態は一向に良い方向に向かっていないと感じている。ネット上のプログラマたちは怒りの声をここ数年上げ続けているにもかかわらず、だ。 しかし、一般の多くの人にとっては、Coinhive事件はあまたの新聞記事の1つかもしれない。その記事を読んだとしてもなぜプログラマが怒っているかわからないかもしれない。少しでもCoinhive事件に関して戦っている人の応援がしたい。そこで、一般の人のために「なぜハッカーが怒っているのか」をQ&A形式で解説したい。 と思う。 (この記事の著者は専門家ではないので色々と誤りがあると思われますが、お許し願います。) Q&A Q Coinhive事件って? A 自分のWebサイトに、利用者に「Co

            なぜCoinhive事件でプログラマが怒っているかを一般向けに解説したい。 - かもブログ
          • 株式会社ALBERT(レコメンドエンジン)

            データ分析から導き出されたインサイト無しにAI(人工知能)の活用は始まりません。私たちは、各業界知識とデータ・アナリティクス技術を駆使しデータドリブン経営を強力に支援します。 データ、アナリティクス、AIは企業にとって競合他社との差別化を図るかつてないほど大きな要因になっています。今日の経営幹部が効率を向上しながら新たな収益源を開拓し、新しいビジネスモデルをタイムリーに構築する方法を模索する中、価値を生み出し成長を続ける企業には「データ活用」という共通項があります。私たちは、無数のデータから企業にとって本当に必要なデータを活用するための方法を知っています。 将来を見据えたオペレーション体制を備えている企業の半数以上(52%)は、すでにデータとアナリティクスを大規模に活用しています。データとAIに関する取り組みをビジネス戦略に沿って実施することで投資利益率を迅速に最大化し、最終的にはAIをビ

              株式会社ALBERT(レコメンドエンジン)
            • Google アプリ - Android や iPhone でアプリをダウンロード

              あなたに関係のある情報を常にチェック フィード機能はあなたが興味を持ちそうなトピックの情報をお知らせします。お気に入りのスポーツチームや、アーティスト、映画、セレブ、趣味、その他のアップデートやニュースが、すべて一つにまとまっています。自分が興味のあるものや大切なものをフォローすることで、よりあなた好みにカスタマイズできます。 必要なものを必要な時に 外出先でも、必要な情報やアイデア、インスピレーションを。Google アプリを使えば、完璧なレストラン、最適な映画や、その他の情報で、夜の外出や、もちろん家の中でも楽しめます。深く広く、楽しみましょう。 深く、広く、楽しみましょう ダイニング、エンタメ、スポーツなど、あなたの興味のあるカテゴリーにどっぷりつかりましょう。何か探しているものがあるときも、いろんなところを見て回ったり、ほかに何を探したいか考えるときにも、様々な情報があなたを待って

                Google アプリ - Android や iPhone でアプリをダウンロード
              • OSSのデータ可視化ツール「Metabase」が超使いやすい - Qiita

                Metabase、まじでイケてる。 1日で、Re:Dashから乗り換えました。 Metabaseとは OSSのデータ可視化ツール。Re:Dashとかと同じ類。 AWSとかに乗せて、誰もが見れるダッシュボードを作ったりする時に使うと、俺かっけーってなります。 スクリーンショット 実際に社内で運用している様子をモザイク付きでお見せします。 毎日みているダッシュボード。これの4倍くらいの数値見てる。 ダッシュボードの編集。マウスで簡単に位置や大きさの変更ができる。 クエリビルダー的なやつがあり、グルーピングとか超絶便利。SQL書けない人でも、単一テーブルとかだったら余裕かと。 グラフ化も簡単。 SQLでのクエリ編集画面。ちゃんと補完してくれる。 Metabaseの良い所 見た目が格好いい。 インストールが簡単。 openjdk-8-jdk入れて、jarファイル置くだけ。 豊富なデータソースに対応

                  OSSのデータ可視化ツール「Metabase」が超使いやすい - Qiita
                • ヤフーへの広告掲載とビッグデータ活用 - Yahoo!マーケティングソリューション

                  Yahoo!広告 Yahoo! JAPANの各サービスに広告が掲載できる 「検索広告」と「ディスプレイ広告」を提供しています

                    ヤフーへの広告掲載とビッグデータ活用 - Yahoo!マーケティングソリューション
                  • 知らなかった……“青空文庫”の全データは“GitHub”から一括ダウンロードできる!/“データを丸ごとほしい!”という場合に便利【やじうまの杜】

                      知らなかった……“青空文庫”の全データは“GitHub”から一括ダウンロードできる!/“データを丸ごとほしい!”という場合に便利【やじうまの杜】
                    • 機械学習システム開発や統計分析を仕事にしたい人にオススメの書籍初級5冊&中級10冊+テーマ別9冊(2019年1月版) - 渋谷駅前で働くデータサイエンティストのブログ

                      (Image by Pixabay) この記事は以前の書籍リスト記事のアップデートです。 機械学習エンジニアやデータサイエンティストとして(もしくはそうではない職名であったとしても)機械学習システム開発や統計分析を仕事にしたい人なら、最低限これだけは読んでおいて損はないだろうという書籍を初級向け5冊、中級向け10冊選定しています。ただし、以前とは若干異なり「仕事にする」イコール「プロフェッショナルを目指す」ということで、特に初級向けリストを若干レベルアップさせています。中には初学者でも結構読みこなすのが難しい本だけになっているかもしれませんが、中級向けリストに進む上でどうしてもこれだけは読破して欲しいという願望も込めました、ということで。 完全にお馴染みのネタなので特に説明することはないかと思いますが、言うまでもなく以下のリストは完全なる僕個人の独断と偏見で、最近出版されたり自分で読んだ本

                        機械学習システム開発や統計分析を仕事にしたい人にオススメの書籍初級5冊&中級10冊+テーマ別9冊(2019年1月版) - 渋谷駅前で働くデータサイエンティストのブログ
                      • スマホマーケットの概要と、�マーケティングの失敗例と改善 (アナリティクス アソシエーション 特別セミナー)

                        スマホマーケットの概要と、�マーケティングの失敗例と改善 (アナリティクス アソシエーション 特別セミナー)

                          スマホマーケットの概要と、�マーケティングの失敗例と改善 (アナリティクス アソシエーション 特別セミナー)
                        • NIKKEI STYLEは次のステージに

                          キャリア、転職、人材育成のヒントを提供してきた「リスキリング」チャンネルは新生「NIKKEIリスキリング」としてスタート。 ビジネスパーソンのためのファッション情報を集めた「Men’s Fashion」チャンネルは「THE NIKKEI MAGAZINE」デジタル版に進化しました。 その他のチャンネルはお休みし、公開コンテンツのほとんどは「日経電子版」ならびに課題解決型サイト「日経BizGate」で引き続きご覧いただけます。

                          • TechCrunch | Startup and Technology News

                            Yellow, an asset financier for solar energy and digital devices in Africa has raised $14 million series B funding in a round led by Convergence Partners with participation from the Energy Entrepreneur Fisker, the electric carmaker founded by the Danish auto designer Henrik Fisker, is gearing up to enter the Chinese market where competition is increasingly cut-throat, following in the footsteps of

                              TechCrunch | Startup and Technology News
                            • アイドルブログのコメント欄から見る、「君と僕の関係」 - インターネットもぐもぐ

                              「君と僕の関係*1」、というタイトルで、AKB48メンバーブログの“コメント欄”のテキスト分析をしました。 さながら、「ファンレター2.0」、ですよ。すごい世界。ぞくぞく。 きっかけと背景 個人的に、アイドルブログの真骨頂はコメント欄だと思ってて、わりと眺めるのがすきです。甘い愛の言葉も熱い激励の言葉も、クラスの友達かよwってくらい軽くて近くて短すぎるコメントもまぜこぜで、あまりに混沌としていてうっとりします。すてき。距離感がめちゃくちゃ。 今、2011年(データとった当時)のアイドルとファンの関係を知りたくて、ブログの“コメント欄”だけで形態素解析をしました。あっち側の人たちの経営戦略やマネジメントの手腕は誰か偉い人がきっと分析してくれるから、わたしはもっとこっち側の、お祭に加担してる、一緒に踊らされてる人たちのことを知りたい。どんな人がいるんだろう、何を考えているんだろう、どんなことに

                                アイドルブログのコメント欄から見る、「君と僕の関係」 - インターネットもぐもぐ
                              • データサイエンティストなら年収1000万円!?無料&日本語でプログラミングの勉強をする方法

                                21世紀初頭に「IT革命」という言葉が世の中を席巻してから、インターネットはもはや車やガスなどと同じ社会的なインフラになったと言っても過言ではないのではないでしょうか。 そんな中、データサイエンティストという仕事に注目が集まっています。年収1000万円を越えることも夢ではない職業です。そんなデータサイエンティストにとって不可欠なデータ解析に関する知識を無料で学べる「UDACITYonEdmaps」の使い方を紹介します。 UDACITYonEdmapsとは何か UDACITYとはアメリカ発のオンライン学習サービスの一つで、無料でデータサイエンスが学べるツールです。アメリカでスタートしたこのサービスは、リクルートホールディングスとの契約締結を経て、現在日本ではUDACITYonEdmapsとして展開しています。 UDACITYonEdmapsの前身であるUDACITYでは各企業の開発者などが講

                                  データサイエンティストなら年収1000万円!?無料&日本語でプログラミングの勉強をする方法
                                • Webサービスのプログラミングに必要なことのだいたいは、スクレイピングに学んだ - Line 1: Error: Invalid Blog('by Esehara' )

                                  この記事を読み始める前に Rubyでやるんだったら、ちょうどそういう本が出ているから、その本買えばいいのではないでしょうか。 Rubyによるクローラー開発技法 巡回・解析機能の実装と21の運用例 作者: るびきち,佐々木拓郎出版社/メーカー: SBクリエイティブ発売日: 2014/08/25メディア: 大型本この商品を含むブログ (1件) を見る はじめに プログラミングを勉強し始めて、だいたい基礎的な文法を覚えたあとに、次に何をしようかな、と悩む人も結構多いみたいで、明確に「これを作りたい」という場合は、それを作ればいいとは思うんですけど、場合によっては、別段作りたいものが無く、漠然としたプログラミングをしたい、という熱意によって勉強しているという人もいるのではないかと思います。 で、もちろん「作りたいものがないのに、プログラミング勉強してどうするの」という意見もあるかとは思いますが、往

                                    Webサービスのプログラミングに必要なことのだいたいは、スクレイピングに学んだ - Line 1: Error: Invalid Blog('by Esehara' )
                                  • 山手線リアルタイム混雑情報で遊んでみよう

                                    去年から公開されてる「JR東日本アプリ」ですが、機能の一つに「山手線トレインネット」というものがあります。 これは山手線の各車両の現在位置、混雑状況、室内温が見えるというもので、 座りやすい車両を探すのに便利だったりします。 山手線トレインネットから取得した車両位置と混雑率 電車の運行情報がここまで時間粒度細かく公開されているのは世界的にも珍しいので、特に目的も無しにデータをクローリングして遊んでみました。 データをクローリングする まずは山手線トレインネットの車両位置・混雑情報をクローリングします。 JR東日本アプリの山手線トレインネット。 今の車両内の混雑や室内温が見える。すごい! 「山手線トレインネット」はブラウザから見えるページが存在しない、iPhone/Androidアプリ専用の画面です。 なので普段の「FirebugでAJAXの通信を見てAPIをリバースエンジニアリング」ほど簡

                                      山手線リアルタイム混雑情報で遊んでみよう
                                    • 新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転 改

                                      新はてブ正式リリース記念ということで。もうリリースから何週間も経っちゃったけど。 新はてなブックマークではブックマークエントリをカテゴリへと自動で分類しているが、このカテゴリ分類に使われているアルゴリズムはComplement Naive Bayesらしい。今日はこのアルゴリズムについて紹介してみる。 Complement Naive Bayesは2003年のICMLでJ. Rennieらが提案した手法である。ICMLというのは、機械学習に関する(たぶん)最難関の学会で、採択率はここ数年は30%を切っている。2003は119/371で、32.1%の採択率だったようだ。 Complement Naive Bayesの位置づけは 実装が簡単 学習時間が短い 性能もそこそこよい という感じで、2003年段階にあっても、絶対的な性能ではSVMに負けていた。しかし、学習が早いというのは実アプリケーシ

                                        新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転 改
                                      • WebサービスのA/Bテストや機械学習でよく使う「確率分布」18種を解説 - paiza times

                                        主な確率分布の関連図 こんにちは、吉岡(@yoshiokatsuneo)です。 Webサービスを運営していると、利用状況を分析・予測したり、A/Bテストなどで検証したりすることがよくあります。 データを一個一個見ていてもよくわからないので、データ全体や、その背景の傾向などがまとめて見られると便利ですよね。そんなとき、データの様子を表現するためによく使われているのが「確率分布」です。 学校の試験などで使われる偏差値も、得点を正規分布でモデル化して、点数を変換したものです。 今回は、Webサービスなどでよく使われる確率分布18種類を紹介します。 それぞれ、Webサービスでの利用例やPythonでグラフを書く方法も含めて説明していきます。コードは実際にオンライン実行環境paiza.IOで実行してみることができますので、ぜひ試してみてください。 【目次】 正規分布 対数正規分布 離散一様分布 連続

                                          WebサービスのA/Bテストや機械学習でよく使う「確率分布」18種を解説 - paiza times
                                        • データマイニング入門

                                          ビックデータ分析技術は情報処理技術を学ぶ上で重要となっている。本講義では、データ分析・データマイニングの基礎について学ぶとともに演習を通して実際にデータを分析するプロセスを学ぶ。特に、前期課程の「データマイニング入門」講義のさらに発展的な内容を学習することで、後期課程や大学院におけるデータサイエンス、人工知能、機械学習、自然言語処理などの関連講義の基礎となる知識を習得することを目標とする。

                                            データマイニング入門
                                          • 小中規模のIT系企業における技術的選択と雇用戦略に関する雑感 - たごもりすメモ

                                            でっかい主語で入ったが、要するに2月にあちこち会社巡りをしたときに感じたことについてつらつら書こう、というのが目的。 特定の会社について書いてもしょうがないので、あれこれ*1回ったうちから少なくとも2〜3ケースで該当するなあ、と思ったことについて書く。特定の1社のみに該当する事項はこのエントリにはひとつも出てきません。 またエントリの主旨からして超上から目線になりますが、どうかご容赦ください。 これから成長が本格化するのでインフラを支えられる人材がほしい 正直に言ってこれが一番多かったパターン。スタートアップ的にサービスを作ってきたがその一方でデプロイや監視などの運用まわりが後手後手になっており、そのあたりを支えられる人物がほしい。 話としてはわかるのだが、気になったのは、これを聞くとき、詳しい内容を突っ込んでみると、どうも実際にはそう困ってはいない、というケースがほとんどだったように思え

                                              小中規模のIT系企業における技術的選択と雇用戦略に関する雑感 - たごもりすメモ
                                            • 「統計学と機械学習の違い」はどう論じたら良いのか - 渋谷駅前で働くデータサイエンティストのブログ

                                              何かこんなメディア記事が出ていたようです。 これを読んで色々な人がツッコミを入れまくっている模様ですが、この記事の不思議なところは「完全に間違った説明というわけでもないのに何故か(両分野に詳しい)誰が読んでも猛烈な違和感を覚える」ところなんじゃないかなぁと。 正直、これはライター・インタビュアー・コメンテーター・編集者の誰のせいなのかは全く分からないんですが、ツッコミ入れられまくっている内容について色々あげつらってもあまり建設的でないので、ここでは記事中で本題として取り上げられている「統計学と機械学習の違い」についてちょっとコメントしてみようと思います。 あ、もちろん僕がこれから書くコメントも別に正しいとは全く限らないので、おかしいところや間違ってるところがあったらバンバン突っ込んでいただければ幸いです*1。そしてガチ勢向けのコメントでもないので何卒悪しからず。 統計学はデータを「説明」す

                                                「統計学と機械学習の違い」はどう論じたら良いのか - 渋谷駅前で働くデータサイエンティストのブログ
                                              • Vimを最強のPython開発環境にする2 - Λlisue's blog

                                                本気でPythonをやりたいならあわせて読みたい「え?君せっかく Python のバージョン管理に pyenv 使ってるのに Vim の補完はシステムライブラリ参照してるの?」 2013-06-23 21:30 おしりに追記しました 2013-06-24 10:00 設定等微修正しました 2013-06-24 15:20 quickrunの設定を修正しました 2013-07-03 14:30 間違い等を修正しました 様々な開発環境を試してきましたが、結局Vimに落ち着いてしまっているAlisueです、どうも。 Vimを最強のPython IDEにするを書いてからかれこれ二年ほどが経ちます。 二年もあると新しいVimプラグインが増えるなどし、先の記事内容では最強ではなくなってしまいました。なのでこの辺でもう一度現在の最強をまとめてみたいと思います。 基本方針 プラグイン関係はすべてNeoBu

                                                  Vimを最強のPython開発環境にする2 - Λlisue's blog
                                                • コインハイブ事件、男性に罰金10万円を求刑 弁護側は無罪主張 - 弁護士ドットコムニュース

                                                    コインハイブ事件、男性に罰金10万円を求刑 弁護側は無罪主張 - 弁護士ドットコムニュース
                                                  • 自然言語処理における前処理の種類とその威力 - Qiita

                                                    自然言語処理に前処理は不可欠です。テキストは文字の羅列であり構造化されていないため、そのままでは処理するのが難しいです。特にWebテキストの中には HTMLタグ や JavaScript のコードといったノイズが含まれています。このようなノイズは前処理して取り除かなければ期待する結果は得られないでしょう。 出典: Deep learning for computational biology 本記事では自然言語処理における前処理の種類とその威力について説明します。説明順序としては、はじめに前処理の種類を説明します。各前処理については、1.どんな処理なのか、2.なぜその処理をするのか、3.実装方法(なるべく) という観点から説明します。種類について説明した後、前処理の威力を測るために前処理をした場合としなかった場合での文書分類の結果を比較します。 前処理の種類と実装 この節では以下に示す5つ

                                                      自然言語処理における前処理の種類とその威力 - Qiita
                                                    • [ThinkIT] オープンソース時代の企業システム選択ポータル

                                                      2024/3/21 「GNOME 45.5」リリース 2024/3/21 JavaScript/TypeScript対応Webフレームワーク「Astro 4.5」リリース 2024/3/21 ELYZA、700億パラメータの大規模言語モデル(LLM)「ELYZA-japanese-Llama-2-70b」の開発を発表 2024/3/19 Linuxディストリビューション「4MLinux 45.0」リリース 2024/3/17 セキュリティを重視した「Proton mail」のデスクトップアプリケーション発表 2024/3/17 PHP向けWebアプリケーションフレームワーク「Laravel 11」リリース 2024/3/17 「Samba 4.18.11」リリース 2024/3/16 Visional、脆弱性管理クラウド「yamory」のAWS Marketplaceにおける提供開始 20

                                                      • 進撃の巨人を読んだことない人がデータだけでキャラを推測してみる - あんちべ!

                                                        はじめに 最近超人気の漫画として私のTwitter TLを賑わす作品、その名も「進撃の巨人」。 これだけ人気なんだからきっと面白いに違いないのですが、 なんか絵が怖そうだし、人がバンバン死んでてグロいっぽいという噂を聞くので、 なんとか漫画を読まずに、それでいて進撃の巨人のキャラについては知りたい、 そう願う潜在的進撃の巨人ファンも全国に70万人くらいいらっしゃると思います。 そこで、データから進撃の巨人にどんなキャラが登場するか推測してみましょう。 扱うデータとして、pixivのタグ情報を利用します。 商品レビューコメントなどとは違い、ファンの創作活動がダイレクトに反映されるサービスなので、 そこに付与されるタグ情報は、ファンの熱(過ぎる)いメッセージが込められているに違いありません。 今回、以下のような縛りを入れています。 1.勿論原作は見ない 2.pixivのタグ情報は参照するけど、

                                                          進撃の巨人を読んだことない人がデータだけでキャラを推測してみる - あんちべ!
                                                        • 機械学習アルゴリズムまとめ | 株式会社フルスピード - Growth Seed

                                                          みなさんこんにちは。アナリストの荒木です。近い将来さまざまな仕事がロボットに置き換わっていくと多くの人が予想しており、そのコアテクノロジーの一つが機械学習です。GoogleがDeepMindを買収したことで機械学習という言葉も身近になりつつありますが、すでにamazonレコメンドや画像認識などで活躍しています。 そこで今回は、ウェブ担当者が「機械学習ってどんなことをやっているのだろう?」という場合に勉強できるスライドをまとめました。 ↓【無料DL】「SEO内部対策チェックシート」を無料ダウンロードする 機械学習によるデータ分析まわりのお話機械学習でどんなことをしているのかをまとめたスライドです。データのこと・機械学習のこと・評価のこと・分析のことの4部構成で、データマイニングの一連の流れを学ぶことができます。 Deep LearningGoogleの猫認識例で有名になった手法を紹介したスラ

                                                            機械学習アルゴリズムまとめ | 株式会社フルスピード - Growth Seed
                                                          • むしろ数式が苦手だけど統計を勉強したいという人はRをやるといいかもしれない - Line 1: Error: Invalid Blog('by Esehara' )

                                                            はじめに なぜか唐突にRブームが俺の中でやってきてしまってどうしようもないので、Rの本を注文しまくってたりしていたら、下のような本の山が出来てしまいました。 これらの本を付箋でペタペタしながら読み進めていくうちに、段々とRというのはどういう言語で、どういう風に勉強するといいのか、という方針が固まってきたので、ここにメモをしておきます。 Rとはどのような言語か 一言で、しかも乱暴に言ってしまうならば「統計に特化したPHP」というのが一番雰囲気を伝えられるかもしれない。いや、PHPの悪評は知っているし、ガチでRをやっている人にとっては嫌がられることもわかっているけど、あえてそういう説明が、あくまで入り口としてはわかりやすいのではないかと。 どういうことかというのを言い訳します。 自分が読んだ感じだと、統計というのは、「何らかのデータ」と「分析するためのツールとしての数式」と「その数式が意図する

                                                              むしろ数式が苦手だけど統計を勉強したいという人はRをやるといいかもしれない - Line 1: Error: Invalid Blog('by Esehara' )
                                                            • スクレイピングするなら ScraperWiki 使うといいよ - ヤルキデナイズドだった

                                                              Web ページからデータを抽出してデータベースに突っ込むことに性的興奮を覚えるみなさん、 ScraperWiki 使うとキモチイイですよ。以上です。 そうではないみなさんには少々の説明が必要かと思いますので少々書きます。 ScraperWiki はスクレーパ(Web ページをスクレイピングするスクリプト)とスクレイピングで得られたデータを共有しようぜっという Web サービスです。Wiki と名が付いていますが Wiki っぽいページ構成になってるわけではなく、スクレーパやデータを誰でも編集できるようにして成果を共有するという理念が Wiki と共通しているのが由来みたいです。 ScraperWiki を使うとスクレーパを作るのがラクになります: Web ベースのエディタでスクレーパを書き、その場で実行できる PHP、 Python または Ruby が使える(HTML パーサなどのモジュ

                                                                スクレイピングするなら ScraperWiki 使うといいよ - ヤルキデナイズドだった
                                                              • 統計屋のためのAWK入門 - あんちべ!

                                                                はじめに 本稿はAWKという言語を用いて、 ごく簡単にデータ分析用の前処理*1をするための解説記事です。 AWKは短いコマンドを記述するだけで多様なデータ処理を可能にします。 特にデータの抽出に関して恐るべき簡易さを提供します。 具体的には、input.txtというファイルの中から "fail"という文字列を含む行を抽出したければ次のように書くだけです。 awk /fail/ input.txt つまり、スラッシュ記号で文字列を指定するだけで その文字列を含む行を抽出できるのです。 大変簡単ですね! また、awkはLinuxやMacには標準で入っており、 Windowsでもawk.exeを一つ用意するだけなので、 面倒なインストール作業や環境構築は不要で誰でも即座に使えるため、 自分で書いた処理を他人に渡したり*2各サーバに仕込むなども簡単に出来ます。 複雑な処理をする場合はPythonや

                                                                  統計屋のためのAWK入門 - あんちべ!
                                                                • ニューラルネットの逆襲 - Preferred Networks Research & Development

                                                                  岡野原です。Deep Learningが各分野のコンペティションで優勝し話題になっています。Deep Learningは7、8段と深いニューラルネットを使う学習手法です。すでに、画像認識、音声認識、最も最近では化合物の活性予測で優勝したり、既存データ・セットでの最高精度を達成しています。以下に幾つか例をあげます。 画像認識 LSVRC 2012 [html]  優勝チームスライド [pdf], まとめスライド[pdf] Googleによる巨大なNeuralNetを利用した画像認識(猫認識として有名)[paper][slide][日本語解説] また、各分野のトップカンファレンスでDeep Learningのチュートリアルが行われ、サーベイ論文もいくつか出ました。おそらく来年以降こうした話が増えてくることが考えられます。 ICML 2012 [pdf] ACL 2012 [pdf] CVPR

                                                                    ニューラルネットの逆襲 - Preferred Networks Research & Development
                                                                  • 機械学習を始めたい方に見て欲しいTensorflow入門資料まとめ

                                                                    機械学習は日々進化を遂げ、全てのエンジニアにとって無視できない存在となってきました。 現在では、検索エンジン、マーケティング、データマイニング、SNS等さまざまな分野で活用されています。 そんな中、2015年11月10日にGoogleが機械学習ライブラリ・TensorFlowをオープンソース化し、大きな注目を集めました。 そこで今回は、機械学習に興味があるけれど何から手を付けたらいいのかわからないエンジニア向けに、TensorFlowの入門資料(記事・スライド)をまとめました。 機械学習案件を提案してもらう 特にプログラマーでもデータサイエンティストでもないけど、Tensorflowを1ヶ月触ったので超分かりやすく解説 / Qiita http://qiita.com/tawago/items/c977c79b76c5979874e8 TensorflowがMNIST(手書き数字データ)の

                                                                      機械学習を始めたい方に見て欲しいTensorflow入門資料まとめ
                                                                    • Visual Studio Code and Docker - Visual Studio Code - Site Home - MSDN Blogs

                                                                      In Visual Studio 2022 17.10 Preview 2, we’ve introduced some UX updates and usability improvements to the Connection Manager. With these updates we provide a more seamless experience when connecting to remote systems and/or debugging failed connections. Please install the latest Preview to try it out. Read on to learn what the Connection ...

                                                                        Visual Studio Code and Docker - Visual Studio Code - Site Home - MSDN Blogs
                                                                      • 統計の基本事項

                                                                        トップページ→研究分野と周辺→システムの評価→ 基本統計量 平均(算術平均)値は、(データ値の総和)÷(データ数)となる。(或るデータの値)-(平均値)を、そのデータの偏差という。偏差の絶対値の大きいデータが多ければ、そのデータ群はばらつきが大きい。データ群のばらつきの大きさを単純に偏差の総和とすると、偏差には正負があるので相殺されてしまう。 そこで、各データの偏差を二乗する(こうすれば必ず正の値になる)。(各データの偏差の二乗の総和)÷(データ数)をそのデータ群の分散と呼び、ばらつきの大きさを表す。また、分散の平方根を標準偏差という。英語では偏差はDeviation、分散はVariance、標準偏差はStandard Deviationとなるので、標準偏差はS.D.と略記される事も多い。 統計の最も基本的な量である基本統計量としては、他に最大値、最小値、範囲(最大値-最小値)、中央値(デ

                                                                        • 「p値や有意性に拘り過ぎるな、p < 0.05かどうかが全てを決める時代はもう終わらせよう」というアメリカ統計学会の声明 - 渋谷駅前で働くデータサイエンティストのブログ

                                                                          以前から同様の指摘は様々な分野から様々な人々が様々な形で出してきていましたが、アメリカ統計学会が以下のような明示的な声明をこの3月7日(現地時間)に発表したということで注目を集めているようです。 AMERICAN STATISTICAL ASSOCIATION RELEASES STATEMENT ON STATISTICAL SIGNIFICANCE AND P-VALUES Provides Principles to Improve the Conduct and Interpretation of Quantitative Science https://www.amstat.org/newsroom/pressreleases/P-ValueStatement.pdf The ASA's statement on p-values: context, process, and p

                                                                            「p値や有意性に拘り過ぎるな、p < 0.05かどうかが全てを決める時代はもう終わらせよう」というアメリカ統計学会の声明 - 渋谷駅前で働くデータサイエンティストのブログ
                                                                          • 「ゲームとTwitterとFacebookしかしないなんてもったいない」、Gunosy開発チーム根掘り葉掘りインタビュー

                                                                            独自アルゴリズムで自分に合ったニュースを自動的に集めてくれる「Gunosy」は東大出身のエンジニア集団を中心に作られており、2011年10月25日のリリース以降、破竹の勢いでユーザー数を伸ばし続け、2012年秋に法人化、そして2013年4月にはついに登録ユーザーが13万人に到達しています。一体どのようなチームがどういった環境で開発・運営をしているのかというコアの部分を明らかにするため、Gunosyチームの働いているオフィスに突撃してみました。 Gunosy(グノシー) http://gunosy.com/ ◆いざオフィスへ 日比谷線神谷町駅近くにあるこのビルの中にGunosyは新しいオフィスを構えています。 セキュリティチェックを通過して上のフロアへ移動 オフィスの入り口へ到着 ここで間違いありません、ちゃんと表札に「Gunosy」の文字。 Gunosy開発チームの面々 窓際に置いてある日

                                                                              「ゲームとTwitterとFacebookしかしないなんてもったいない」、Gunosy開発チーム根掘り葉掘りインタビュー
                                                                            • 違法マイニングで16人摘発 10県警、仮想通貨獲得で不正アクセス - 産経ニュース

                                                                              同意なしに他人のパソコンを使い、仮想通貨の獲得手段である「マイニング(採掘)」をしたなどとして、神奈川や愛知など全国の10県警が不正指令電磁的記録作成容疑などで計16人を摘発したことが14日、警察庁のまとめで分かった。 16人は18~48歳の学生や会社員、自営業など。全員男で、3人が逮捕、他は書類送検された。 警察庁によると、16人はインターネット上で取引内容を記録する作業に協力した報酬として、新規発行分の仮想通貨が与えられるマイニングの仕組みを悪用。自身が運営するサイトに仮想通貨「モネロ」をマイニングする「コインハイブ」というプログラムを埋め込み、サイト閲覧者のパソコンに自動的にマイニングをさせるなどした疑いが持たれている。 これまでマイニングに絡んだ摘発はなかったが、各県警は、閲覧者の同意を取らず、無断でマイニングをさせたことから違法と判断した。

                                                                                違法マイニングで16人摘発 10県警、仮想通貨獲得で不正アクセス - 産経ニュース
                                                                              • データサイエンティスト生活でお世話になった本|武田邦敬|Kunihiro TAKEDA

                                                                                みなさんこんにちは。くにです。 データ分析の世界に足を踏み入れてから9年が過ぎました。 分析実務未経験でキャリアチェンジできたのは幸運としか言えませんが、ある意味無知だったからこそ無謀な挑戦ができたのかもしれません。この挑戦の泥臭い記録は、この記事に書きました。 ポジションは変われど、データを扱う仕事をまだ続けています。 私は実務で手を動かしつつ、不格好に失敗しながら学んできました。わからないことにぶつかるたびに本を買い、その本でわからないことがあればまた本屋に行き、自分が少しでも理解できそうな本を探して買いました。そして、気になる参考文献があれば、それも買って読んでみる…。 こんな生活を続けているうちに、部屋が本だらけになってしまいました。 正直に言って読み切ったという実感のある本はありません。しかし、実務で何かしらお世話になった本は数多くあり、そういう本は手放さずに手元に置いています。

                                                                                  データサイエンティスト生活でお世話になった本|武田邦敬|Kunihiro TAKEDA
                                                                                • 相変わらず半端ないディープラーニング、感動した最新の研究結果を2つ

                                                                                  ディープラーニングが猛威を振るっています。私の周りでは昨年から多く聞かれるようになり、私も日経BPさんの連載で昨年5月にGoogleの買収したDeep Mind社について触れました。今年はさらに今までディープラーニングについて触れていなかったメディアでも触れられるようになってきましたね。例えば、イケダハヤトさんも先日。高知でも話題になっているのですね。 私事ですが、今度湯川鶴章さんのTheWaveという勉強会で、人工知能とビジネスについて一時間ほど登壇させていただくことになりました。有料セミナーということです。チャールズべバッジの解析機関についてはこのブログでも以前触れましたが、「機械が人間を置き換える」みたいな妄想は100年位は言われていることですね。「解析機関」「機械学習」「人工知能」「シンギュラリティー」など、呼び名はどんどん変わり、流行り廃りもありますが、最近ロボットの発達も相まっ

                                                                                    相変わらず半端ないディープラーニング、感動した最新の研究結果を2つ