並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 3151件

新着順 人気順

bigdataの検索結果1 - 40 件 / 3151件

  • NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

    業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という

      NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
    • 本当は恐ろしい分散システムの話

      分散システムのFault Injectionの話 NTTデータテクノロジーカンファレンス2017で発表する際に用いたプレゼン資料 https://oss.nttdata.com/hadoop/event/201710/index.html Read less

        本当は恐ろしい分散システムの話
      • エラーページ - ヤフー株式会社

        指定されたURLは存在しません。 URLが正しく入力されていないか、このページが削除された可能性があります。

          エラーページ - ヤフー株式会社
        • データマイニングで使われるトップ10アルゴリズム - データサイエンティスト上がりのDX参謀・起業家

          2006年のデータマイニング学会、IEEE ICDMで選ばれた「データマイニングで使われるトップ10アルゴリズム」に沿って機械学習の手法を紹介します(この論文は@doryokujin君のポストで知りました、ありがとうございます!)。 必ずしも論文の内容には沿っておらず個人的な私見も入っていますので、詳細は原論文をご確認下さい。また、データマイニングの全体観をサーベイしたスライド資料がありますので、こちらも併せてご覧下さい。 データマイニングの基礎 View more presentations from Issei Kurahashi 1. C4.5 C4.5はCLSやID3といったアルゴリズムを改良してできたもので、決定木を使って分類器を作ります。決定木といえばCARTが良く使われますが、CARTとの違いは以下のとおりです。 CARTは2分岐しかできないがC4.5は3分岐以上もできる C

            データマイニングで使われるトップ10アルゴリズム - データサイエンティスト上がりのDX参謀・起業家
          • Nyle Engineering Blog

            OpenAIのWhisper文字起こし25MB制限を解決するPHP, Laravel, ffmpegを使ったファイル分割の例 OpenAIのAPIを使った音声の文字起こしは、今や多くのアプリケーションで利用されています。この記事では、特にWhisper文字起こしの25MB制限に焦点を当て、PHP, Laravel, ffmpeg, PHP-FFMpegなどの技術を使用したファイル分割について詳しく解説します。 OpenAI APIについて OpenAI API We're releasing an API for accessing new AI models developed by OpenAI.openai.com OpenAI APIは、AIを活用した多岐にわたるサービスを提 …

              Nyle Engineering Blog
            • 高木浩光による怒濤の講演「ゲーム業界におけるプライバシー保護」がすごいことに

              「高木浩光@自宅の日記 - Tポイント曰く「あらかじめご了承ください」」というエントリーによってTポイントツールバーは「騙す気満々の誘導」であると指摘、その2日後にTポイントツールバーのダウンロードが一旦停止されたり、ほかにも「ダウンロード刑罰化で夢の選り取り見取り検挙が可能に」「ローソンと付き合うには友達を捨てる覚悟が必要」「武雄市長、会見で怒り露に「なんでこれが個人情報なんだ!」と吐き捨て」「やはり欠陥だった武雄市の個人情報保護条例」というように、次々とセキュリティに関して絶大な影響を与え続けてきた独立行政法人産業技術総合研究所の高木浩光(通称:ひろみちゅ)氏によるCEDEC2012の講演が、非常に秀逸な内容となっており、ゲームに限らず、スマートフォンまでも含めてそもそも「個人情報」とは一体何か?ということから、個人情報の現在の扱い、プライバシーに関して今後あるべき方向に至るまで、縦横

                高木浩光による怒濤の講演「ゲーム業界におけるプライバシー保護」がすごいことに
              • 統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む

                はじめに 統計解析の手法を学ぶのに、教科書を読むのは素晴らしい学習方法です。 しかし、教科書で理論的なことを学んだだけでは、統計手法を使いこなせるようにはなりません。 統計解析手法を身につけるには、実際のデータについて手法を適用し、パラメータを変えるなどの試行錯誤を行い、結果を考察するというような経験を積むことが大切です。 それでは実際のデータをどうやって手に入れましょうか? 実験や調査をして実際のデータを得るのは大変でお金もかかります。 幸運なことに、世の中には適度なサイズの自由に使えるデータがたくさん存在します。 例えば、統計言語 R には、100以上ものデータセットがデフォルトで付属しています。 ただし、不幸なことに、それらのほとんどは英語で説明が書かれています。 英語は、いつかは乗り越えなければならない壁ですが、最初のうちはちょっと避けて通りたいところです。 というわけで、今日は、

                  統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む
                • データサイエンティストというかデータ分析職に就くための最低限のスキル要件とは - 渋谷駅前で働くデータサイエンティストのブログ

                  追記(2017年7月) こちらのスキル要件ですが、2017年版を新たに書きましたので是非そちらをご覧ください。 「データサイエンティストというかデータ分析職に就くためのスキル要件」という話題が某所であったんですが、僕にとって馴染みのあるTokyoR界隈で実際に企業のデータ分析職で活躍している人たちのスキルを眺めてみるに、 みどりぼん程度の統計学の知識 はじパタ程度の機械学習の知識 RかPythonでコードが組める SQLが書ける というのが全員の最大公約数=下限ラインかなぁと。そんなわけで、ちょろっと色々与太話を書いてみます。なお僕の周りの半径5mに限った真実かもしれませんので、皆さん自身がどこかのデータサイエンティスト()募集に応募して蹴られたとしても何の保証もいたしかねますので悪しからず。 統計学の知識は「みどりぼん以上」 データ解析のための統計モデリング入門――一般化線形モデル・階層

                    データサイエンティストというかデータ分析職に就くための最低限のスキル要件とは - 渋谷駅前で働くデータサイエンティストのブログ
                  • 機械学習 はじめよう 記事一覧 | gihyo.jp

                    運営元のロゴ Copyright © 2007-2024 All Rights Reserved by Gijutsu-Hyoron Co., Ltd. ページ内容の全部あるいは一部を無断で利用することを禁止します⁠。個別にライセンスが設定されている記事等はそのライセンスに従います。

                      機械学習 はじめよう 記事一覧 | gihyo.jp
                    • 1000万件オーバーのレコードのデータをカジュアルに扱うための心構え - joker1007’s diary

                      自分が所属している会社のメンバーの教育用資料として、それなりの規模のデータを扱う時に前提として意識しておかなければいけないことをざっくりまとめたので、弊社特有の話は除外して公開用に整理してみました。 大規模データ処理、分散処理に慣れている人にとっては今更改めて言うことじゃないだろ、みたいな話ばかりだと思いますが、急激にデータスケールが増大してしまったりすると環境に開発者の意識が追い付かないこともあるかと思います。 そういったケースで参考にできるかもしれません。 弊社は基本的にAWSによって運用されているので、AWSを前提にした様なキーワードやサービス名が出てきます。後、句読点があったり無かったりしますが、ご容赦ください。 追記: 社内用の資料の編集なのでかなりハイコンテキストな内容だから誤解するかもしれませんが、これらはそもそもRDBの話ではありません。(関係無くは無いけど) 1000万オ

                        1000万件オーバーのレコードのデータをカジュアルに扱うための心構え - joker1007’s diary
                      • 地域における医師の確保について - 感染症は国境を越えて - アピタル(医療・健康)

                        パレスチナ情勢 ウクライナ 速報 朝刊 記事一覧 紙面ビューアー 夕刊 記事一覧 紙面ビューアー 連載 ランキング その他 コメントプラス 特集 動画・音声・写真 土曜別刷り「be」 記者イベント 天気 数独 12星座占い サイトマップ 検索 ヘルプ Q&A(よくある質問) 総合ガイド お申し込み ログイン マイページ 有料会員紙面ビューアーコース登録済み 無料会員(クーポン適用中)紙面ビューアーコース登録済み 無料会員紙面ビューアーコース登録済み 朝日ID会員 紙面ビューアーコース お客様サポート(個人設定) お客様サポート(個人設定) お客様サポート(個人設定) メール設定 スクラップブック MYキーワード 会員特典・プレゼント 提携プレミアムサービス ログアウト

                          地域における医師の確保について - 感染症は国境を越えて - アピタル(医療・健康)
                        • 東大のディープラーニング公開講座がヤバくていろいろ考えさせられた件|加藤貞顕

                          1カ月ほど前から、東京大学の松尾研のディープラーニング公開講座に行っている。 ネットで募集していたのであわてて申し込んだら、とんでもない数の人が集まっていて熱気がすごい。学部生、院生、社会人、あわせて300人以上が同時に授業を受けている。 初回こそ、人工知能概論のような話だったけれど、2回目以降はものすごい速度で授業が進む。そして宿題の量と質もすごい。2回と3回目の授業だけで、普通の学校の半年分くらいの内容になっている気がする。東大、ほんとにやべーよ。 毎回、授業の冒頭は「ふんふん、そうか」とはじまるのだけれど、終わり間近に大量のサンプルコードを見せられて、それをすごい勢いで説明され、最後にゴツイ宿題が出る。授業終了後は、ポカーンってなる(授業中にぜんぶ理解しているひと、どれくらいいるんだろう)。 友人の物書堂の社長の広瀬くん(iPhone辞書アプリ開発の大御所!)も、たまたまいっしょに講

                            東大のディープラーニング公開講座がヤバくていろいろ考えさせられた件|加藤貞顕
                          • 日経BP

                            株式会社 日経BP 〒105-8308 東京都港区虎ノ門4丁目3番12号 →GoogleMapでみる <最寄り駅> 東京メトロ日比谷線「神谷町駅」4b出口より徒歩5分 東京メトロ南北線 「六本木一丁目駅」泉ガーデン出口より徒歩7分

                              日経BP
                            • 「個人を特定する情報が個人情報である」と信じているすべての方へ―第1回プライバシーフリーク・カフェ(前編)

                              EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

                                「個人を特定する情報が個人情報である」と信じているすべての方へ―第1回プライバシーフリーク・カフェ(前編)
                              • 【保存版】Pythonでデータサイエンスするための全体像と、必要な学習項目を初心者向けにまとめてみたよ!|Dai

                                このnoteでは、データ分析をやってみたい人向けに、何を学んだらよいかまとめます。ちなみにこの記事では、「ディープラーニングで何かしたい!」みたいな人ではなく、「データをもとに有益なアウトプットを出せるようになりたい」という人向けの記事となっています。 追記) 反響があり、News Picksではテクノロジー一面に掲載されていました。 また、はてなブックマークでもホットエントリー入りして、5/5現在898ブックマークを突破しました。 データ分析の全体像まず、データ分析を行う上での全体像から見ていきたいと思います。流れとしては大きく分けて、4つあります。 1. データ分析から何を検証したいか決める (調査のデザイン) 2.  データ収集 3. データの整形 4. 分析を行う 各フェーズごとに行うことと、何が学ぶべきかまとめていきたいと思います。 1. データ分析から何を検証したいか決める (

                                  【保存版】Pythonでデータサイエンスするための全体像と、必要な学習項目を初心者向けにまとめてみたよ!|Dai
                                • Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ

                                  追記 2016年3月に以下の記事によってこの内容はupdateされています。今後はそちらをお読み下さい。 主に自分向けのまとめという意味合いが強いんですが(笑)、僕が実際に2013年6月現在webデータ分析&データサイエンスの実務でツール・ライブラリ・パッケージを利用しているものに限って、統計学・機械学習系の分析手法を10個挙げて紹介してみようと思います。 追記 回帰分析(特に線形重回帰分析) 独立性の検定(カイ二乗検定・フィッシャーの正確確率検定) 主成分分析(PCA) / 因子分析 クラスタリング 決定木 / 回帰木 サポートベクターマシン(SVM) ロジスティック回帰 ランダムフォレスト アソシエーション分析(バスケット分析・相関ルール抽出) 計量時系列分析 おわりに おまけ1:「素性ベクトル+分類ラベル」なるデータ前処理 おまけ2:グラフ理論*10 {igraph}パッケージでグラ

                                    Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ
                                  • オンラインで無料で読める統計書22冊|Colorless Green Ideas

                                    はじめに 今回は、ウェブを通じて無料で読むことができる統計に関する書籍を紹介したい。英語で書かれた本が多いが、日本語で書かれた本も若干ある。 入門書 まず、統計の初学者のために書かれた入門書を紹介したいと思う。 福井正康 (2002). 『基礎からの統計学』基礎から扱っている統計の入門書である。統計を扱う際に必要となる場合の数、確率などについて詳しく説明している。理解を助けるための演習問題とその解答がついている。統計処理用のソフトとしてはExcelを使っている。同じサイトに社会科学系の学生向けの数学の教科書もある。 小波秀雄 (2013). 『統計学入門』基礎から扱っている統計の入門書。内容としては、記述統計、確率、確率分布、簡単な推定・検定、相関と線形回帰などがある。確率や確率分布などの理論的な話が占める分量が多いので、分量のわりには、具体的な統計手法はあんまり載っていない。もちろん理論

                                      オンラインで無料で読める統計書22冊|Colorless Green Ideas
                                    • データベース技術の羅針盤

                                      [C33] 24時間365日「本当に」止まらないデータベースシステムの導入 ~AlwaysOn+Qシステムで完全無停止運用~ by Nobuyuki Sa...Insight Technology, Inc.

                                        データベース技術の羅針盤
                                      • Googleが大量の機械学習用データベースを無料公開してた - Qiita

                                        個人用メモです。 機械学習は素材集めがとても大変です。 でもこの素材集め、実は無理してやらなくても、元から良質な無料データベースがあったようなのです。 URLはこちら YouTube8-M https://research.google.com/youtube8m/explore.html 提供されているサービスは以下の通り 800万個の動画 19億個のフレーム 4800個の分類 使い方はExploreから画像セットを探し、ダウンロードするだけ。 他の方法も見つけた open images dataset 「すごい神だな」と思ったのは これもう完成されてますよね もちろんこの認識前の画像もセットでダウンロードできます。 Youtube-8Mとは、画像数を取るか、精度で取るか、という違いでしょうか。 他にも良い素材集を教えていただきました (はてなブックマーク情報 @sek_165 さん )

                                          Googleが大量の機械学習用データベースを無料公開してた - Qiita
                                        • 高木浩光@自宅の日記 - Tポイントは本当は何をやっているのか

                                          ■ Tポイントは本当は何をやっているのか Tポイントが実際のところ何をやっているのかは、以前から確認する必要があると考えていたのだが*1、その加盟店に公共図書館をを加えるという話が出てきて*2、いよいよ待ったなしの段階に入ったと思い、5月から6月にかけて「Tカードサポートセンター」に問い合わせて確認していた。 最初に問い合わせたのは5月8日で、「T会員規約にはこう書かれているが実際には何をやっているのか」と素朴に尋ねたところ、電話に出たオペレータからは、「ファミリーマートを利用した会員にガストでクーポンを出したり、ガストを利用した会員にファミリーマートでクーポンを出したりしている」という趣旨の説明があった。このオペレータは、このようなクーポン発行に、商品名レベルの購入履歴は使用しておらず、ファミリーマートの利用の有無(店舗レベル)に基づいてクーポンを発行しているという認識のようだった。 そ

                                          • #タモリ倶楽部 風俗ビッグデータ! 1020人のデリヘル嬢紹介文をテキスト分析ソフトで解析し「当たり」と「ハズレ」の嬢を見極める

                                            ももひこ97 @momohiko97 #タモリ倶楽部 24時20分~24時50分 今夜遂に大公開!!痴の巨人が解析したデリヘル・ビッグデータ!…最新分析ソフトがたたき出すお宝データ!!この言葉で紹介されているデリヘル嬢は「当たり」!? 2018-01-13 00:12:03

                                              #タモリ倶楽部 風俗ビッグデータ! 1020人のデリヘル嬢紹介文をテキスト分析ソフトで解析し「当たり」と「ハズレ」の嬢を見極める
                                            • 「パナマ文書」解析の技術的側面

                                              世界中で話題になっているパナマ文書。各国で政権を揺るがすような事態にもなっていますが、純粋にデータとしてみた場合、これは計算機やデータ解析に関わる人々にも面白いものだと思います。データの中身や背景などについてはさんざん報道されていますのでここでは触れません。一方、現場でどのような作業が行われているのかはあまり報道されていません。現実的な問題として、人力ではどうしようもない量のリークデータを手に入れた場合、調査報道機関はどんなことを行っているのでしょうか?私も以前から疑問に思っていたのですが、先日あるデータベース企業と、データ分析アプリケーションを作成する会社のブログにて、その実際の一端を窺うことができる投稿がありました: Panama Papers: How Linkurious enables ICIJ to investigate the massive Mossack Fonseca

                                                「パナマ文書」解析の技術的側面
                                              • 「ひとり暮らしの40代が日本を滅ぼす」NHKが作ったAIの分析が冷たすぎる #AIに聞いてみた

                                                ひとり暮らしの40代が増えると、日本は滅ぶ。そんなショッキングな分析がある。分析結果を導いたのはAI(人工知能)だ。しかも、そのAIを開発したのはなんと、公共放送・NHK――。

                                                  「ひとり暮らしの40代が日本を滅ぼす」NHKが作ったAIの分析が冷たすぎる #AIに聞いてみた
                                                • 生活定点1992-2018|博報堂生活総研

                                                  生活定点とは? 1992年から隔年で実施している生活者の意識調査です。同じ質問を繰り返し投げ掛け、その回答の変化を定点観測しています。

                                                    生活定点1992-2018|博報堂生活総研
                                                  • 高木浩光@自宅の日記 - Wi-FiのMACアドレスはもはや住所と考えるしかない

                                                    ■ Wi-FiのMACアドレスはもはや住所と考えるしかない 目次 まえがき これまでの経緯 2つのMACアドレスで自宅の場所を特定される場合 SSIDに「_nomap」でオプトアウト? PlaceEngineはどうなった? まえがき 先週、以下の件が話題になった。 Greater choice for wireless access point owners, Official Google Blog, 2011年11月14日 Removing your Wi-Fi network from Google's map, CNET News, 2011年11月14日 グーグル、Wi-Fiネットワークの位置情報収集で対応策を公開, CNET Japan, 2011年11月16日 Google's WiFi Opt-Out Process Makes Users Navigate Technic

                                                    • 258億語の日本語コーパスをウェブで公開~国立国語研究所 言語研究や自然言語処理技術開発での基礎資料

                                                        258億語の日本語コーパスをウェブで公開~国立国語研究所 言語研究や自然言語処理技術開発での基礎資料
                                                      • ダイソー快進撃を支える「毎晩105億件データ処理」する需要予測システムはどう生まれたか

                                                        小売業の特徴は、いわゆる「ニッパチの法則」(売り上げを支える売れ筋商品は全体の2割という法則)。いかにして売れ筋商品の在庫を把握し、将来の需要を予測して、欠品なく並べ続けるかは生命線だ。 一方、ダイソーの特徴は、取り扱う商品点数が非常に多いことだ。 大創産業情報システム部課長の丸本健二郎氏によると、ダイソーは全世界27カ国で5270店に展開し、新商品は毎月約800。「均一価格」は日本と同じだが、価格レンジは各国地域の物価に合わせている。 こういう状況では、「人間の能力では在庫を把握するのは難しい」という前提に立って、丸本氏が取り組んだのが、POSデータの統計的解析から個店ごとの需要予測をして欠品をなくす「自動発注システム」(2015年導入)だった。 着想後、いくつかの店舗で試験的に導入したところ、着実に欠品率が下がり、「チャンスロス」が解消された。

                                                          ダイソー快進撃を支える「毎晩105億件データ処理」する需要予測システムはどう生まれたか
                                                        • TechCrunch

                                                          Identity and access giant Okta said a hacker broke into its customer support ticket system and stole sensitive files that can be used to break into the networks of Okta’s customers. Okta chief s

                                                            TechCrunch
                                                          • 企業価値検索サービス Ullet(ユーレット)

                                                            最新の検索ワード [10分ごとに更新] 15時14分 1 ネクステージ [東証プライム]2 トヨタ自動車 [東証プライム]3 山崎製パン [東証プライム]4 キーエンス [東証プライム]5 任天堂 [東証プライム]6 大成建設 [東証プライム]7 南都銀行 [東証プライム]8 東海旅客鉄道 [東証プライム]9 光通信 [東証プライム]10 マミーマート [東証スタンダード] Ulletニュース 2024/2/26令和バブルの「新・長者番付」100人を公開する(2024年3月8・15日合併号)2023/1/630代で資産100億円超え! シン億万長者22人 実名&金額全公開(週刊ポスト2023年1/6号)2022/12/7 マイナビ学生の窓口 私たちの働き方2022/11/30 就活がもっと楽になる?! 『証券アナリストが教える 就活企業研究How to』2022/8/15 女性大株主長者番

                                                            • 大規模データを無料で手に入れることのできるサイトまとめ - nokunoの日記

                                                              大規模データが公開されているサイトについて以下のQuoraでid:makimotoさんが質問していました。Data: Where can I get large datasets open to the public? - Quora以下、紹介されているサイトの一覧です。一部有料のものもあるようです。UCI Machine Learning RepositoryPublic Data Sets : Amazon Web ServicesCRAWDADno titleCity of Chicago | Data PortalGovLoop | Social Data Network for Governmentdata.gov.uk | Opening up governmentData.Medicare.GovData.Seattle.Gov | Seattle’s Data SiteOp

                                                              • 統計学を勉強するときに知っておきたい7つのポイント

                                                                マイクロソフト社が技術分野でもっと熱い専攻の一つとして分析/統計をあげている(Microsoft JobsBlog)。同社以外でも統計学は、今後最も有益なスキルの一つだと考えているようだ(NYT - For Today’s Graduate, Just One Word: Statistics)。しかし、データマイニングの話も一般化しつつあって学習ノウハウなども公開されているが、経験にあわない部分が多い。統計学を初めて勉強するときに知っておいた方が良い7つのポイントをあげてみた。 1. 学習機会やテキストは山のようにあるので利用する 確率・統計の日本語テキストは山のようにあり、大学のコースワークを振り返っても、理文問わずにほとんどの学部で確率・統計はあったはずだ。大学院のコースワークでは英語の文献を好む傾向があるが、上級テキストでも日本語のものも少なくない。また「マンガでわかる統計学」のよ

                                                                  統計学を勉強するときに知っておきたい7つのポイント
                                                                • 秒間数万のログをいい感じにするアーキテクチャ

                                                                  AWS Summit Tokyo 2016 Developer Conference (2016/06/03)

                                                                    秒間数万のログをいい感じにするアーキテクチャ
                                                                  • 「悪いやつをAIで予測する」のがなぜいけないか - yhara.jp

                                                                    「この人、家賃を滞納しそう?」AIが予測 入居審査を45分→16分に - ITmedia NEWS いやーこれはまずい。この件に限らず、「悪いやつをAIで予測する」というのはすなわち 「あなたに似た人が悪いことをしたので、あなたも悪い人と見なします」 ということだからだ。 レストランのランプ たとえばこんな例を考えてみよう。ある街でレストランが強盗に襲われる事件が相次いだ。これを防ぐため、レストランの入口に防犯カメラを設置することにした。このカメラはAIで犯罪者の顔を学習していて、「犯罪を犯しそう」な人間を検知してくれるのだ。 もちろん検知するといってもサイレンが鳴ったりするわけじゃない。あくまで「犯しそう」なだけで、まだ犯罪を犯したわけではないからね。でもキッチンに置いてある赤いランプがピカピカ光って、「要注意人物」が来たことはわかるようになっている。ああこれで安心だ。 …さて、これは本

                                                                    • 分析SQLのコーディングスタイル - クックパッド開発者ブログ

                                                                      SQL、書いてますか? こと大規模データ処理の分野においてはSQLはもはや標準インターフェイスであり、 分析やらバッチやらに関わっている皆様は日々大量のSQLクエリーを生産していることと思います。 そこでちょっと気になるのが、 SQLのコーディングスタイルってどうするのが一般的なんだっけ……? という点です。 イマドキはSQLなんてO/R mapperに吐かせることが多いからなのか、 それともコードを広い範囲で共有することがそもそもないからか、 SQLのコーディングスタイルについて見聞きすることは他のプログラミング言語に比べるとだいぶ少なく、 いまいち決定版と言えるスタイルがないなと感じています。 そんなわけで本日は、SQLのコーディングスタイルについての意識を活発化させるべく、 クックパッドでわたし(青木)が使っているコーディングスタイルから特徴的な点を紹介したいと思います。 特に、分析

                                                                        分析SQLのコーディングスタイル - クックパッド開発者ブログ
                                                                      • 手数料ゼロでも利益が出るアリペイの秘密 - 中華IT最新事情

                                                                        日本の電子決済と異なり、中国のQRコードスマートフォン決済「アリペイ」「WeChatペイ」は、加盟店手数料などが原則不要だ。それでなぜ利益を上げられるのか。今日頭条が報じた。。 踏んだり蹴ったりの電子決済 日本で電子決済が広まらない理由。それは手数料だ。加盟店は一般的に3%から5%程度の手数料を支払わなければならない。お客さんが1000円のランチを食べても、電子決済で支払われたら、実質の実入りは950円で、50円は決済運営企業に支払わなければならない。 これは、ギリギリのコスト、ギリギリの利幅で経営している小規模飲食店にとって、かなりきつい。電子決済をする客が増えてきたら、値上げをせざるを得なくなり、値上げをすれば客数が減り、客数が減れば売り上げが下がるという悪い循環に入ってしまうのではないかという恐怖がある。 そのため、飲食店では、電子決済に対応していることを積極的にアピールしないことも

                                                                          手数料ゼロでも利益が出るアリペイの秘密 - 中華IT最新事情
                                                                        • 「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮

                                                                          Hadoopの時代は終わった、という言説をたまに見かけるようになりました。 もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。 本記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。 中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。 以上をご了承の上、読み進めてください。 要約 データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが

                                                                            「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮
                                                                          • 連載: IBM Watson Workspace #鬼わか アプリケーション開発: 第 7 回: IBM Watson Workspace で AI を利用したアプリ連携の実現 #鬼わか 解説(前編)

                                                                            IBM Related Japanese technical documents - Code Patterns, Learning Path, Tutorials, etc. Please open new issue/pull requests in either English or Japanese if you would have any feedback or you would like to contribute this repo. We provide mainly "Japanese contents" by markdown text. IBM Developerの最新情報は https://developer.ibm.com/ にアクセスし、英語のコンテンツを参照してください。 このリポジトリは、IBM Developer Japan Webサイトで公開していた

                                                                              連載: IBM Watson Workspace #鬼わか アプリケーション開発: 第 7 回: IBM Watson Workspace で AI を利用したアプリ連携の実現 #鬼わか 解説(前編)
                                                                            • 政府統計の総合窓口 GL01010101

                                                                              統計データを探す すべて 分野から探す国土・気象人口・世帯労働・賃金農林水産業鉱工業商業・サービス業企業・家計・経済住宅・土地・建設エネルギー・水運輸・観光情報通信・科学技術教育・文化・スポーツ・生活行財政司法・安全・環境社会保障・衛生国際その他 組織から探す 内閣官房人事院内閣府公正取引委員会警察庁消費者庁こども家庭庁総務省公害等調整委員会消防庁法務省外務省財務省国税庁文部科学省文化庁スポーツ庁厚生労働省中央労働委員会農林水産省林野庁水産庁経済産業省資源エネルギー庁特許庁中小企業庁国土交通省観光庁海上保安庁環境省防衛省 主要な統計から探す 50音から探す あ い う え お か き く け こ さ し す せ そ た ち つ て と な に ぬ ね の は ひ ふ へ ほ ま み む め も や ゆ よ ら り る れ ろ わ すべて見る 分野から探す 国土・気象人口・世帯労働・賃金農林

                                                                                政府統計の総合窓口 GL01010101
                                                                              • 社会人なら知っておきたい無料の公的統計データ「e-Stat」と「統計メールニュース」 | 初代編集長ブログ―安田英久

                                                                                今日は、マーケティングや企画に携わる社会人なら知っておきたい、というよりは、知らないと恥ずかしい、無料で利用できる公的統計データのポータルサイト「e-Stat」の情報と、新しい統計データが自動的に飛んでくる「統計メールニュース」の情報をお届けします。 すでに6月も下旬。新入社員の方も配属部署が決まってバリバリ働いていることだと思います。 マーケティングや企画の仕事をする人にとって、調査データというのは大切なもの。 ネット上で発表される「○○のサービスのユーザー数が○○万人」なんて調査データ、みんな好きですよね。Googleトレンドのような検索ボリュームの情報や、どのブラウザがどれぐらい使われているかといった調査データも人気です。 どれも無料で入手できるデータですが、実は税金でちゃんとした手法でつくられている、質の高い調査データというのが、あるのです。 それが、政府の出している統計データ。

                                                                                  社会人なら知っておきたい無料の公的統計データ「e-Stat」と「統計メールニュース」 | 初代編集長ブログ―安田英久
                                                                                • 機械学習に使える、オープンデータ一覧 ※随時更新 - Beginning AI

                                                                                  機械学習をやりたいんだけど、データがない!他のデータ使ってみたい! そんな方のために、機械学習に使えるオープンデータを集めました。 他にも、このデータセットオススメ!というものがあれば、是非ご紹介して頂けると嬉しいです。m(__)m UC Irvine Machine Learning Repository カリフォルニア大学アーバイン校が公開した、データセット。351件のデータセットがあり後述する DATA GO に比べれば少ないが、ほとんどがMachine Learning用のデータ・セットなので、かなりオススメ。 UCI Machine Learning Repository かの有名なあやめの花(iris)のデータセットもここから見ることができます。 国立情報学研究所 情報学研究データリポジトリ データセット一覧 yahoo,楽天,ニコニコなどのデータがあります。 DATA.GO.