並び順

ブックマーク数

期間指定

  • から
  • まで

361 - 400 件 / 3177件

新着順 人気順

bigdataの検索結果361 - 400 件 / 3177件

  • 機械学習超入門 〜そろそろナイーブベイズについてひとこと言っておくか〜 - EchizenBlog-Zwei

    最近では機械学習の認知度も上がってきていて専門家でなくてもナイーブベイズやSVMなどの名前を知っている人も増えてきたように思う。 そんなわけでちょっと機械学習をはじめてみようかな、と思っている人も多いのではないだろうか。とはいえ「数式よくわからない」「確率嫌い」といった理由で尻込みしているケースも多いのでは。 そこで予備知識ゼロでもわかるような機械学習の入門記事を書いてみたよ。 機械学習を「作りたい」のか「使いたいのか」 まず最初に確認したいのがこれ。使いたいだけならまずはSVMを使ってみれば良い。世の中にはlibsvmやsvmlightという良いツールがあるのでそれを使おう。以下の記事は機械学習を「作りたい」「仕組みを知りたい」人向けの内容になっている。 「最も簡単な機械学習はナイーブベイズ」という幻想 機械学習といえばナイーブベイズという話がよくある。ナイーブ(単純)という名前からいか

      機械学習超入門 〜そろそろナイーブベイズについてひとこと言っておくか〜 - EchizenBlog-Zwei
    • 情報処理技術者試験の出題範囲を大幅に見直し、IPAが発表

      独立行政法人の情報処理推進機構(IPA)は2012年5月22日、同機構が実施する情報処理技術者試験の出題範囲やシラバスの変更を発表した。出題範囲には、「クラウドコンピューティング」や「仮想化」、「標的型攻撃」といった項目が新たに加わり、リモートアクセスで使う「コールバック」や開発支援ツールの「CASE」などが削られた。例えば、IT関連の知識を広く問う午前の部の出題範囲では、従来の約680項目のうち約30項目が削られ、新たに約150項目が加わって約800項目になった。 大幅に見直されたのは、セキュリティ関連の用語。例えばこれまで「ウイルス」とされてきた用語は「マルウエア」に変わり、マルウエアの一つとして「コンピュータウイルス」や「ボット」「スパイウエア」といった用語が使われるようになっている。 なお、今回加わったクラウドコンピューティングや仮想化という項目は、過去の試験においても既に出題され

        情報処理技術者試験の出題範囲を大幅に見直し、IPAが発表
      • 『 データ分析基盤Night #2 』に参加してきた #データ分析基盤Night - 試纏

        データ分析基盤Night #2 - connpass 2017/04/26 データ分析基盤Night #2 #データ分析基盤Night - Togetterまとめ 前回第1回に引き続き抽選に当たったのでこの日参加してきました。 『 データ分析基盤Night #1 』に参加してきた #データ分析基盤Night - 試纏 会場は株式会社FiNC様@有楽町。有楽町駅ビックカメラのすぐ隣、交通の便は超良い場所です。 会場内もとてもオシャレで綺麗なオフィスでした! 挨拶 ウェルネスタイム(軽いストレッチ) by FiNC FiNCの分析基盤の概要 発表資料 発表内容 freee のデータ分析基盤の全容 発表資料 特徴:他のサービスとどこが違うのか 構成:アーキテクチャ マーケティング 販売・サポート エンジニア ダッシュボード バッチ処理 辛み 展望・チャレンジ まとめ mercariのデータ分析基

          『 データ分析基盤Night #2 』に参加してきた #データ分析基盤Night - 試纏
        • BigQueryにTwitterのタイムラインを入れる [Ruby]

          Twitter のタイムラインを保存しておくとなにかと便利なので、色々と保存形式を変えながら 4 年くらい記録し続けている。ツイートの保存が便利すぎるので、ツイセーブというサービス化までした。かつてはテキストで、MongoDB や MySQL とか Groonga とかいろいろやってきた。どれも問題ないんだけど、増え続けるログデータを保存する場所として考えると BigQuery が現代にマッチしてるようなのでそちらに移行した。 BigQuery に TL を保存するとできること TL の全てのデータをフルスキャンできる。これはかなり便利で、今回このブログ記事を書くにあたっても ‘BigQuery’ を TL から検索すれば、信頼できるフォローイングの人々の声を見ることができた。これにより「某 CA 社では 5000 台の MongoDB クラスタで BigQuery に対抗している」という

            BigQueryにTwitterのタイムラインを入れる [Ruby]
          • 「使い分け」ではなく「妥当かどうか」が大事:重回帰分析&一般化線形モデル選択まわりの再まとめ - 六本木で働くデータサイエンティストのブログ

            先日の記事はおかげさまで好評をいただいたんですが、勉強中の身で教科書を確認せずに書いたこともあり多数ツッコミをいただきました。ツッコミをいただけるというのはもちろん大変良い勉強の機会になるということで*1、今回もひとしきり勉強してみました。 ということで、自戒も込めて備忘録的に勉強したことをまとめておこうと思います。今回はあまり広く読んでもらう内容ではないので、不親切かもしれませんがごめんなさい。ただし、あまりにも理論的側面ばかり色々書いても何なので、インターネット広告業界の言葉で喩えて言うなら「クリック数*2をモデリングしたい場合」と「コンバージョン数*3をモデリングしたい場合」とに分けた、と理解してもらえたら良いかなと思ってます。 今回も参考文献は久保本です。一般化線形モデルまわりではこの本より分かりやすい本は依然としてないと思います。 データ解析のための統計モデリング入門――一般化線

              「使い分け」ではなく「妥当かどうか」が大事:重回帰分析&一般化線形モデル選択まわりの再まとめ - 六本木で働くデータサイエンティストのブログ
            • 情報学研究データリポジトリ ニコニコデータセット

              ニコニコ大百科データ ニコニコ大百科に2014年2月上旬までに投稿された記事全ての記事ヘッダ,記事本文データと,それに付随する掲示板全データです。ただし,ユーザーページ,ユーザーIDは削除されています。 記事ヘッダデータ 記事ID,記事タイトル,記事ヨミ,記事種類(a:単語,v:動画,i:商品,l:生放送),記事作成日時などのデータです。CSV形式のファイルで,1年当たり1ファイル,圧縮ファイルで約4.9MB,展開後は約14.9MBです。 記事本文データ 記事ID,記事本文,記事更新日時などのデータです。CSV形式のファイルで,1月あたり1ファイル(例外あり),圧縮ファイルで約4.52GB,展開後は約22.7GBとなりますので,ダウンロードされる際はご注意ください。 掲示板データ 記事ID,レス番号,レス投稿日時,レス本文などのデータです。CSV形式のファイルで,1年あたり1ファイル,圧縮

              • neo4j open source nosql graph database

                GenAI apps, grounded in your data Power your applications with knowledge graphs. Backed by the only graph database with vector search.

                  neo4j open source nosql graph database
                • なにがヤフーのビッグデータだばかやろう(訂正あり) - やまもといちろうBLOG(ブログ)

                  (訂正 21:29 山本太郎さんの支持母体を間違えておりました。正確には中核派でした。山本太郎さんを支援していたのは中核派です。謹んで訂正いたします。山本太郎さんを支援していたのは中核派。) 小雨が降る中、新宿駅西口で第一声を上げる山本太郎候補(7月4日) http://megalodon.jp/2013-0711-2130-18/www.zenshin.org/index.htm いやヤフーさんに文句はありません、馬鹿なんて嘘ですすいません。 ビッグデータが導き出した参議院選挙の議席予測 http://event.yahoo.co.jp/bigdata/senkyo201307/ というわけで、東京選挙区と全国比例のデータしか持っていない私が勝てるところでだけ論じてみようのコーナーがやってまいりました。えー、総論で言いますとヤフーさんは偉大ですね申し訳ございませんという感じですが、残り6

                    なにがヤフーのビッグデータだばかやろう(訂正あり) - やまもといちろうBLOG(ブログ)
                  • 正しいデータは正しい設計に宿る - そーだいなるらくがき帳

                    って話をbuilderscon 2018でします。 builderscon.io 当日利用する資料はこちら。 speakerdeck.com 私のセッションはbuildersconの最終セッション。 皆さん素晴らしいセッションが並ぶ中で選択肢に迷ってる方も居ると思います。 だから先に公開しておきますのでこれをご覧になって、他のセッションに行くというのも有りだと思います。 あと事前に去年のトークを見てくれると当日はより理解が深まると思います。 同じ話を2回しても皆さんにとって勿体無いのでリファクタリングの細かい前提の話は当日はしません。 soudai.hatenablog.com 動画はこちら。 www.youtube.com これを見て、面白そうだなって思ったらぜひ、遊びに来てください。 僕が知ってるRDB設計、そしてRDBの歩み方を全てお伝えします。 あなたの新しい道の一歩目をご用意しま

                      正しいデータは正しい設計に宿る - そーだいなるらくがき帳
                    • Amazonが他のIT企業と違って5-7年先を見ることができる理由 - Future Insight

                      WIRED Vol.03に掲載されていたAmazon CEOジェフ・ベゾスのインタビュー。しかも、インタビュアーが名著In the Plexのスティーブン・レヴィということで、楽しみに読んだのですが、かなりおもしろい内容でした。WIRED (ワイアード) VOL.3 (GQ JAPAN2012年4月号増刊) [雑誌] コンデナスト・ジャパン 2012-03-10Amazon楽天市場価格.comby カエレバ Amazonは5-7年先を見ることができる企業である AmazonがAmazon Web Service(AWS)を開始した時のことを覚えている人は少ないかもしれません。Amazon.comのCEOであるジェフ・ベゾスがAWSの提供を開始したとき、このサービスに関して2006年11月のBusiness Weekでは、「ジェフの危険な賭け:ウォール街はジェフに小売業に専念してもらいたいと

                        Amazonが他のIT企業と違って5-7年先を見ることができる理由 - Future Insight
                      • いまさら聞けない機械学習の評価関数 - Gunosyデータ分析ブログ

                        アライアンス事業開発部の大曽根(@dr_paradi)です。 ニュースパスというアプリの分析と開発を行っております。 今回は機械学習の評価関数のお話をします。 内容は、【FiNC×プレイド】Machine Learning Meetup #1 - connpassで発表したものになります。 発表資料 いまさら聞けない機械学習の評価指標 from 圭輔 大曽根 www.slideshare.net 機械学習における評価 現在は機械学習ライブラリが充実しており、また、Webサービスの普及により学習に必要なデータの獲得も以前と比較して容易になっています。 そのため、機械学習のビジネス利用への敷居が下がっています。 予測や分類といった問題を解く際には、設定した課題に対してどのモデルが最も適しているかを評価するための指標(評価関数)が必要になります。 Kaggle*1などのコンペティションではあらか

                          いまさら聞けない機械学習の評価関数 - Gunosyデータ分析ブログ
                        • 「闇雲にPDCAサイクルを高速に回す」と場合によっては過学習して逆に怖いかもというお話 - 渋谷駅前で働くデータサイエンティストのブログ

                          3年前にこんな話を書いたわけですが、皆さんご記憶でしょうか。 この当時は「平均への回帰」という言葉にその不毛さを託したわけですが、前回の記事に着想を得てもう少し今時っぽく論じることが出来るんじゃないかと思ったので、ちょっと書いてみようかと思います。 なお、言うまでもありませんが以下に示す例は完全に単なるシミュレーションであり、特定の事例を意味するものではありません*1。過去にデータ分析業界の内部で見聞された数々の事例の最大公約数的な部分をベンチマークとしてまとめたものとご理解下されば幸いです。またシミュレーション自体も特に数理的な厳密さを期したものではありませんので、そこもご了承あれ*2。 ビジネスの現場でよくある光景 一般に「PDCAサイクルをとにかく速く回す」のがビジネスを成功させる近道だと言われるわけです。そこで、こんなケースを考えてみます。設定としては、何かしらのeCommerce

                            「闇雲にPDCAサイクルを高速に回す」と場合によっては過学習して逆に怖いかもというお話 - 渋谷駅前で働くデータサイエンティストのブログ
                          • LINE Storage: Storing billions of rows in Sharded-Redis and HBase per Month « NAVER Engineers' Blog

                            Hi, I’m Shunsuke Nakamura (@sunsuk7tp). Just half a year ago, I completed the Computer Science Master’s program in Tokyo Tech and joined to NHN Japan as a member of LINE server team. My ambition is to hack distributed processing and storage systems and develop the next generation’s architecture. In the LINE server team, I’m in charge of development and operation of the advanced storage system whi

                            • 大規模データ分析基盤技術「Jubatus」の公開 - 株式会社プリファードインフラストラクチャー

                              2011年10月26日 報道関係者各位 プレスリリース 日本電信電話株式会社 株式会社プリファードインフラストラクチャー ==================================================== ビッグデータのリアルタイム処理を可能にする 大規模データ分析基盤技術を世界に先駆けて開発 ~10月27日よりオープンソースソフトウェアとして公開~==================================================== 日本電信電話株式会社(東京都千代田区、代表取締役社長:三浦 惺、以下「NTT」) と株式会社プリファードインフラストラクチャー(東京都文京区、代表取締役社長:西川 徹、以下「PFI社」)は、ビッグデータ*1と呼ばれる大規模データをリアルタイムに高速分 析処理する基盤技術「Jubatus*2」(第1版)を開発しま

                              • kimono : Turn websites into structured APIs from your browser in seconds

                                kimono: Turn websites into structured APIs from your browser in seconds

                                • マーケター必見! 総務省の「統計ダッシュボード」のスゴい充実度

                                  総務省はこのほど、国勢調査や経済センサスなど国勢に関する統計データを「統計ダッシュボード」というウェブサイトにまとめ、公開をはじめた。総務省がもつ統計データを、表示する数値やグラフを動的に切り替えられるグラフィカルなシステムと組み合わせることで、広く活用してもらうことが目的だ。これが非常によくできているのだ。 「統計ダッシュボード」では、約5000の統計データを「人口・世帯」「労働・賃金」など17の分野に整理して収録。グラフは全部で55種類あり、サイト上で関連データの追加や削除、時系列比較や地域間比較などが可能となっている。 総務省のリリースによれば、特にビジネス(民間)での利用について「オープン化された公的データを地域やビジネスの視点から活用し新たなアイデアを創出」することを狙いとしている。

                                    マーケター必見! 総務省の「統計ダッシュボード」のスゴい充実度
                                  • Treasure Data, Inc. | Finding Gems in Your Big Data

                                    CREATE THE CONNECTION Do more than capture and analyze customer signals. Act on them. Customer Data Cloud unites operations, service, sales, and marketing teams around the same unified customer profiles. When every department has the data and insights they need, they can work together to create connected customer experiences and improve business value. Schedule Demo Watch Video

                                      Treasure Data, Inc. | Finding Gems in Your Big Data
                                    • データ匿名化手法

                                      データがビジネスを駆動する現在、さらなるサービスの進化と利便性を推進するために、個人に関する情報は不可欠です。本書は、機微な個人情報を多く含むヘルスデータを題材に、プライバシー保護とデータ有用性という相反する命題をいかに満たすかについて、豊富な実例とともに解説する書籍です。リスクベースの非特定化方法論、横断的データ、縦断的イベントデータ、データリダクション、地理空間の集約、マスキングなどデータの匿名化に必要な事柄を網羅的に解説します。医療者はもちろん、個人のプライバシーを守りつつ、より洗練されたサービスを提供したいエンジニア、データ技術者必携の一冊です。 監訳者まえがき まえがき 1章 イントロダクション 1.1 匿名化すべきか、せざるべきか 1.1.1 同意を得るか、匿名化するか 1.1.2 お金を節約する 1.1.3 人目に触れたくない 1.2 匿名化における2本の柱 1.2.1 マス

                                        データ匿名化手法
                                      • そろそろオープンデータを無秩序に管理するのは卒業したいので📦データを管理するパッケージマネージャを開発した【ツール開発】 - Qiita

                                        今回はdim(オープンデータパッケージマネージャ) v1.0のリリースに伴って開発したツールの紹介をしたいと思います。 オープンデータもパッケージマネージャ(apt、npm、gem、pipなど)と同じようにnpm install xxxxxのような形でオープンデータをインストールして管理すると良いのではないかという話です。 以前のバージョンに関しては以下の記事で紹介 【個人開発】パッケージマネージャーの考えを流用してオープンデータ管理ツールを作ってみた話 以前の記事を読んでいてv1.0からの変更点に関して読みたい方 dim v1.0 変更点 オープンデータを無秩序に管理するのはやめたい ソフトウェアやライブラリの管理は世の中様々な体系化された方法が確立されつつあります。ソフトウェアであればaptやbrewなど、ライブラリであれば言語ごとにnpmやgemなどが存在します。しかし、データに関し

                                          そろそろオープンデータを無秩序に管理するのは卒業したいので📦データを管理するパッケージマネージャを開発した【ツール開発】 - Qiita
                                        • 大規模グラフアルゴリズムの最先端 - iwiwiの日記

                                          昨日,PFI セミナーにて「大規模グラフアルゴリズムの最先端」というタイトルで発表をさせてもらいました.スライドは以下になります. 大規模グラフアルゴリズムの最先端 View more presentations from iwiwi 当日は Ustream もされており,録画された発表もご覧になれます. http://www.ustream.tv/recorded/19713623 内容の流れとしては,以下のようになっています. 導入 アルゴリズム界隈での話題 最新の研究動向 道路ネットワークでの最短路クエリ処理 基礎的な手法:双方向 Dijkstra,A*, ALT 最新の手法:Highway Dimension + Hub-Labeling Algorithm DB 界隈での話題 最新の研究動向 複雑ネットワークでの最短路クエリ処理 基礎的な手法:ランドマークを用いた最短距離推定 最

                                            大規模グラフアルゴリズムの最先端 - iwiwiの日記
                                          • 技術革新は何のためにあるのか? - 急がば回れ、選ぶなら近道

                                            技術革新は須く斬新的なものであるべし、という肩に力の入った信念の人は流してください。ちょっと、力の抜いた小ネタなので。 最近というかここ10年来、いわゆる業務系のシステムに関わっていてよく思うことではあります。特に最近、NoSQLやHadoopといった「新技術」が登場するにつけて強く感ることではあるのですが、なんというか、「こんな感じ」のことができます、というようなプロダクトアウト的でありながら、かつ、漠然とした抽象的な話が多すぎる気がします。要は、全般的に問題の設定が苦手だよなということです。 特定の技術の各論はともかく、まず、大上段に構えると、実はITでは一般の人が想像する以上にユーザーとベンダーで期待ギャップがあります。ユーザーから見ると、大抵は「こんなこともできないのか?」ということがごく普通にできません。一方、一般のTVとか報道とかは、スパコンや遺伝子やビッグデータや、なんやらか

                                              技術革新は何のためにあるのか? - 急がば回れ、選ぶなら近道
                                            • 単純な集計とデータサイエンスによる分析とで結果が食い違うかもしれない3ケース - 渋谷駅前で働くデータサイエンティストのブログ

                                              一般に、データ分析の大半はそれほど高度なテクニックの類を必要としないものです。僕も常日頃から口に出して言うことが多いんですが、「統計学だの機械学習だのの出番なんてそもそも少なくて当たり前」。工数もかかるし、できればやらない方が良いです。ぶっちゃけ単純な四則演算で十分なケースの方が多数派でしょう。 なので、普段はDB上でSQL(というかHiveなど)でサクッと四則演算だけで集計処理を済ませてしまって、その結果だけを表示するようにしておいた方が圧倒的に楽で手っ取り早いはず。多くのBIツールもそういう考えのもとで作られていると思います。 ところがどっこい。世の中には、単純な四則演算での集計結果と、データサイエンスを駆使した分析結果とで、食い違ってしまうケースが何故かあることが知られています。どちらかと言うとレアケースだとは思いますが、その矛盾をおざなりにするととんでもないことになることも多々あり

                                                単純な集計とデータサイエンスによる分析とで結果が食い違うかもしれない3ケース - 渋谷駅前で働くデータサイエンティストのブログ
                                              • ニュースの可視化サイト『Newsgraphy』を公開しました - kaisehのブログ

                                                日本のニュースを地図化して俯瞰できる『Newsgraphy』というサービスを作りました。 Newsgraphy 6月に公開して大きな反響をいただいたHatenarMapsの可視化手法を、Yahoo!のトピックスAPIから取得したニュース記事に適用して、いろいろと機能強化を施したものがNewsgraphyです。Mashup Award 4thにも応募しています。 追記(2008/9/26): 「HatenarMapsの可視化手法を適用」と書きましたが、これは二次元平面へのマッピング手法(Voronoi Treemap)のことで、クラスタリング手法は含んでいません。Newsgraphyは、Yahoo!で分類済みのニュースカテゴリ階層を使用しています。 ニュースの可視化と言えばnewsmapが有名ですが、newsmapよりも面白くて実用性の高いサイトを目指して開発しました。 以下、Newsgra

                                                  ニュースの可視化サイト『Newsgraphy』を公開しました - kaisehのブログ
                                                • Google Prediction API — Google Developers

                                                  Try Gemini 1.5 models, our newest multimodal models in Vertex AI, and see what you can build with a 1M token context window

                                                    Google Prediction API — Google Developers
                                                  • Cassandraのはじめ方─手を動かしてNoSQLを体感しよう 記事一覧 | gihyo.jp

                                                    運営元のロゴ Copyright © 2007-2024 All Rights Reserved by Gijutsu-Hyoron Co., Ltd. ページ内容の全部あるいは一部を無断で利用することを禁止します⁠。個別にライセンスが設定されている記事等はそのライセンスに従います。

                                                      Cassandraのはじめ方─手を動かしてNoSQLを体感しよう 記事一覧 | gihyo.jp
                                                    • エラーページ - ヤフー株式会社

                                                      指定されたURLは存在しません。 URLが正しく入力されていないか、このページが削除された可能性があります。

                                                        エラーページ - ヤフー株式会社
                                                      • グーグルが農業に進出 ベンチャーに18億円を投資 - 日本経済新聞

                                                        米グーグル傘下の投資会社グーグル・ベンチャーズは、ビッグデータを活用して農家に生産効率を高める方法を提示するファーマーズ・ビジネス・ネットワーク(FBN)に投資する。グーグル・ベンチャーズを中心とした今回の投資で、FBNは1500万ドル(約18億4500万円)を調達する。農家も企業経営と同じFBNのビジネスモデルを考案したのは、グーグルでエネルギー関連の技術革新や地熱プロジェクトを率いたチャ

                                                          グーグルが農業に進出 ベンチャーに18億円を投資 - 日本経済新聞
                                                        • iQOSに仕込まれた喫煙データ収集機能の真実

                                                          5月16日、iQOSという新たな商品に対し規制当局から承認を得るため、フィリップモリスインターナショナル(PMI)は、従来のたばこより健康被害を起こす可能性が低いと主張している。しかし、iQOSにはもう1つの、喫煙者にはそれほど恩恵をもたらさない機能がある。ユーザーの喫煙習慣に関するデータの収集だ。原宿で3月撮影(2018年 ロイター/Issei Kato) [東京/ニューシャテル(スイス) 16日 ロイター] - 加熱式たばこiQOSという新商品に対し規制当局から承認を得るため、フィリップモリスインターナショナル(PMI)<PM.N>は、従来のたばこより健康被害を起こす可能性が低いと主張している。しかし、iQOSにはもう1つの、喫煙者にはそれほど恩恵をもたらさない機能がある。 それは、ユーザーの喫煙習慣に関するデータの収集だ。 PMIは、すでにiQOSユーザーの登録情報をデータベース化し

                                                            iQOSに仕込まれた喫煙データ収集機能の真実
                                                          • Jubatus : Distributed Online Machine Learning Framework¶

                                                            Jubatus English Japanese

                                                            • Google、ビッグデータ分析サービス「BigQuery」を一般公開

                                                              「Google BigQuery Service」をGoogleのクラウド経由で利用することで、中小企業でもテラバイト級のビッグデータの分析が可能になる。 米Googleは11月14日(現地時間)、同社のクラウド上でいわゆる「ビッグデータ」を分析する企業向けサービス「Google BigQuery Service」のプレビュー版を公開したと発表した。正式版は有料になる見込みだが、現在は無料で利用できる。 BigQueryは、同社が2010年の開発者向けカンファレンス「Google I/O」で発表したクラウド分析サービス。これまでは一部の企業を対象にクローズドなプレビュー版を提供していた。 ユーザーはGoogleのクラウドストレージサービス「Google Cloud Storage」に分析したいデータをアップロードし、Webブラウザ経由で分析できる。同社は10月にクラウドデータベース「Goo

                                                                Google、ビッグデータ分析サービス「BigQuery」を一般公開
                                                              • Googleの巨大分散データストアBigtableとDatastoreを理解する

                                                                今回は、米Googleのクラウド環境に存在するデータベースBigtableとDatastoreサービスを紹介します。「巨大分散」という新たなデータベースの地平を切り開くためにどのような工夫をしているか、じっくり見ていきましょう。 「Bigtable」は、Googleの主要なサービスを支える独自の巨大分散データストアです*1。Bigtableは、2005年4月から本格的な運用(プロダクション利用)が開始されたもので、Googleの検索サービスをはじめ、Gmail、YouTube、Google Maps、Google日本語入力、そしてApp Engineなど、70以上のプロジェクトで利用されています。その規模は、数P(ペタ)バイト~数十Pバイトに達しているでしょう。 Bigtableは、Google検索サービスにおける膨大なコンテンツやインデックスを保持し、高速に検索するための専用データストア

                                                                  Googleの巨大分散データストアBigtableとDatastoreを理解する
                                                                • ヤフー、16万曲の歌詞ビッグデータ分析で、国内500アーティストの類似性を可視化

                                                                    ヤフー、16万曲の歌詞ビッグデータ分析で、国内500アーティストの類似性を可視化 
                                                                  • The Next Chapter - Treasure Data

                                                                    本日皆様に、私たちトレジャーデータがArm社の一員に加わるという発表をお知らせできることを大変うれしく思っています。 私たちと、これまで私たちを支えてくださったお客様とで紡いできた物語に加わる、半導体技術とIoTサービスにおけるリーディングカンパニーであるArm社とトレジャーデータのコラボレーションによって描き出される未来の一端、次なる章を、ここで私からお伝えいたします。 データの活用が人々を幸せにする 2011年に遡らせてください。私は太田一樹と古橋貞之をアメリカに連れ、3人でトレジャーデータを創業しました。 当時の私たちは、トレジャーデータのコアとなるビジョンとミッションをどう具現化させるかの議論に夢中になっていました。どうやって「テクノロジーと人間の関係性を根本から変容させる」かということ。 「データの活用が人々を幸せにする」という信念のもと私たちが企てていたのは、データが新しい通貨

                                                                      The Next Chapter - Treasure Data
                                                                    • Gephi, オープンソースのグラフ可視化・操作ソフトウェア

                                                                      Gephi が再び Google Summer of Code (GSoC 2011) に認定されました! Google Summer of Code は、世界各地の学生がオープンソースプロジェクトに貢献することができるたいへん優れたプログラムです。詳細はこちら » 応用例 探索的データ解析: リアルタイムでのネットワーク操作による直感的分析。 リンク解析: 特にスケールフリーネットワークにおけるオブジェクト間関係の根本構造の明確化。 ソーシャルネットワーク分析: さまざまなコミュニティ組織やスモールワールドネットワークをマップ化できるソーシャルデータコネクタを簡単に作成可能。 生物学的ネットワーク解析: 生物学的データのパターンを表現。 ポスター制作: 高解像度の印刷可能グラフで学術研究成果をプロモート。 詳細はこちら » 各種のメトリクスを用意 中心性 (Centrality): 社会

                                                                      • 医療機関データのオンプレ → クラウド移行にかけた1年と、6倍の効率化について - JMDC TECH BLOG

                                                                        株式会社JMDC開発本部データ基盤開発部の中村と申します。 私が所属する医療機関基盤グループでは、昨年から今年にかけて基幹システムをオンプレからクラウド(AWS)へ刷新しました。 この移行プロジェクトは、JMDC史上トップを争うくらい難易度の高いプロジェクトだったと個人的に感じています。マネージャーの立場から今回のシステム刷新のきっかけや、プロジェクトのハードな道のり、そしてクラウド化で得られた成果などを振り返っていきます。 プロフィール 中村竜甫(https://twitter.com/rh1011_) 株式会社JMDC 開発本部 データ基盤開発部 医療機関データ基盤グループ マネージャー SIerにて広告配信システムの企画・開発・運用を経験。その後2015年9月から現職。 基幹システムの刷新リーダーを担当後、Webプロダクト開発のマネージメントを経験。現在は医療機関基盤Gマネージャとし

                                                                          医療機関データのオンプレ → クラウド移行にかけた1年と、6倍の効率化について - JMDC TECH BLOG
                                                                        • Data.gov Home - Data.gov

                                                                          An official website of the United States government Here's how you know The .gov means it's official. Federal government websites often end in .gov or .mil. Before sharing sensitive information, make sure you're on a federal government site. The site is secure. The https:// ensures that you are connecting to the official website and that any information you provide is encrypted and transmitted sec

                                                                          • SAP Small Business One

                                                                            Join us at SAP Sapphire on May 16-17 – in Orlando or virtually. Learn how to future-proof your business and stay one step ahead with SAP.

                                                                              SAP Small Business One
                                                                            • データ分析の「7つの進化のステップ」を今一度おさらいしてみる - 渋谷駅前で働くデータサイエンティストのブログ

                                                                              2016年最初の記事ということで、もはや1月下旬に差し掛かりつつありますがこちらでは改めて、あけましておめでとうございます&本年もよろしくお願いいたします。 で、新年一発目のお題は。。。実は似たようなお題で過去にも記事を書いていますが(笑)、年も改まったことなので今一度備忘録的におさらいしてみたいと思います。観点としては、どちらかというと「これからデータ分析のカルチャーを職場に導入していくとしたらどうやってステップアップさせていくか」みたいなところです。なお過去記事はこちら。 この辺の話題を踏まえながら、過去記事リンクのオンパレードで恐縮ですがちょっと一席やってみます。なお以下に挙げる「ステージ」はあくまでも一例であり、業界によってはもっと高度な方向に展開させられる(orもっとプリミティブなレベルに留まる)こともあるので、参考程度に見てもらえればと。 特にここでは「まだデータ分析を始めてい

                                                                                データ分析の「7つの進化のステップ」を今一度おさらいしてみる - 渋谷駅前で働くデータサイエンティストのブログ
                                                                              • JIN'S PAGE

                                                                                R、R言語、R環境・・・・・・ Rのダウンロードとインストール リンク集 題名 Chap_01 データ解析・マイニングとR言語 Chap_02 Rでのデータの入出力 Chap_03 Rでのデータの編集と演算 Chap_04 Rと基本統計量 Chap_05 Rでの関数オブジェクト Chap_06 Rでのデータの視覚化(1) Chap_07 Rでのデータの視覚化(2) Chap_08 Rでのデータの視覚化(3) Chap_09 GGobiとデータの視覚化(Rgobi) Chap_10 Rと確率分布 Chap_11 Rと推定 Chap_12 Rと検定 Chap_13 Rと分散分析 Chap_14 Rと回帰分析 Chap_15 Rと重回帰分析 Chap_16 Rと一般化線形モデル Chap_17 Rと非線形モデル Chap_18 Rと判別分析 Chap_19 Rと樹木モデル Chap_20 WEK

                                                                                • クレジットカードの利用者特定、わずか4件の利用情報から 研究

                                                                                  財布の中のクレジットカード。米フロリダ州マイアミ郊外ケンドールで(2009年3月7日撮影、資料写真)。(c)AFP/Getty Images/Joe Raedle 【1月30日 AFP】クレジットカードの利用情報わずか4件から、カード利用者の大半の身元を特定できるとした研究論文が、29日の米科学誌サイエンス(Science)に掲載された。匿名化したビッグデータでさえも、個人のプライバシー侵害に悪用される恐れがあることを示唆する結果だという。 米マサチューセッツ工科大学(Massachusetts Institute of Technology、MIT)のイブ・アレキサンダー・デモントジョイ(Yves-Alexandre de Montjoye)氏とデンマーク・オーフス大学(Aarhus University)の共同研究者らが率いるチームは、国名不明の先進工業国に住む110万人のクレジットカ

                                                                                    クレジットカードの利用者特定、わずか4件の利用情報から 研究