タグ

データに関するkoemuのブックマーク (58)

  • 「NHK全国ハザードマップ」を公開した理由 34テラバイトのデータと格闘 - NHK

    34テラバイトのデータと格闘して「全国ハザードマップ」を公開した理由 5月下旬に公開を開始したNHKの「全国ハザードマップ」。川の氾濫による洪水リスクを中心に掲載し、多くの方に活用頂いています。 ⇒「NHK全国ハザードマップ」の紹介記事はこちら 一方で、「市町村が出しているハザードマップがあれば十分だ」「リスクを網羅していない不完全なマップの公開は良くない」「NHKではなく国が取り組むべき仕事ではないか」といった意見も頂きました。 今回なぜ、このような取り組みを行ったのか。どうやってデータを収集して地図を作ったのか。詳しく説明します。 なぜ「デジタルデータ」を集めたのか? 私たちはこれまで「ハザードマップを見て下さい」という呼びかけを、テレビやラジオのニュースや番組、ネット記事、SNSなどで繰り返してきました。 なぜなら、自分の暮らす場所のリスクを知ることが、災害から命を守るスタートだから

    「NHK全国ハザードマップ」を公開した理由 34テラバイトのデータと格闘 - NHK
    koemu
    koemu 2022/06/27
    開発、特にデータの標準化過程がめっちゃ興味深い。
  • 世界各国から91名30チームが参加! メルカリ初の大型ハッカソン「Mercari Euro Hack 2018」 - mercan(メルカン)

    「データが好き」だけでは終わらせないメルカリ文化とは? 経営とプロダクトを“数字”で支えるBI×MLマネージャー対談 データドリブンになれるかどうかは、「数字に理解のあるメンバーがいるか」「数字をもとに施策を考える習慣があるか」ーー。 メルカリではプロダクトの機能改善はもちろん、経営やプロダクト成長戦略の意思決定でも「データ」を活用する文化があります。そんなメルカリをデータで支えているのが、Business Intelligence(以下BI)チームとMachine Learning(以下ML)チームです。 BIチーム・・・意思決定に必要なデータを分析し、提案する MLチーム・・・メルカリにある大量のデータをAIに学習させ、サービスの利便性や付加価値を高める 機械学習の進歩もあり、さまざまな場面で「データ活用」に注目が集まっています。そんな中、メルカリではどのようにデータを活用しているので

    世界各国から91名30チームが参加! メルカリ初の大型ハッカソン「Mercari Euro Hack 2018」 - mercan(メルカン)
    koemu
    koemu 2018/04/17
    BIは診断と方針の判断、機械学習はサービスに落とし込んで改善する。同じデータを扱う部署でもこうも違う。
  • そろそろデータサイエンティストの定義とスキルセットについて本気で考えてみる - Qiita

    データサイエンティストってなんだろう 掲題の通り、昨今色々と言われてるデータサイエンティストなる職業について考えてみる。 業界にいてもこの職種はとかく定義が曖昧で、統一的な見解がない。 まあ正直、『データサイエンティストなんて名乗りたい奴が名乗ればいーんじゃねーのぉ』という話ではあるのだが、せっかくなのでこの期に個人的な考えを書いておこうと思う。 なお、普段からデータサイエンティストについて考えている諸氏にとっては目新しいことは特に書いてないかもしれない どちらかと言えば、「データサイエンティストってどうやったらなれるんじゃい」、もしくは「流行りのデータサイエンティスト様を雇いたいけどどんな人採ればよいかのぅ」 って方々に見て欲しい記事なのでそのあたりはご了承願いたい 世間一般の見解を見てみる とりあえず世の中に既にある有名な幾つかの定義の俗説を見てみることにする。 "Data Scien

    そろそろデータサイエンティストの定義とスキルセットについて本気で考えてみる - Qiita
    koemu
    koemu 2018/03/14
    ひかるさんは図の作り方が本当に丁寧でいつも参考になる
  • 個人的に5年間のデータ分析業界見聞録をまとめてみた - 六本木で働くデータサイエンティストのブログ

    (Photo credit: https://pixabay.com/en/data-dataset-word-data-deluge-1188512/) 人工知能ブームで世間が喧しい昨今ですが、それに伴って往年に見かけたような内容のビッグデータ論やデータサイエンティスト論や機械学習システム論が再び出回るようになってきているようで、歴史は繰り返す感を覚える今日この頃です。 ということで歴史が繰り返している感を再確認すべく、これまでのデータ分析業界の5年間を僕個人が見聞してきた範囲and/or記憶している範囲and/orサーベイできる範囲で振り返ってみようと思います。ほぼ完全に個人的にして私的なヒストリーのまとめですので、公的な用途には参照されぬよう厳にお願いいたします。。。また僕の守備範囲が「広告もしくはマーケティング」であるが故にこの2領域に偏っている点もご注意ください。特に機械学習サイ

    個人的に5年間のデータ分析業界見聞録をまとめてみた - 六本木で働くデータサイエンティストのブログ
  • YAPC::Asia Tokyo 2015での発表 - Go ahead!

    YAPC::Asia Tokyo 2015 今年で最後となるYAPC::Asia Tokyoで,データ分析基盤まわりについて発表してきました.部屋は満席だったようで,聞きに来てくれた皆さん,ありがとうございました.会場はD言語erにふさわしくD会場でした. データ分析基盤を支える技術 - YAPC::Asia Tokyo 2015 これが今どきのデータ解析基盤だ!初心者のためのデータ解析講座 #yapcasia #yapcasiaD - Togetterまとめ どういう展開にしようか悩んだんですが,データ分析基盤の構築に使われる様々なソフトウェアが,どういう問題を解決するために導入されているのか,またその一方どういう問題を持っているのか,を一からデータ分析基盤を作るという流れで話していくことにしました. 既にガリガリやっている人向けではなくて,これからやろうとしている人,やってるけど現状の

  • (論文)ビッグデータを用いた経済・物価分析について : 日本銀行 Bank of Japan

    研究事例のサーベイと景気ウォッチャー調査のテキスト分析の試み 2015年6月25日 日銀行調査統計局 岡崎陽介※1 敦賀智裕※2 全文 [PDF 600KB] 要旨 近年、経済活動と情報技術IT)の結び付きが強くなるもとで、大規模かつ多種多様なデータ(「ビッグデータ」)が生成され、経済・物価分析に徐々に活用されるようになりつつある。稿では、同分野における2000年代後半以降の研究動向のうち、経済・物価動向の把握を目的としたものに注目する。そして、豊富な研究例が報告されている(1)インターネット検索データ、(2)POSデータ等のスキャンデータ、(3)テキストデータを用いたものを中心に、概要をとりまとめている。これらは、速報性・リアルタイム性の高さ、これまで定量化されてこなかった定性的な情報の活用、既存のマクロ経済指標を補完するような新たな経済指標の作成・公表等といった観点で、従来にはな

    (論文)ビッグデータを用いた経済・物価分析について : 日本銀行 Bank of Japan
  • 英国ビッグデータ4都市ロードショー「英国ビッグデータの最新動向とビジネス機会」に参加してきた | DevelopersIO

    2015/06/05(金)に、以下イベントが開催されるというので申し込み、参加してきました。海外(英国)のビッグデータ事情にに関する現在とこれからに関する内容となります。 Innovation is GREAT » Blog Archive » 英国ビッグデータ4都市ロードショー「英国ビッグデータの最新動向とビジネス機会」 開催場所は英国大使館。まぁ、普通に生活してたら来るような事は無い場所ではありますねw 英国大使館 - GOV.UK 大使館関係者の方々のスピーチを幾つかはさみ、編スタートとなりました。以下ざっくりメモです。 英国系データ関連企業との提携で感じた英国市場の可能性について 登壇:草野隆史氏(株式会社ブレインパッド 代表取締役社長(一般社団法人データサイエンティスト協会)) 課題は一様ではない。自社技術だけでニーズに応える事は不可能。 海外データ系ソフトと連携。欧州の会社も

    英国ビッグデータ4都市ロードショー「英国ビッグデータの最新動向とビジネス機会」に参加してきた | DevelopersIO
  • 分析請負人カミヤのデータエンジニア事始め

    我が社も社内データを活用して業績を高めたいのだが、さて何から手を付ければいいのか…。昨今のビッグデータ分析の盛り上がりで、さまざまな企業の方からこんな悩みを打ち明けられることがあります。それも、企業のトップ層から、事業部門や情報システム部門など現場の方まで、悩みの中身は様々です。 連載では、私がすかいらーくでの取り組みや、他のユーザー企業のデータ分析担当者との議論を通じて得られた知見を基に、データ分析を成功に導くポイントを解説します。 [8]攻めのITの典型、O2Oアプリの作り方を学ぶ データ分析でビジネスに貢献する「データエンジニア」を目指すこの連載も、この第8回をもってひとまず終了です。最終回となる今回は、ITで企業の業績を向上させる、いわゆる「攻めのIT」を取り上げます。攻めのITにおいて、データ分析の考えがいかに重要か、分析的な観点からどのようにシステムを設計するか、私が… 20

    分析請負人カミヤのデータエンジニア事始め
  • いまさら聞けないあれこれ 「古いデータをひっぱりだす」 | 三共グラフィック テクニカルサポート

    星のめぐりが巡り巡ってリバイバルムード、何の因果かネットで話題の復刻ニーズ、どこから知ったか海外からの問い合わせ。 何が起こったか、きっかけがなんなのか。 昔の製版データを引っ張りだすのにたいそうな理由は要りません。自分とこの持ち物ですからね。 理由は不要、でもそれだけでは出てこないのが仕舞い込んだデジタルデータ。 いま欲しい昔のデータ、さてどこに、どのように残っていて、そしてそれは昔と同じように使える? 今回は、古いデータを引っ張りだし、何かしら使う際の注意点について解説します。 ■そもそも読み出す機械が デジタルデータとはいえ、何かしらの物理媒体、記録メディア、いやアレですよ懐かしのMOディスクとか今でも現役CD-Rとか。古いデータはそういったモノの中にあると思います。 オンラインストレージ? たくさんのサービスが出ては消え、買収され吸収されて改名して、なかなか落ち着かない話ではありま

    いまさら聞けないあれこれ 「古いデータをひっぱりだす」 | 三共グラフィック テクニカルサポート
  • 山手線リアルタイム混雑情報で遊んでみよう

    去年から公開されてる「JR東日アプリ」ですが、機能の一つに「山手線トレインネット」というものがあります。 これは山手線の各車両の現在位置、混雑状況、室内温が見えるというもので、 座りやすい車両を探すのに便利だったりします。 山手線トレインネットから取得した車両位置と混雑率 電車の運行情報がここまで時間粒度細かく公開されているのは世界的にも珍しいので、特に目的も無しにデータをクローリングして遊んでみました。 データをクローリングする まずは山手線トレインネットの車両位置・混雑情報をクローリングします。 JR東日アプリの山手線トレインネット。 今の車両内の混雑や室内温が見える。すごい! 「山手線トレインネット」はブラウザから見えるページが存在しない、iPhone/Androidアプリ専用の画面です。 なので普段の「FirebugでAJAXの通信を見てAPIをリバースエンジニアリング」ほど簡

    山手線リアルタイム混雑情報で遊んでみよう
  • Private Presentation

    Private content!This content has been marked as private by the uploader.

    Private Presentation
  • The World Top Incomes Database

    The World Top Incomes Database, by Facundo Alvaredo, Anthony B. Atkinson, Thomas Piketty and Emmanuel Saez. There has been a marked revival of interest in the study of the distribution of top incomes. Beginning with the research by Thomas Piketty of the long-run distribution of top incomes in France, a succession of studies has constructed top income share time series over the long-run for more th

  • 絶対に描いてはいけないグラフ入りスライド24枚 -slideshare

    These slides include many inappropriate graphs. If you want to tell the summary of the data correctly, you should avoid to use graphs in this presentation. They can mislead those who view them. In English, the title of presentaion is "24 slides including graphs that should not be absolutely drawn".

    絶対に描いてはいけないグラフ入りスライド24枚 -slideshare
  • ビッグデータとIoT、日立が到達した本質:日経エレクトロニクスDigital

    この記事は日経エレクトロニクス Digital会員限定ですが、 2015年02月13日までは特別に誰でも閲覧できるようにしています。 「ビッグデータ」と「IoT」は、最近よく話題に上るが、実態は漠として捉えどころがない言葉の代表例と言える。とりわけ、どのようにして利益の上がる事業につなげていくべきかがわかりにくい。10年以上前からこの分野の研究開発に取り組んできた日立製作所は、同社自身が失敗から学んだ3つの原則があると主張する。誌と日立製作所が共同で発行する書籍「稼ぐIoT・ビッグデータ徹底解説(詳細はこちら)」から、全体の総論に当たる論文を掲載する。(誌) 日立製作所の創業陣の1人である馬場粂夫いわく、「世の中というのはものの働きと人の心でできている、両者を統合して視ていかないといけない」。もともと異種の存在である「物」と「人」をいかにして結び付けるかを格闘してきたのが、日立の歴史

    ビッグデータとIoT、日立が到達した本質:日経エレクトロニクスDigital
    koemu
    koemu 2015/01/14
    「発見:仮説に頼らず、コンピューターに業績向上策を、データから逆推定させる」
  • ドリコムを支えるデータ分析基盤 - かにぱんのなく頃に

    はじめに これは ドリコムAdventCalendar の4日目です 3日目は、@arihh さんによる 3年くらいお菓子神社運営してきた です 自己紹介 @ka_nipan ドリコムに新卒で入社し、Android開発、BtoBtoC のwebサービス開発を経て、現在は弊社アプリのログ収集から集計、可視化、その他周辺ツールといった分析基盤の面倒を見ています 日はそのデータ基盤の話を書きます データ分析基盤全体図 弊社では Hadoop をオンプレで運用していて、そこにログや分析用のデータを置いています メリット 運用コストが安い Treasure Data、Big Query、Amazon Redshift 等の外部サービスを使うよりは安く済みます 自由度が高い 各サービスには容量をはじめ色々と制限があったり、こちらの要求仕様にマッチしない部分が少なからずありますが、自前の場合その辺は融

    ドリコムを支えるデータ分析基盤 - かにぱんのなく頃に
    koemu
    koemu 2014/12/04
    「基本的に HDFS には gzip 圧縮した tsv ファイル等を置いていて、SequenceFile は置いていません」オンプレで設置するほうが良いと判断できるほどの状況なのだな…
  • The Big Data wrangling CIO you've probably never heard of: But his kit probably knows YOU

  • metrogram

    metrogram について metrogramは東京の地下鉄に関するデータ(路線/位置/時刻表などの情報)をもとに、普段見る事の出来ない人と電車の流れを視覚的にとらえるプロジェクトです。 ※ 各データは2014年9月時のを利用しており、必ずしも現状の地下鉄状況を正確にに再現している訳ではありません。 created by nulldesign.jp at 2014.09.11

    metrogram
  • 「出版不況」は本当か?--書籍まわりのニュースは嘘が多すぎる

    こんにちは、林です。ここCNET Japanではしばらくご無沙汰してしまいましたが、相変わらず電子書籍まわりで、ごにょごにょ、やっております。 6月には「なぜ電子書籍は嫌われるのか?」というセミナーをやらせていただきました。そこでも触れてるんですが、常々感じているのは「(電子)書籍まわりのニュースや記事には、ウソが多すぎる!」ということ。 「通説はこうですけど、ほんとはこうですよ」という記事を、CNET Japanでも何度か書かせていただきました。 書籍にまつわる都市伝説の真相--委託販売、再販制度は日だけなのか(1) Kindle価格の謎を解く--ジョブズの伝記はなぜ値上がりし、また値下がりしたのか なぜかわかりませんが、書籍、特に電子書籍がからむと、いつもはまともな方も、どうにも現実とずれたことを発言なさったりすることが、この数年常態化しております。 居酒屋や床屋でつぶやかれる分には

    「出版不況」は本当か?--書籍まわりのニュースは嘘が多すぎる
  • YAPC::Asia 2014に行ってきた&しゃべってきた - たごもりすメモ

    YAPC::Asia Tokyo 2014 みなさんご存知のYAPC::Asiaに出したtalk提案が採択されたので、スピーカーとして参加してきた。スケジュールを見たら2日目の一番最後の枠(LTの直前)で、なんと初めてのホールでのtalk。 1日目午後は会社でお仕事上の用事があったので参加できず、2日目朝は前日夜に死ぬほど飲んでいたので動けず、2日目午後は自分のtalk前で気もそぞろ……という感じで聞く側としてはアレだったけど、いろんな人が会場にいていろいろ話したし、面白かった。 しゃべってきた "Handling not so big data." というタイトルで、今現在における分散データ処理プラットフォームの世界はどうなっておるのか、ということをざっと概観しつつ、そういう仕事に踏み込むときには何が重要なのかについて少し話した。 Handling not so big data fro

    YAPC::Asia 2014に行ってきた&しゃべってきた - たごもりすメモ
  • 1万件以上のイベントをサポートしてきて学んだ教訓 | Doorkeeper

    Paul McMahon Doorkeeperを使って開催されたイベントは、1万件を超えています。 この経験から、どのようなイベントが成功しそうか、というデータが集まりました。ここで、私たちのプラットフォーム上で主催されたイベントの数々から学んだことを、見てみましょう。 イベントの成功のためには、様々な要素を検証する必要がありますが、Doorkeeperのデータによると、下記のとおり、と、胸を張ってお答えできるのです。 どうやって、イベント参加申込者を増やすのか? イベント参加申し込みをした人を、どうやって実際に来場させるのか? こちらを念頭に置いて、下記の私たちの学んだ教訓について、見てみましょう。 イベントについて、詳しいお知らせをすることで、参加登録者を増やしましょう イベントに参加してくれそうな人には、イベントの詳細をお知らせして、申し込みにつなげましょう。 イベントの申し込み率と

    1万件以上のイベントをサポートしてきて学んだ教訓 | Doorkeeper