[B! データ] skypenguinsのブックマーク

skypenguins id:skypenguins

データに関するskypenguinsのブックマーク (38)

データ指向プログラミングの真実をお話しします
Project Amberの文脈サイズの小さいアプリケーションも扱うようになった。システム全部をJavaで作る訳じゃなくなったオブジェクトではなく、データをやり取りするようになった。そこでプレーンデータをモデル化し、処理するより良い方法が必要代数データ型 (Record, switch式, sealed)
skypenguins 2023/11/11
クラスじゃなくて型の時代…つまりJuliaの時代ってことですね

プログラミング

データ
リンク
24時間365日動き続けるデータシステムの設計手法 : 「データ指向アプリケーションデザイン」実践編
「データ指向アプリケーションデザイン」をベースに、24時間365日動き続けるデータシステムを実装する際に必要となる技術や考え方を紹介します。この資料は、2023年大阪大学大学院情報科学科マルテメディア工学特別講義で使われた資料を一般用に修正して公開しています。参考：「30分でわかるデータベースデザイン」https://speakerdeck.com/xerial/30fen-dewakarudetazhi-xiang-apurikesiyondezain-data-engineering-study-number-18
skypenguins 2023/10/15
劔の解説あるやん

データ

データベース
リンク
「NHK全国ハザードマップ」を公開した理由 34テラバイトのデータと格闘 - NHK
34テラバイトのデータと格闘して「全国ハザードマップ」を公開した理由 5月下旬に公開を開始したNHKの「全国ハザードマップ」。川の氾濫による洪水リスクを中心に掲載し、多くの方に活用頂いています。 ⇒「NHK全国ハザードマップ」の紹介記事はこちら一方で、「市町村が出しているハザードマップがあれば十分だ」「リスクを網羅していない不完全なマップの公開は良くない」「NHKではなく国が取り組むべき仕事ではないか」といった意見も頂きました。今回なぜ、このような取り組みを行ったのか。どうやってデータを収集して地図を作ったのか。詳しく説明します。なぜ「デジタルデータ」を集めたのか？私たちはこれまで「ハザードマップを見て下さい」という呼びかけを、テレビやラジオのニュースや番組、ネット記事、SNSなどで繰り返してきました。なぜなら、自分の暮らす場所のリスクを知ることが、災害から命を守るスタートだから
skypenguins 2022/06/26
前処理がドメイン知識もいるし一番泥臭くて大変という話

データ

行政

社会

災害
リンク
ガラケーしか使えないデジタル音痴だった私が「GISでデータ分析」できるようになるまでの話｜NHK取材ノート
東京の多摩川沿いの浸水リスクがある地域で、「なぜか人口が増えている」ことをデータ分析ソフトを使って明らかにして、その背景を探りました。次にこんな記事も書きました。南海トラフ巨大地震によって津波の浸水が想定されている区域で、高齢者の施設がすごく増えていることを示した記事です。どちらの記事も、誰もが入手できる「オープンデータ」と、後述する「GIS」という分析システムを使って隠れた事実を浮き彫りにした、データジャーナリズムのお手本などと紹介されたこともあります。そしてつい最近手がけたのがNHKスペシャル「〝津波浸水域〟の高齢者施設」。蓄積してきた分析のノウハウを注ぎ込んだ番組です。「データ分析」というと専門的で、すごく難しく思う方もいるかもしれません。しかし最初に述べたように私は数年前までは、パソコンを満足に使えない、データ分析とは無縁の「ガラケー記者」だったのです。本当に。そんな私
skypenguins 2022/03/17
さすが社会部の記者や

データ

NHK

地図

地理
リンク
日本人起業家が大型M&A後に描く次のビジョン「今35歳。あと2、3周は何かにチャレンジしたい」
Treasure Dataは、2011年に芳川裕誠氏、太田一樹氏、古橋貞之氏の3名がシリコンバレーで創業したビッグデータ分析企業。2018年8月、ソフトバンクグループ傘下のコンピュータチップ設計企業ARMが、約6億ドル（約660億円）で同社を買収したニュースは記憶に新しい。Treasure Dataの元CTOで現取締役の太田一樹氏に、学生時代から創業までの経緯や、グローバルスタートアップとして成長するプロセス、ARMとのM&Aの裏側などについて聞いた。（前編：日本人CTOがシリコンバレーで25歳で起業し、660億円で買収されるまでの道のり） ※インタビューシリーズ「シリコンバレーから日本を考える」では、櫛田健児氏（スタンフォード大学ジャパン・プログラムリサーチスカラー）がシリコンバレーの企業・スペシャリストにインタビューし、日本の未来・可能性について掘り下げます。＜目次＞・一番大きな
skypenguins 2021/04/01
起業

データ

インタビュー
リンク
Game-iというサイトの売上情報が不正確で信頼できない理由と、信頼できる売上情報を知る方法の紹介 - ゲームキャスト
最近、Game-i というサイトのデータを使ってスマホゲームの売上を語る SNS 上の会話や、ニュースを見ることがある。そのサイトの売上データは業界的に信頼度が低いことで有名だと思っていたが、一般ではかなり信じている人もいて、ゲームの行く末を考える指標にしている人もいるようだ。いやいやいや、あれは指標にするのも良くないデータで、とんでもないことだ。よって、今回は Game-i というサイトの売上データは信用できないし、これを元に会話することでゲーム会社に被害を与える可能性があるので利用しない方が良い。また、それをデータとして引用するニュースサイト、動画配信主はリテラシーが低いことが透けて見えるのでやめた方が良いという話をここに書いておく。また、同時に比較的信頼度の高い情報を得る方法もここに書くので参考にして欲しい。本来、正確な売上データは極秘で、非常に多くの要因で変化するために予測も難
skypenguins 2021/03/09
特にYouTube動画やアフィサイトなんかは広告収入のためにそれっぽい数字で煽ることが目的だから指摘したところで無駄だよなという諦観はある

データ

ゲーム

業界
リンク
データが必要なサービスを、無理やり作る方法を紹介します(例：マンガ検索「MNM」)｜けんすう
アル(https://alu.jp)というマンガサービスを作っている、けんすうと申します。最近、マンガ新検索MNMという、イケてるサービスを作りました。何かというと、マンガを入れると、読んでいる人が同じデータから、「だいたいこのマンガが好きな人はこんなマンガも好き」という、「距離が近いマンガ」を出してくれるというものです。たとえば、「ドリフターズ」と入れると「HELLSING」「ヨルムンガンド」「ゴールデンカムイ」とでました。お陰様で、結構バズりまして、いろいろなところで話題にしていただいたのです。こういうの待ってたし、実際にやってみたら本当に好きな漫画ばかり出てきて精度もピカイチ。「近いマンガ」がわかるマンガ新検索 MangaNearestMap #アル https://t.co/YoYhHttYus @alu_incより — なかみち (@shuhei_nakami) Ju
skypenguins 2020/07/22
著作権法上は合法だけど、意図的にステマ紛いのことしてデータ収集するのは、あんまり誠実なやり方とは思えんな…

データ

企画

webサービス
リンク
人は知ってることしか見えない - いつか博士になる人へ
大学院に入ったばかりの頃、配属された研究室で研修を受けた。僕は先輩について回って、実験機器を使ってみたり、実験ノートのとり方を教えてもらったりした。ある日、先輩が先生たちとミーティングをするというので見学させてもらった。そのときのことは今でもよく覚えている。最初に、先輩が実験でとれたデータについて説明した。先輩の堂々とした説明を聞いて、僕はとても感銘を受けた。ふんふんとうなずきながら、はたして自分はこんなふうに説明できるだろうか（いや、できない）と思っていた。でも先輩の説明が終わったとき、「なんか変だね」と助教さんが言った。そして、「普通はこうなるはずなんだけど」と、他のデータとの違いを指摘した。先輩と僕は他のデータを知らなかったから、そこが変だと気がつかなかった。なぜこのデータは変なんだろうねと、皆でうんうん考えていると、「３次元でグラフを描いてみて」と先生
skypenguins 2020/06/29
♪ 見えないものを見ようとして〜

言葉

データ
リンク
日本の都市の人口推移(1873年～2015年)を動くグラフにまとめた様子がとても興味深い「首都圏の集中エグすぎる」「歴史が見えてくる」
ムギタロー @mugitaro_comics 東大の友人がデータかき集めて作成した日本の都市の人口推移(1873-2015) です面白え… 近年の首都圏の人口集中エグすぎる… 日本大丈夫かよ… pic.twitter.com/sKa532j3Td 2019-12-06 00:02:23
skypenguins 2019/12/07
棒グラフを動画にするやつYouTubeでも流行ってるよなあ

データ

統計
リンク
k-匿名性 - Wikipedia
このデータは「年齢」「性別」「居住県」において2−匿名性を達成している。なぜならば、これらの属性の組み合わせではどの組み合わせにおいても2人以上になるためである。どの準識別子の組み合わせでも、k-匿名性を満たすデータセットにおいてはk人以上のレコードが該当する[6]。 MeyersonとWilliamsは2004年に最適なk-匿名化はNP困難な問題であることを示したが、2005年にBayardo、Agrawalにより示されたk-最適化のようなヒューリスティックな解法はしばしば良い結果を生み出す[7][8]。概ねO(log k)の計算量であるという証明のある、k-匿名化問題を解くことができる実用的な近似アルゴリズムがKenigとTassaによって示された[9]。警鐘[編集] k-匿名化はランダム性を含まないため、攻撃者は個人に対して害意のある推測が可能である。たとえば19歳の愛知県在住の
skypenguins 2018/12/03
プライバシー

データ
リンク
im@sparql
im@sparql im@s + sparql = im@sparql 広がるアイマスワールドをオープンデータ化 WebやアプリからSPARQLで検索・利用可能なエンドポイント Update Try Input Query PREFIX schema: <http://schema.org/> PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> PREFIX imas: <https://sparql.crssnky.xyz/imasrdf/URIs/imas-schema.ttl#> PREFIX imasrdf: <https://sparql.crssnky.xyz/imasrdf/RDFs/detail/> PREFIX foaf: <http://xmlns.com/foaf/0.1/> PREFIX math: <
skypenguins 2018/07/15
そこは「M@STER SPARQL」にしようぜ

データ

アイマス

API

データベース
リンク
ディズニー、アニメ映画の3DCGデータを無償公開　“モアナの島”丸ごと約45GB分　研究用途に期待
米Walt Disney Animation Studiosが、ディズニーのアニメ映画「モアナと伝説の海」に登場する島の3DCGデータアセットを無償公開。研究開発に役立ててほしいという。米Walt Disney Animation Studiosはこのほど、ディズニーのアニメ映画「モアナと伝説の海」（2016年）に登場する架空の島「モトヌイ島」の3DCGデータアセットを無償公開した。研究目的やソフトウェア開発用途に限り自由に使える。公開されたデータには、島に生息する木や植物、岩、海、海中生物、雲などを含む150億以上の要素が含まれているという。島全体を静止画として書き出すために必要なデータだけで約45GB、アニメーションとして動かす場合に必要なファイルはさらに約24GBにも上る。データのライセンス要項、アイテムごとの解説などは、同時に公開されたReadMe（PDF）から確認できる。
skypenguins 2018/07/07
この規模のCGをレンダリング出来る計算資源がない…

3DCG

ディズニー

データ
リンク
「漫画村」月間売上は6000万前後、利用者データを販売？　サイトブロッキングシンポで調査結果が発表される
本日4月22日13時～17時まで、千代田区一ツ橋の学術総合センターで、「著作権侵害サイトのブロッキング要請に関する緊急提言シンポジウム」が開催されています。この中でブロガー、著作家の山本一郎さんが登壇し、海賊版漫画サイトの「漫画村」についての調査結果を語りました。以下、やまもといちろうさんによるスライド山本一郎さんによると、「漫画村」は2017年11月時点で月間6000万円前後の売上があったと推測。収入源の1つはサイトに掲載されている広告で、最も売上として大きかったのは“大手アダルトサイトD社”（山本一郎さんいわく「アダルト系でDがつく会社というとあまり多くはないと思われますが」とのこと）からの月間売上約350万円。掲載頻度が20％に設定されており、アドネットワークでの月間売上はおよそ1900万円とのこと。海賊版サイトの主な収入について「漫画村」の場合。月間6000万円前後の売り上
skypenguins 2018/04/23
著作権

セキュリティ

広告

データ

Web
リンク
カップルが「別れやすい時期」はいつなのか？カップルアプリ「Between」データ検証でわかった「生死のシーズン」と女性から「別れるボタン」押す事実 | アプリマーケティング研究所
カップルが「別れやすい時期」はいつなのか？カップルアプリ「Between」データ検証でわかった「生死のシーズン」と女性から「別れるボタン」押す事実カップルアプリ「Between」さんを取材しました。データが示すカップルが「別れるシーズン」と「付き合うシーズン」の傾向とは？ ※株式会社 VCNC Japan 平野賢さん。カップルアプリ「Between」について「Between」について教えてください。カップル専用のコミュニケーションアプリです。チャット・アルバム・カレンダーなどの機能で、2人の思い出を記録することができます。ダウンロード数としては、アジアを中心に世界2,000万ダウンロードを超えています。※日本でのOS比率は「iOS 70：Android 30」アプリの継続率については、アカウント接続（アクティベート）をベースにして、3日間で約70％・1ヶ月で約50％の方が、継
skypenguins 2018/04/19
データ

アプリ

恋愛

インタビュー
リンク
数字は嘘をつかない、DeNAラミレス監督が語るデータ活用の流儀
セ・リーグの下位が常連だったチームを2年連続のAクラスに導き、昨シーズンは日本シリーズにも進出した。躍進の背景には徹底的なデータ活用がある。データに基づく采配と、選手のやる気を引き出すマネジメント術の勘所を横浜DeNAベイスターズ監督のアレックス・ラミレス氏に聞いた。データ活用を積極的にしていると聞きます。改めて、その理由を教えてください。監督として重要なのは、プラン、ルーティン、戦略だと思っています。この3つをすべて選手のプレーに活かすことこそが、成功する監督の条件ともいえるでしょう。野球はアウトを取るだけのスポーツではありません。ゲームプランを組み立てることが必要であり、そのためのプラン、ルーティン、戦略が必要なのです。データから学び、分析し、試合前に準備しておく。どんな状況でも対応できるようにしておくことが監督としての役割であり、ひいては監督と選手の成功につながります。メディ
skypenguins 2018/04/07
野球

データ

統計

データサイエンス
リンク
混同しやすい混同行列 : baru-san.net
よく忘れる/間違えるのでメモ。混同行列 (confusion matrix) データの分類で、うまくできた・できなかった回数を数えた表。たとえば入力データから異常を発見してアラートを出したいとかいう時には、この表の行や列はそれぞれ添え書きのような意味合いを持つ。
skypenguins 2018/03/26
偽陰性

データ

クラス分類
リンク
データ指向設計
こんにちは、Cygames Research の多胡です。これまで10年以上コンソールゲーム開発を行ってきていて、最近ではハイエンドゲームエンジンを制作しておりました。Cygames でもハイエンドゲームエンジンの開発に携わることになりました。ゲームエンジン開発を行う上で重要な考え方にデータ指向設計 (Data Oriented Design) というものがあります。今回はこのデータ指向設計を例を交えながら紹介させていただきます。背景データ指向設計の考え方は 2009年頃から有名になりました。この 30年で CPU の性能は1万倍以上になりましたが、メモリの転送速度は10倍にもなっていません。そのため、プログラムのボトルネックはメモリ帯域となることが多くなりました。ゲームにおいても CPU はほとんどの時間がメモリからのデータの転送待ちになっています。CPU の性能を引き出すために
skypenguins 2016/07/21
キャッシュ

データ

プログラミング

データ指向設計
リンク
rm -rf でやらかした時すかさず実行する復元コマンド(Linux編) | aucfan Engineers' blog
初めまして、新卒入社の桑折(@2k0ri)と申します。入社から今日まで約３ヶ月間、研修およびOJTを受けさせて頂いておりました。その初OJTのステージング環境で、デプロイ先ディレクトリのシンボリックリンクを消すつもりがデプロイディレクトリを中身ごとrm -rfするという重度のやらかしをしでかしました。 30秒うちひしがれた後、ググって extundeleteというコマンドを見つけてからの自分が行ったリカバリーの手順を残します。なお、このコマンドはext3/ext4フォーマット専用になります。 1. サーバーへのアクセスを出来る限り抑えるように周知最近のLinuxのデファクトFSであるext4フォーマットは、rmされたデータの跡地に待ったなしで容赦なく新しいデータが書き込まれていきます。そのため、何よりもまず失われたデータが上書きされないように、該当サーバーでやらかしたこ
skypenguins 2016/04/10
コマンド

Linux

データ

デプロイ

復旧
リンク
「パナマ文書」解析の技術的側面
世界中で話題になっているパナマ文書。各国で政権を揺るがすような事態にもなっていますが、純粋にデータとしてみた場合、これは計算機やデータ解析に関わる人々にも面白いものだと思います。データの中身や背景などについてはさんざん報道されていますのでここでは触れません。一方、現場でどのような作業が行われているのかはあまり報道されていません。現実的な問題として、人力ではどうしようもない量のリークデータを手に入れた場合、調査報道機関はどんなことを行っているのでしょうか？私も以前から疑問に思っていたのですが、先日あるデータベース企業と、データ分析アプリケーションを作成する会社のブログにて、その実際の一端を窺うことができる投稿がありました: Panama Papers: How Linkurious enables ICIJ to investigate the massive Mossack Fonseca
skypenguins 2016/04/10
パナマ文書

技術

データ

解析
リンク
グーグルが突きとめた！社員の「生産性」を高める唯一の方法はこうだ（小林雅一） @gendai_biz
社員の生産性を極限まで高めるには、どうすればいいのか――米グーグルが2012年に開始した労働改革プロジェクトの全貌が明らかになった。社員同士のコミュニケーションを中心に、その仕事ぶりを徹底的に観察するワーク・モニタリングは、果たして功を奏したのだろうか？ ●"What Google Learned From Its Quest to Build the Perfect Team"　The New York Times, FEB. 25, 2016 プロジェクト・アリストテレスとは上の記事によれば、米グーグル（持ち株会社に移行後の正式社名は「アルファベット」）は2012年に生産性向上計画に着手した。この計画は「プロジェクト・アリストテレス（Project Aristotle）」と呼ばれ、同社の「人員分析部（People Analytics Operation）」によって実施された。グ
skypenguins 2016/03/11
コミュニケーション

データ

google

ビジネス

会社

労働

心理
リンク
1 2 次のページ