Project Amberの文脈 サイズの小さいアプリケーションも扱うようになった。 システム全部をJavaで作る訳じゃなくなった オブジェクトではなく、データをやり取りするようになった。 そこでプレーンデータをモデル化し、処理するより良い方法が必要 代数データ型 (Record, switch式, sealed)
「データ指向アプリケーションデザイン」をベースに、24時間365日動き続けるデータシステムを実装する際に必要となる技術や考え方を紹介します。 この資料は、2023年大阪大学大学院 情報科学科 マルテメディア工学特別講義で使われた資料を一般用に修正して公開しています。 参考: 「30分でわかるデータベースデザイン」https://speakerdeck.com/xerial/30fen-dewakarudetazhi-xiang-apurikesiyondezain-data-engineering-study-number-18
34テラバイトのデータと格闘して「全国ハザードマップ」を公開した理由 5月下旬に公開を開始したNHKの「全国ハザードマップ」。川の氾濫による洪水リスクを中心に掲載し、多くの方に活用頂いています。 ⇒「NHK全国ハザードマップ」の紹介記事はこちら 一方で、「市町村が出しているハザードマップがあれば十分だ」「リスクを網羅していない不完全なマップの公開は良くない」「NHKではなく国が取り組むべき仕事ではないか」といった意見も頂きました。 今回なぜ、このような取り組みを行ったのか。どうやってデータを収集して地図を作ったのか。詳しく説明します。 なぜ「デジタルデータ」を集めたのか? 私たちはこれまで「ハザードマップを見て下さい」という呼びかけを、テレビやラジオのニュースや番組、ネット記事、SNSなどで繰り返してきました。 なぜなら、自分の暮らす場所のリスクを知ることが、災害から命を守るスタートだから
東京の多摩川沿いの浸水リスクがある地域で、「なぜか人口が増えている」ことをデータ分析ソフトを使って明らかにして、その背景を探りました。 次にこんな記事も書きました。 南海トラフ巨大地震によって津波の浸水が想定されている区域で、高齢者の施設がすごく増えていることを示した記事です。 どちらの記事も、誰もが入手できる「オープンデータ」と、後述する「GIS」という分析システムを使って隠れた事実を浮き彫りにした、データジャーナリズムのお手本などと紹介されたこともあります。 そしてつい最近手がけたのがNHKスペシャル「〝津波浸水域〟の高齢者施設」。蓄積してきた分析のノウハウを注ぎ込んだ番組です。 「データ分析」というと専門的で、すごく難しく思う方もいるかもしれません。しかし最初に述べたように私は数年前までは、パソコンを満足に使えない、データ分析とは無縁の「ガラケー記者」だったのです。本当に。 そんな私
Treasure Dataは、2011年に芳川裕誠氏、太田一樹氏、古橋貞之氏の3名がシリコンバレーで創業したビッグデータ分析企業。2018年8月、ソフトバンクグループ傘下のコンピュータチップ設計企業ARMが、約6億ドル(約660億円)で同社を買収したニュースは記憶に新しい。Treasure Dataの元CTOで現取締役の太田一樹氏に、学生時代から創業までの経緯や、グローバルスタートアップとして成長するプロセス、ARMとのM&Aの裏側などについて聞いた。(前編:日本人CTOがシリコンバレーで25歳で起業し、660億円で買収されるまでの道のり) ※インタビューシリーズ「シリコンバレーから日本を考える」では、櫛田健児氏(スタンフォード大学ジャパン・プログラム リサーチスカラー)がシリコンバレーの企業・スペシャリストにインタビューし、日本の未来・可能性について掘り下げます。 <目次> ・一番大きな
最近、Game-i というサイトのデータを使ってスマホゲームの売上を語る SNS 上の会話や、ニュースを見ることがある。そのサイトの売上データは業界的に信頼度が低いことで有名だと思っていたが、一般ではかなり信じている人もいて、ゲームの行く末を考える指標にしている人もいるようだ。いやいやいや、あれは指標にするのも良くないデータで、とんでもないことだ。 よって、今回は Game-i というサイトの売上データは信用できないし、これを元に会話することでゲーム会社に被害を与える可能性があるので利用しない方が良い。また、それをデータとして引用するニュースサイト、動画配信主はリテラシーが低いことが透けて見えるのでやめた方が良いという話をここに書いておく。また、同時に比較的信頼度の高い情報を得る方法もここに書くので参考にして欲しい。 本来、正確な売上データは極秘で、非常に多くの要因で変化するために予測も難
アル(https://alu.jp)というマンガサービスを作っている、けんすうと申します。 最近、マンガ新検索MNMという、イケてるサービスを作りました。 何かというと、マンガを入れると、読んでいる人が同じデータから、「だいたいこのマンガが好きな人はこんなマンガも好き」という、「距離が近いマンガ」を出してくれるというものです。 たとえば、「ドリフターズ」と入れると「HELLSING」「ヨルムンガンド」「ゴールデンカムイ」とでました。 お陰様で、結構バズりまして、いろいろなところで話題にしていただいたのです。 こういうの待ってたし、実際にやってみたら本当に好きな漫画ばかり出てきて精度もピカイチ。 「近いマンガ」がわかるマンガ新検索 MangaNearestMap #アル https://t.co/YoYhHttYus @alu_incより — なかみち (@shuhei_nakami) Ju
大学院に入ったばかりの頃、配属された研究室で研修を受けた。 僕は先輩について回って、実験機器を使ってみたり、実験ノートのとり方を教えてもらったりした。 ある日、先輩が先生たちとミーティングをするというので見学させてもらった。 そのときのことは今でもよく覚えている。 最初に、先輩が実験でとれたデータについて説明した。 先輩の堂々とした説明を聞いて、僕はとても感銘を受けた。 ふんふんとうなずきながら、はたして自分はこんなふうに説明できるだろうか(いや、できない)と思っていた。 でも先輩の説明が終わったとき、 「なんか変だね」 と助教さんが言った。そして、 「普通はこうなるはずなんだけど」 と、他のデータとの違いを指摘した。 先輩と僕は他のデータを知らなかったから、そこが変だと気がつかなかった。 なぜこのデータは変なんだろうねと、皆でうんうん考えていると、 「3次元でグラフを描いてみて」 と先生
このデータは「年齢」「性別」「居住県」において2−匿名性を達成している。なぜならば、これらの属性の組み合わせではどの組み合わせにおいても2人以上になるためである。どの準識別子の組み合わせでも、k-匿名性を満たすデータセットにおいてはk人以上のレコードが該当する[6]。 MeyersonとWilliamsは2004年に最適なk-匿名化はNP困難な問題であることを示したが、2005年にBayardo、Agrawalにより示されたk-最適化のようなヒューリスティックな解法はしばしば良い結果を生み出す[7][8]。 概ねO(log k)の計算量であるという証明のある、k-匿名化問題を解くことができる実用的な近似アルゴリズムがKenigとTassaによって示された[9]。 警鐘[編集] k-匿名化はランダム性を含まないため、攻撃者は個人に対して害意のある推測が可能である。たとえば19歳の愛知県在住の
im@sparql im@s + sparql = im@sparql 広がるアイマスワールドをオープンデータ化 WebやアプリからSPARQLで検索・利用可能なエンドポイント Update Try Input Query PREFIX schema: <http://schema.org/> PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> PREFIX imas: <https://sparql.crssnky.xyz/imasrdf/URIs/imas-schema.ttl#> PREFIX imasrdf: <https://sparql.crssnky.xyz/imasrdf/RDFs/detail/> PREFIX foaf: <http://xmlns.com/foaf/0.1/> PREFIX math: <
米Walt Disney Animation Studiosが、ディズニーのアニメ映画「モアナと伝説の海」に登場する島の3DCGデータアセットを無償公開。研究開発に役立ててほしいという。 米Walt Disney Animation Studiosはこのほど、ディズニーのアニメ映画「モアナと伝説の海」(2016年)に登場する架空の島「モトヌイ島」の3DCGデータアセットを無償公開した。研究目的やソフトウェア開発用途に限り自由に使える。 公開されたデータには、島に生息する木や植物、岩、海、海中生物、雲などを含む150億以上の要素が含まれているという。島全体を静止画として書き出すために必要なデータだけで約45GB、アニメーションとして動かす場合に必要なファイルはさらに約24GBにも上る。 データのライセンス要項、アイテムごとの解説などは、同時に公開されたReadMe(PDF)から確認できる。
本日4月22日13時~17時まで、千代田区一ツ橋の学術総合センターで、「著作権侵害サイトのブロッキング要請に関する緊急提言シンポジウム」が開催されています。この中でブロガー、著作家の山本一郎さんが登壇し、海賊版漫画サイトの「漫画村」についての調査結果を語りました。 以下、やまもといちろうさんによるスライド 山本一郎さんによると、「漫画村」は2017年11月時点で月間6000万円前後の売上があったと推測。収入源の1つはサイトに掲載されている広告で、最も売上として大きかったのは“大手アダルトサイトD社”(山本一郎さんいわく「アダルト系でDがつく会社というとあまり多くはないと思われますが」とのこと)からの月間売上約350万円。掲載頻度が20%に設定されており、アドネットワークでの月間売上はおよそ1900万円とのこと。 海賊版サイトの主な収入について 「漫画村」の場合。月間6000万円前後の売り上
カップルが「別れやすい時期」はいつなのか? カップルアプリ「Between」データ検証でわかった「生死のシーズン」と女性から「別れるボタン」押す事実 カップルアプリ「Between」さんを取材しました。データが示すカップルが「別れるシーズン」と「付き合うシーズン」の傾向とは? ※株式会社 VCNC Japan 平野賢さん。 カップルアプリ「Between」について 「Between」について教えてください。 カップル専用のコミュニケーションアプリです。チャット・アルバム・カレンダーなどの機能で、2人の思い出を記録することができます。 ダウンロード数としては、アジアを中心に世界2,000万ダウンロードを超えています。※日本でのOS比率は「iOS 70:Android 30」 アプリの継続率については、アカウント接続(アクティベート)をベースにして、3日間で約70%・1ヶ月で約50%の方が、継
セ・リーグの下位が常連だったチームを2年連続のAクラスに導き、昨シーズンは日本シリーズにも進出した。躍進の背景には徹底的なデータ活用がある。データに基づく采配と、選手のやる気を引き出すマネジメント術の勘所を横浜DeNAベイスターズ監督のアレックス・ラミレス氏に聞いた。 データ活用を積極的にしていると聞きます。改めて、その理由を教えてください。 監督として重要なのは、プラン、ルーティン、戦略だと思っています。この3つをすべて選手のプレーに活かすことこそが、成功する監督の条件ともいえるでしょう。野球はアウトを取るだけのスポーツではありません。ゲームプランを組み立てることが必要であり、そのためのプラン、ルーティン、戦略が必要なのです。 データから学び、分析し、試合前に準備しておく。どんな状況でも対応できるようにしておくことが監督としての役割であり、ひいては監督と選手の成功につながります。 メディ
よく忘れる/間違えるのでメモ。 混同行列 (confusion matrix) データの分類で、うまくできた・できなかった回数を数えた表。 たとえば入力データから異常を発見してアラートを出したいとかいう時には、 この表の行や列はそれぞれ添え書きのような意味合いを持つ。
こんにちは、Cygames Research の多胡です。これまで10年以上コンソールゲーム開発を行ってきていて、最近ではハイエンドゲームエンジンを制作しておりました。Cygames でもハイエンドゲームエンジンの開発に携わることになりました。 ゲームエンジン開発を行う上で重要な考え方にデータ指向設計 (Data Oriented Design) というものがあります。今回はこのデータ指向設計を例を交えながら紹介させていただきます。 背景 データ指向設計の考え方は 2009年頃から有名になりました。 この 30年で CPU の性能は1万倍以上になりましたが、メモリの転送速度は10倍にもなっていません。そのため、プログラムのボトルネックはメモリ帯域となることが多くなりました。ゲームにおいても CPU はほとんどの時間がメモリからのデータの転送待ちになっています。CPU の性能を引き出すために
初めまして、新卒入社の桑折(@2k0ri)と申します。 入社から今日まで約3ヶ月間、研修およびOJTを受けさせて頂いておりました。 その初OJTのステージング環境で、デプロイ先ディレクトリのシンボリックリンクを消すつもりが デプロイディレクトリを中身ごとrm -rfする という重度のやらかしをしでかしました。 30秒うちひしがれた後、ググって extundeleteというコマンドを見つけてからの 自分が行ったリカバリーの手順を残します。 なお、このコマンドはext3/ext4フォーマット専用になります。 1. サーバーへのアクセスを出来る限り抑えるように周知 最近のLinuxのデファクトFSであるext4フォーマットは、rmされたデータの跡地に 待ったなしで容赦なく新しいデータが書き込まれていきます。 そのため、何よりもまず失われたデータが上書きされないように、 該当サーバーでやらかしたこ
世界中で話題になっているパナマ文書。各国で政権を揺るがすような事態にもなっていますが、純粋にデータとしてみた場合、これは計算機やデータ解析に関わる人々にも面白いものだと思います。データの中身や背景などについてはさんざん報道されていますのでここでは触れません。一方、現場でどのような作業が行われているのかはあまり報道されていません。現実的な問題として、人力ではどうしようもない量のリークデータを手に入れた場合、調査報道機関はどんなことを行っているのでしょうか?私も以前から疑問に思っていたのですが、先日あるデータベース企業と、データ分析アプリケーションを作成する会社のブログにて、その実際の一端を窺うことができる投稿がありました: Panama Papers: How Linkurious enables ICIJ to investigate the massive Mossack Fonseca
社員の生産性を極限まで高めるには、どうすればいいのか――米グーグルが2012年に開始した労働改革プロジェクトの全貌が明らかになった。 社員同士のコミュニケーションを中心に、その仕事ぶりを徹底的に観察するワーク・モニタリングは、果たして功を奏したのだろうか? ●"What Google Learned From Its Quest to Build the Perfect Team" The New York Times, FEB. 25, 2016 プロジェクト・アリストテレスとは 上の記事によれば、米グーグル(持ち株会社に移行後の正式社名は「アルファベット」)は2012年に生産性向上計画に着手した。 この計画は「プロジェクト・アリストテレス(Project Aristotle)」と呼ばれ、同社の「人員分析部(People Analytics Operation)」によって実施された。 グ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く