[B! bigdata] yassのブックマーク

グーグルは、なぜAIエンジンをオープンソース化したのか？

yass 2015/12/06

" 「フリーソフトウェア・ムーヴメントの勝利」だとは考えなかった。彼はそれを「データの勝利」とみたのだ。"

リンク

In a recent New Yorker essay, Kyle Chayka poses a dread-inducing question: when was the last time you had fun on the internet? For his example of pure online fun, he points to a retro Flash gaming sit

yass 2015/09/12

bigdata

リンク

ビッグデータとプライバシーの将来像 - タニワキ日記

２０１４年１０月、ワシントン大学のNiel Richards法学部教授は、同大のJonathan King氏との共同論文「ビッグデータとプライバシーの将来像（Big Data and the Future for Privacy）」を発表した。示唆に富む本論文の要旨を整理してみたい（以下の内容は本稿の流れにおいて翻案している部分があるため、正確には原論文を参照していただきたい）。従来、プライバシーとは個人の秘密を保持することだと整理されてきた。しかし、現実にはプライバシーは“完全に秘密”と“すべて公開”の中間状態にある。このため、個人情報を上記の２つの状態の間のどのあたりに位置づけるのかという情報取扱いのルールをプライバシーと位置付けることが適当だとしている。つまり、プライバシーとは個人情報の取り扱いのルール（information governance）とみることができる。また、このよ

yass 2014/12/28

" ビッグデータ解析に用いられるアルゴリズムによって個人が様々な特性に応じてグルーピング化され、差別的な取扱いが行われたり、条件に合致しない個人に対して情報が提供されなくなる可能性がある。"

リンク

ビッグデータの本質はデータの大きさではない - ニューロサイエンスとマーケティングの間 - Between Neuroscience and Marketing

Leica M7, 1.4/50 Summilux, RDP III @Griffith Observatory, Los Angels, CA 残念なことに、全く忘れていて風呂に入っていたのだが、期せずして先日取材を受けたNHKスペシャルの「医療ビッグデータ」に、先ほど何秒か登場していたようだ。それでそのリアルタイム検索結果*1を見ていたのだが、そこで扱われていたデータがビッグデータかどうかというツイートが結構な量であることに驚いた。ビッグデータの特徴として3V（Volume, Variety, and Velocity）と言った言葉が広まってしまっているせいもあるだろう。（自分も時たま使ってしまうので今回反省している。）この方々の気持ちはわかるが、このブログの読者の方々ならお気付きの通り、今起こっている変革の本質はデータが巨大かどうかということではない。 ― 現在起こっている変革の

yass 2014/11/03

" 人類は10年前の約50倍の計算キャパを持っており、このままいけば10年後には10年前の2500倍もの計算キャパを持つことになる。人口は地球上の６割がたの地域ですでにプラトーに達し、むしろ減少方向にある中で、だ。"

bigdata

リンク

検索エンジンと将棋ソフトに見る計算馬力とのつきあい方 - アンカテ

Webの検索エンジンと将棋の思考エンジンは似たような経緯で発展してきている。みんながどうやって場合分けを多くするか考えていた時に、逆の方向、つまり場合分けを少なくする方法で、大きなブレイクスルーが成し遂げられた。 Web上には、ニュース、マニュアル、企業の広告やPR、個人の日記など多種多様な文書があって、それぞれ作られ方も違うし、読む人が重視する特質も違う。だから、分類や検索をするのに、ジャンルごとに違う処理が必要だと思われていた。分野を限定すれば、ある程度機械的な処理が可能かもしれないが、当面それも無理なので、手作業で良質サイトのディレクトリが作られていた。それに対し、グーグルのページランクは、全てのWeb文書を内容の区別なしにリンクのみで処理することで、機械的検索を実用化した。ここで重要なことは、文書の種類も区別しないし、文書間のリンクも、リンクする意図を一切考慮することなく全部一律

yass 2014/05/18

" 象徴的なのは、ボナンザ開発者の保木氏はそれまでの開発者と違って、将棋の初心者だったことだ / おそらく人間の抽象化能力は、ビッグデータよりずっと少ないデータ量に最適化されている "

リンク

MICの解説

だいぶ前に大学で発表したMICの解説スライドです。サイト作ってます。 http://logics-of-blue.com/

yass 2014/03/10

リンク

「ビッグデータが民主主義を壊す」のは悪くない話

「ビッグデータ産業」の育成を目指して、政府のIT総合戦略本部が2015年1月の通常国会で個人情報保護法を改正する方針を固めた。実現すれば、データを匿名化し、個人が特定できる状態に戻さないことを約束することなどを条件に、本人の同意がなくてもパーソナルデータ（現行の個人情報保護法で定義された「個人情報」よりも広い「個人に結び付く情報」を言う）を第三者に提供できるようになる。だが、最近の研究では、「匿名化できるビッグデータ」など、そもそも存在しないことが明らかになっている。たとえば、現在米FTCのチーフテクノロジストを務めるラタンヤ・スウィーニー氏のカーネギーメロン大学時代の研究によれば、年齢、性別、郵便番号の3情報だけで、米国在住の87％の個人を特定できる。また、米MITの研究者イヴス＝アレキサンダー・デモントジョイ氏とセザー・ヒダルゴ氏の研究によれば、匿名化された位置情報であっても、ある日

yass 2014/01/24

" 業界と政府はビッグデータの規制緩和でともにメリットを得られる立場にあり、国民の側に立って、プライバシーの保護を真剣に検討することは期待しにくいのだ。"

bigdata

リンク

みんなビックデータビックデータって言ってるけど名寄せとかどうしてんの？

Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)

yass 2013/10/05

bigdata

リンク

How big is a Petabyte, Exabyte, Zettabyte, or a Yottabyte? - High Scalability -

yass 2013/09/29

" 5 Exabytes: All words ever spoken by human beings. "

bigdata

リンク

BigData Counts

During work and play, many times one has to make ‘back of the envelope’ calculations. Sometimes it is hard to get a perspective on scale and various aspects of big data – numbers like millions and billions or even GB/TB/PB et al. So I have started collecting a few representative numbers that can add perspective to any calculation. Please suggest more … PetaByte vs ExaBytes vs ZettaByte vs YoottaBy

yass 2013/09/29

" Google + -> Max 15 Million visits per week / eBay adds 50 TB/day / facebook messages numbers 6 Billion/Day, 180 Billion/Month, 6 PB (without compression) / 2 PB (LZO compressed) / Amazon S3 762 Billion Objects / Tweets per day & Tweets Per Second (TPS) 15,358 TPS "

リンク

Don't use Hadoop - your data isn't that big

"So, how much experience do you have with Big Data and Hadoop?" they asked me. I told them that I use Hadoop all the time, but rarely for jobs larger than a few TB. I'm basically a big data neophite - I know the concepts, I've written code, but never at scale. The next question they asked me. "Could you use Hadoop to do a simple group by and sum?" Of course I could, and I just told them I needed t

yass 2013/09/18

" If you have a single table containing many terabytes of data, Hadoop might be a good option for running full table scans on it. If you don’t have such a table, avoid Hadoop like the plague. / Hadoop does not have any conception of indexing. Hadoop has only full table scans. "

リンク

バッドデータハンドブック

TOPICS Data Science , Database 発行年月日 2013年09月 PRINT LENGTH 310 ISBN 978-4-87311-640-2 原書 Bad Data Handbook FORMAT PDF 値の欠落、形式から外れたレコード、エンコーディング形式が不明な文字列。「バッドデータ」と聞いた時に思い浮べる典型例です。しかし、これら以外にも「そもそもデータにアクセスできない」「消えてしまった」「昨日と違っている」「データはあるが形式が処理に適していない」など、データを収集・分析するエンジニアは、これらの「バッドデータ」と正面から向きあわなければならないことが多々あります。本書では、これらの問題のあるデータのパターンを紹介し、その対処法を解説しています。 19人のデータ分析の専門家が、自らの経験を通して得た、さまざまな教訓、実践的な方法論等を詳述した本書は

yass 2013/09/11

リンク

ビッグデータはどこまで効率化できるか？

第3回ビッグデータと統計学研究集会@統計数理研究所における「ビッグデータはどこまで効率化できるか？」の資料です（2013/05/27） http://dsms.iic.hokudai.ac.jp/BIGDATA/%E7%A0%94%E7%A9%B6%E9%9B%86%E4%BC%9A/3rd/

yass 2013/05/29

リンク

ビッグデータ活用事例と技術動向& Jubatusの概要ＮＴＴソフトウェアイノベーションセンターソフトウアイションンタグループリーダ・主幹研究員木下真吾

yass 2013/05/21

リンク

6 ways big data is helping reinvent enterprise security – Old GigaOm

The advent of big data hasn’t changed the ideas behind most enterprise security practices, but it has made them better. While network security and endpoint security have always relied on the processing of files or traffic against threat databases of to determine whether they’re dangerous, big data lets them gather, store and analyze much more data. The result, in theory, are products that are more

yass 2013/02/23

リンク

ビッグデータの倫理

ビッグデータへの注目が過熱する一方、そこに含まれる個人情報の取り扱いについて、さまざまな議論や問題が巻き起こっています。本書はビッグデータを取り扱う業務に携わる読者に向けて、ビッグデータを扱う際の倫理について考え、議論を行う枠組みについて、「アイデンティティ」「プライバシー」「オーナーシップ」「信用」という4つの軸とともに紹介します。「倫理」という、個別性が高く、明快な答えの見つけづらい問題について、読者自身や組織の中で実りのある議論をする一助となるでしょう。なお本書はEbookのみの販売となります。まえがき 1章　ビッグデータのビッグインパクトなぜビッグデータなのか？ビッグデータは何を強制するのか？ビッグデータは倫理的に中立である何をすべきかを尋ねてはいけない重要な概念と用語 2章　価値と行動価値を明確に表現する価値を行動に変える倫理的判断ポイント 3章　現在の業務研

yass 2013/02/22

book
bigdata

リンク

機械学習と自然言語処理とビッグデータ - Preferred Networks Research & Development

岡野原です。情報処理学会主催の連続セミナー「ビッグデータとスマートな社会」での機械学習の回、自然言語処理の回での講演資料を公開しました。今年はビッグデータという言葉が広まったということで、このテーマで話す機会が多かったです。今はビッグデータというとそれを支えるインフラ、クラウド、DBなどがまず注目されていますが、我々としては実際それを使って何をするのか、何が実現できるのかというところを注目しています。 PFIは元々こうしたデータを分析して価値を提供する（検索エンジンとかもその範疇に入ると思います）ことをずっと続けてきたわけですが、ビッグデータという言葉が広まってくれたおかげでこの考えがより受け入れられ様々な業界の方と随分と話がしやすくなったと思います。以下の講演資料では、今ビッグデータの中でも機械学習と自然言語処理の分野において我々がどこに注目しているのかを話をしました。

yass 2012/12/26

リンク

A programmer’s guide to big data: 12 tools to know – Old GigaOm

Over the past year, I’ve seen a lot of startups, projects and tools that aim to bring fairly advanced analytic capabilities to programmers. Sometimes they do this by enabling simple scripts that result in powerful dashboards or processes, while other times they just deliver the data in an easy-to-consume manner with little work at all on the developer’s part. I think this is a meaningful trend. In

yass 2012/12/19

リンク

データ解析基盤を構築する前に考慮すべきポイント - still deeper

概要ここしばらく某社でデータの解析基盤を構築する仕事に携わっています。一からの構築になるので打てる手が多く楽しい一方で、適切な判断を下すのは難しいと実感しています。解析基盤というのはもちろん解析を行うためのものですので、どう解析を行うかによってどういう基盤を構築していけばよいかが決まります。ところで、データ（構造や収めているDBなども含めて）というのは寿命の長いもので、初期の設計を間違えてしまうと、その時点で戦略的な敗北は決まってしまいます。その後は運用しながら変更可能なところでゲリラ的に対応していくしか手を打てません。そのため、実際に構築を行う前に、求められている解析がどのようなものかを十分に吟味した上で、適切なハードウェア、ミドルウェア、データ構造を選択し基盤を構築していくことが大変重要です。着目すべき点では解析のどのような点に着目すればよいかというと、私は次の5点を考えて

yass 2012/11/14

リンク

ビッグデータとプライバシーについて | 栗原潔のIT弁理士日記

DISCLAIMER：私はプライバシー分野はもちろん一応の勉強はしていますが、必ずしもコアな専門領域というわけではないのでBest Effortベースで書いています。もっと詳しい方からのコメントを期待します。 IBMの「ビッグデータ」担当の人が日経ITProのインタビュー記事で「ビッグデータ」の応用として通話履歴（CDR）を使ってソーシャルグラフを作るというような事例を挙げたのに対して「それは通信の秘密に反する違法行為ではないか」ということで、twitter界隈を中心にプチ炎上的な状況になっています（参考togetter）。そもそも、「ビッグデータ」と言う言葉が出る前から通話履歴情報の分析はデータウェアハウスの重要応用分野でした。通話履歴の分析がいっさいできないということであれば容量計画もできないですし料金の設定もできません。過去にこの手のデータウェアハウス・アプリケーションについて

yass 2012/02/18

リンク

はてなブックマーク

タグ

関連タグで絞り込む (25)

bigdataに関するyassのブックマーク (25)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス