サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
GPT-4o
qiita.com/KanNishida
パワポのスライドと箇条書きが人間を駄目にする 今から20年前の2003年、データの可視化やインフォメーションデザインの先駆者として有名なイエール大学の教授エドワード・タフティが「パワーポイントの認知スタイル」というエッセイを発表しました。 彼はこのエッセイの中で、パワーポイントのようなスライド形式はプレゼンテーション自体の質を低下させ、余計な誤解や混乱を招き、さらに言葉の使い方、論理的な説明、そして統計的な分析といったものが犠牲になるため、スライドをつくる人の思考回路にダメージを与えると主張します。 こうした主張に賛同する人は現在でも多くいて、その典型的な例がアマゾンです。アマゾンではミーティングの前に文章形式の資料が配られ、ミーティングの最初の5分はそれぞれがこの配られたレポートを黙って読むことから始まるという話は多くの方も聞いたことがあるのではないでしょうか。(リンク) 実は、アマゾン
これは私達の行っているデータサイエンスのトレーニングで、日本でもグローバルでもよく聞かれる質問です。実は2年ほど前にこの質問に正面から真摯に答えていた"Machine Learning vs. Statistics"という、とても素晴らしい記事があるのですが、今日は、そちらの記事をみなさんに紹介してみたいと思います。 ちなみに、筆者のTom FawcettとDrew HardinはSilicon Valley Data Scienceというデータサイエンスのコンサルティング会社で、多くの有名企業がデータサイエンスを使ってビジネスの問題を解決するための支援を行っていました。ちなみに、その会社の方は去年、Appleに買収されています。さらに、Tomは、「Data Science for Business」(翻訳書:戦略的データサイエンス入門 ―ビジネスに活かすコンセプトとテクニック)という有名
ホテルを直前に予約する時に人気のあるHotel Tonightというサービスを提供しているスタートアップがこちらシリコンバレーにあります。そこでデータ分析のチームを率いているAmanda Richardsonが、スタートアップがデータを使うときによく犯す間違いをこちらの"The Four Cringe-Worthy Mistakes Too Many Startups Make with Data"という記事の中で4つにまとめていますが、今日はそちらを紹介したいと思います。これらはもちろんスタートアップに限らず、どのようなサイズの会社でも、とくに新しいデータ分析のプロジェクトを始める時によく見られる失敗パターンだと思いますが、こちらの記事では間違いだけでなく、逆にこうすればいいという提案も最後にわかりやすくまとめられているので、是非参考にしてみて下さい。 それでは、以下抜粋です。 間違い1
ノーベル物理学賞を受賞したこともある偉大な科学者であり、愉快な先生でもあるリチャード・ファインマン(1918 - 1988)が推奨した学習メソッドである「ファインマンテクニック (The Feynman Technique」というのがあります。 今回はこの、知ってるだけでなく、使えるものになる学習をしたいときに最強のファインマン学習メソッドについて紹介したいと思います。 ところでまず最初に断っておきたいのは、ここでいう学習とは本を読み流して何らかの概要を知っているとか、試験のために暗記したりするといったものではなありません。 学んだことを他の人に説明することができ、様々な状況でそれらを自由に活用することができるという意味においての学習です。 以下、要訳。 もし何かをほんとうの意味で学んだのであれば、それはあなたにとって残りの人生で使い続けることができる武器となります。そして、なにか新しいこ
時間がたつに連れて、私のフォーカスは、「カスタマーが何を言っているのか?」から、「まずはテストしよう!」というコンシューマー・サイエンスの態度に変わりました。私のチームのカスタマーに関するインサイトは向上し、学びの速度も上がり、何がカスタマーを喜ばせるのかについてのある仮説を形成するに至りました。 以下が、コンシューマー・サイエンスとカスタマーオブセッションのために私達が使ったリサーチの手法です。 既存のデータを使って過去と現在のカスタマーの行動を理解する。 私達の作っているものに対してカスタマーがどう反応するのかを聞くために、フォーカス・グループや一対一のインタビューやユーザーテストといったクオリティティブなリサーチをする。 カスタマーがどういった人たちなのかを、デモグラフィック(人口統計学的属性、つまり性別、年齢、住んでいる地域、所得、職業、学歴、家族構成など)、競合する製品の使用度、
Artificial Intelligence — The Revolution Hasn’t Happened Yet - Link 先週、データサイエンス、AI業界にとって、ターニングポイント(潮の変わり目)となるほど重要なエッセイをUC Berkeleyの教授で、統計、機械学習、AIの研究者でもあるMichael Jordanという人が発表していました。もちろんあのバスケのMichael Jordanとは違います。(笑) 冗談はさておき、ここ最近のビッグデータの世界では標準になってしまったとも言えるSparkを開発したのはもともとAMP LabというUC Berkeleyの研究所のチームなのですがそこを率いていた人がこの人です。彼はシリコンバレーではもちろん、世界的にもビッグデータ、データサイエンスの世界ではかなり有名な人です。 その彼が、最近のAIという言葉に対する一般の誤解と誇大
これまでにも何度か紹介してきた、シリコンバレーのA16Zというトップクラスのベンチャーキャピタルの気鋭のアナリスト、ベネディクト・エバンスが、「AIのバイアス」についての考察をまとめていました。 いわゆる「AIのバイアス」といえば、例えば、白人の方が黒人より多い画像データで作ったAIシステムは白人を認識するのは得意だが黒人はそうでない、といったもののように、私達にとって想像つきやすいものについつい目が行ってしまいがちです。しかし実は、私達人間には認識すらできないもの、例えば光の当たり加減や、音の領域などがバイアスとしてデータに入ってきてしまった場合におきるAIのバイアスこそが、難しい問題なのではないかとベネディクトは言います。 いつものように、鋭い考察でいろいろな角度からAIのバイアスに切り込んでいきますが、彼のエッセイがおもしろいのは、もちろん彼の分析力、クリティカル・シンキング能力が素
機械学習と統計学、予測と因果など、これまでにもこうした違いについて何回か取り上げてきました。 実は言語学、自然言語の研究分野でもこうした違いに関しての論争があります。その中でも有名なのは、近代の言語学の父とも言われるノーム・チョムスキーと、AI分野の第一線の研究者でGoogleの研究部門のディレクターでもあるピーター・ノーヴィグの間でのものです。 そのことについて触れている「Predicting vs. Explaining」というおもしろい記事があったのでここで紹介します。 以下は一部の要約です。 チョムスキーは、言語というデータのなかにある法則性を説明することができないのであれば、それはサイエンスではないと主張します。 それに対して、ノーヴィグはそもそも言語とは説明できるほど単純なものではなく、逆にその複雑性を受け入れたモデルを作ったからこそ、近年の自然言語の分野で見られる飛躍的なイノ
データ分析で有名なNetflixの社内では現在、シリコンバレーのデータ文化とロサンゼルスの人間関係文化が衝突しているようだという話が最近ウォールストリート・ジャーナルに出ていました。 映画やTV番組(ショー)などの動画配信サービスを提供しているNetflixは、何度かWeekly Updateでも取り上げてきましたが、データがこの会社のDNAに浸透していて、とにかくデータを積極的に使ってカスタマーをだれよりも深く理解し、そのことでビジネスを成長させてきたことで有名です。 Netflixがカスタマーを誰よりも理解するためのデータ分析プロセス、コンシューマー・サイエンスの紹介 最近の例では、自分たちのオリジナルのコンテンツを作る前に、それがどれくらい視聴されるか、どういった層に受けるか、どのようにプロモートすればより多くの人に視聴されるかといったことをデータをもとに予測しているとのことです。
データ分析を始めれていない、もしくは少しはやっていても自分たちのビジネスの意思決定に活かせていない日本の企業は今も多くあるのではないでしょうか。現在のようにシリコンバレーの多くの企業がデータ分析を彼らのビジネスの成長にうまく結びつけることができている現状では、どうしてもそれを日本とアメリカの文化の違いということのせいにしてしまいがちです。つまり、アメリカ人は物事を数値化し、データを使ってビジネスを行う文化があって、日本人はもっと直感と経験を重んじる文化であると、日本を訪れたときに聞いたりもします。 そこで、今回はアメリカの野球チームでもともとデータを使うという文化がなかったヒューストン・アストロズというチームを、データ分析をチームの運営、試合の進め方、選手の採用と育成などに取り入れることで、昨年のワールシリーズチャンピオンシップで優勝するほどのチームに変革することに成功したJeff Luh
現在AIに対して多くの人がもつイメージとして、Over Estimate(過剰な期待) とUnder Estimate(過小な期待)という問題があります。Over Estimate(過剰な期待)はAIを使うと全ての問題が自動的に解決されるというもので、Under Estimate(過小な期待)はAIを使えば実は簡単に解決される問題なのにそのことに気づいてもいないということです。 今日では、比較的簡単にAIを使うことのできるツールがたくさんあるので、こうした機会を利用して、自分たちのデータをもとにどんどん使ってみて、AIを使うと実際に何ができて、何ができないのか、さらにどういったことが問題になるのかなどを理解していくことで、自分なりの正しい期待値を設定していくことが重要だと思います。 最近マッキンゼーから実際にAIのプロジェクトを始める時につまずくよくある5つのハードルとそれを解決するための
最近、データを使うということが手段でなく、目的になってしまい、その挙げ句、データが「神格化」されてしまっているような風潮があります。 つまり、データが言うのだから、間違いはないというわけです。 そこで「データ・ドリブン」という言葉が先歩きをしてしまうのでしょう。 もちろん、単に「データ」と言っても、人によってその意味することは様々ですが、その中でも、英語では、「Raw Data」、日本語にすると「生データ」、つまり加工する前の、とれたてほやほやのデータという意味でのデータは、人間によって操作されていないので、事実で、客観的で、正直だと私達は思い込んでいたりします。 しかし、そういった期待は全くの勘違いで、データとは集められた瞬間からすでに人間の意思によって「汚れている」ものなのだという記事がおもしろかったので、こちらで紹介したいと思います。 以下、要訳。 Why Data Is Never
よくスタートアップやSaaSの世界などでノーススター(北極星)指標が注目されます。自分たちのビジネスを成長させるために組織の全員が一丸となって追うべき1つの指標というものです。 例えば、アクティビティの指標であるDAU(Daily Activity Users)やMAU(Monthly Active Users)であったり、またはエンゲージメントを測るためのDAU/MAU、またはそれこそ売上やMRRであったりするかもしれません。 データや数値を元にビジネスを成長させようということで、こうした「ノーススター」指標を決め、ダッシュボードなどで毎週、毎月モニターし始めます。 ところが、ここから誰もが話したくないことが起き始めます。 たいていの組織や企業の中の人達はこの指標をだんだん見なくなる、または本気にしなくなります。 実際見ている人は経験あると思うのですが、こうした指標の数値は良くなったり悪
qiita.com
Help us understand the problem. What is going on with this article? 以前から言っいることですが、メディアでよく目にする感染者数という数字はあまり意味がないと思います。特にその数字を持ってそれぞれの国を比べようとするときには意味がないどころが害すらあると思います。 というのも、感染者の数というのは検査の数に大きく影響を受けます。そしてその検査をどれだけ、どのように行うかというのはそれぞれの国によって戦略も状況も違います。 しかし現実にはそういったことを考慮することなしに、感染者数の値を毎日見て、一喜一憂し、さらにはそれぞれの国の感染者数の値を比べ、どこの国がいいとか悪いと決めつけ、さらには感染者数の増加のトレンドをもとに「あなたの国もイタリアのようになってしまう」といった、無責任な報道が多くのメディアから毎日垂れ流されていま
データサイエンスという言葉はまだ流行っていますが、ひょっとしたらあなたの組織にとっては必要ないかもしれません。 この重要な問いに答るためにはまず、そもそもデータサイエンスの目的とは何なのか、どういった組織がデータサイエンスをやるにふさわしいのかを理解する必要があります。 この点についてうまくまとめられている記事が、シリコンバレーのInstacartで、データサイエンスのVP(バイス・プレジデント、日本で言う部長)をやっているJeremy Stanleyと、元LinkedInのデータリーダーで今はテクニカル・アドバイザーをやっているDaniel Tunkelangによって最近出されていたので、ここで紹介したいと思います。 Doing Data Science Right — Your Most Common Questions Answered - Link データサイエンスの目的 データサ
ベイジアンネットワークという個々の変数の関係を条件つき確率で表す確率推論のモデルの研究によって、コンピューターサイエンスの世界の最高峰の賞であるチューリング賞を80年代に受賞しているジュデア・パール(Judea Pearl)という人が書いた“The Book of Why: The New Science of Cause and Effect” という本を最近読む機会がありました。最近盛り上がっているAIが、我々が期待するほど知的でない理由は、「原因と結果」、つまり因果関係を解明することができないからだというのがテーマです。素人でもわかるように丁寧に書かれているので、皆さんにもぜひ読んでいただきたいと思います。本の方はまだこちらで出版されたばかりなので日本語はまだないかもしれませんが、その彼のインタビュー記事がちょうど最近出ていて、本のメッセージを大まかに掴むことができるのではと思ったの
日本では「欧米」という言葉のもと、ヨーロッパとアメリカを一緒のようなものとして扱ってしまうことをよく見受けます。 例えば、アメリカがすごいという分野があると、それによってヨーロッパも同じようにすごいのだ、というかんじです。 ところがじっさいにアメリカやヨーロッパに住んでみると、この2つは大きく異なる価値観をもった2つの異なる世界なのだと実感することになります。もちろん、そのヨーロッパの中でも、西と東で大きく違い、西ヨーロッパの中でも北と南、もしくはカトリック系とプロテスタント系では大きく違ったりします。さらにアメリカの中でも、例えば東海岸と西海岸では考え方や文化が大きく異なります。 私も日本に行くたびに、いかにシリコンバレーの企業がソフトウェアとデータを使うのがうまいかという話を多くの場面でしますが、こういう話をするとついつい、日本が遅れてて欧米が進んでいると言う話をしていると受け止められ
人種差別の慣習をもっている組織が作ったデータにはやはり人種差別なバイアスが入り込んでしまうわけで、そんなデータをもとに作った機械学習のモデルは、例えどんな高度なアルゴリズムやテクニックを適用したところで、人種差別的なものになってしまうものです。 アメリカでは人種差別的な慣習を持った警察がよく問題になることがあります。特に南部や中西部の方に行くとひどかったりします。 現在そういった組織が過去に記録したデータをもとに、犯罪予測システムを作り、そこから出てくる予測をもとに捜査を行ったり、容疑者の扱いや刑罰の決定を行ったりということがすでに行われ始めているようです。 今から20年近く前に、トム・クルーズ主演の「マイノリティ・レポート」という映画がありましたが、まさにこうした犯罪予測システムによって間違って逮捕されてしまうという話の映画でした。 20年たった今、こうした問題がいよいよ現実になってきた
データ・リテラシーと言う言葉を聞いたことありますか? 簡単に言うと、「データを読むことができて、データを理解でき、データを使って議論でき、データから得られた情報を使って意思決定ができる」能力のことです。 ダレル・ハフによって今から70年前になる1950年代に書かれた「統計でウソをつく方法 (How to Lie with Statistics) 」というこの世界では古典となる本があります。この本ほどデータリテラシーがいかに重要かをわかりやすく簡潔に説いた本はないと思うのですが、その教えは70年経った今でもまるで昨日書かれたかのように新鮮です。 むしろ、私達市民のデータリテラシーは当時と比べてあまり変わっていないかのようで残念です。 さらに、今日のようにデータがいよいよ簡単に手に入るようになり、簡単に分析できるようなツールも出てくるようになると、情報の消費者としてだけでなく、むしろ情報の供給
今シリコンバレーで、もしくは世界中のスタートアップ業界で一番ホットな会社といえばAirbnbと言っても過言でないのでしょうか。日本では民泊のプラットフォームとして知られていますが、今や3兆円近い企業価値がついている超ユニコーン企業です。私も日本に行く時はホテルでなく、いつもAirbnbで普通のアパートを一週間ほど渋谷のあたりに借りますが、使いやすく、コストパフォーマンスもよく、出張をするときには欠かせないサービスです。 Airbnbnはシリコンバレーのスタートアップの中でも特にデータの使い方がうまい会社として有名で、いろいろとデータに関するツールをオープンソースとして公開もしています。そんなAirbnbのデータサイエンティストたちの間ではRというプログラミング言語が一番人気があるというのは以前から広く知られていることですが、今回、彼らがどう社内でRを使っているのか、どのようにプロダクトに関
Image from Teaching Tolerance 現在のアメリカの政治はますます、右と左の極端化が進んでいます。右はトランプ旋風を支えている人たち、左は金持ちから70%の税金を搾り取れと叫んでいる主に民主党の人たちです。 以前にも紹介したことのある、Bridgewaterという世界で一番大きいヘッジファンドの創業者で元CEO、現在はCIO(Chief Investment Officer)としてまだ現役のレイ・ダリオが、「最も懸念すべき経済、社会、政治の問題」という分析レポートを今から一年ほど前に出していたのですが、今のような右と左に極端に分断されたアメリカを理解するためには欠かせないインサイトで盛りだくさんとなっていますので、こちらで「堕ちていくミドルクラス」という視点から要約という形で紹介します。 以下、要約。 1. 所得も資産も増えないミドルクラス 2016年のドルの価値を
機械学習とはそもそも現実の世界のユーザーの抱える問題を解決、もしくはユーザーの要望に応えるために使うツールであるはずです。このことを理解せずに、このクールなAIテクノロージーをまずは自分のプロダクトに組み込んでみようとするとおかしなことになり、最終的にはお金と時間の無駄になります。 シリコンバレーは特にですが、もちろんそれ以外の場所からも毎日のようにAIを使った新しいスタートアップが出てきています。しかしその中には、たしかにテクノロジー的にはすごいのですが、結局誰の問題も解決していないために、結局はそのテクノロジーを目当て、もしくはそれより最悪の場合は、アクハイアーといって、単に人材目当ての買収で終わってしまうというケースをよく見かけます。そうならないためにも、機械学習を使うことが目的になるのを避け、何の問題を解決しようとしているのかを最初にしっかりと時間をかけて定義するべきです。 今日は
ここ数年日本でも会社の規模を問わずAI関連のプロジェクトに関する投資が大きな規模で連日行われているように思います。こうしたAIイニシアチブは多くの場合がトップダウン、つまり社長や重役からの指示ではじまり、それに見合った実行計画をマネージャーレベルが作成し、その部下が実行もしくは外部コンサルティング会社に外注というのが多いパターンではないでしょうか。 しかし、そうしてなんとなく慌てて始まったAIに関する投資も、思ったような成果が上がっていないということで、そろそろ失望と困惑が見られるようになってきたと、少なくともこちらアメリカでは聞き始めています。こういう時に、そもそもどういった成果を当初期待していたのかというと、かなり曖昧であったり、もしくは的はずれだったりというのが往々にしてあります。これは、現在のAIに対する過剰な期待がAIの限界によって打ち砕かれた、とも言えます。業界が煽りすぎたとい
最近ではフェイクニュースという言葉のおかげで、ニュースなどメディアでみかける主張や数値に対して疑問を持つというスタンスが以前に比べて少しづつではありますが見られるようになってきたように思います。それでもまだ多くの人がふだん毎日忙しい中で、センセーショナルなニュースのヘッドラインをついつい鵜呑みにしてしまい、さらにそれらをソーシャル・ネットワークなどで共有することで知らず知らずのうちにおかしな主張をどんどん拡散してしまっているというのが現状です。社会的に与える影響を考えるとこれは大変憂慮すべきことです。 今日は、Financial Timesのコラムニストで、経済学者のTim Harfordが、データや統計的な主張にまどわされるのでなく、それらを正しく理解するための提案を8つのアドバイスとしてこちらの”Tim Harford’s guide to statistics in a mislea
データサイエンスの仕事の定義は尋ねる人や場所によって違いますが、先週AirbnbのデータサイエンスチームのトップのElena Grewalが、彼女のチームではデータサイエンティストを、アナリティクス、アルゴリズム、インファレンス(推論)という3つのグループに分け、それぞれのチームごとに別々に採用を行うようにしているとこちらのLinkedInの記事で発表していました。 ちなみに、私が関わるExploratoryではデータサイエンスを大きくビルダーとアナリティクスの2つに分けた上で、このアナリティクスに特化した手法や技術に関するトレーニングをデータサイエンス・ブートキャンプとして提供しています。 ビルダーとは、主に機械学習などのアルゴリズムを使って、最終的にはユーザーが使うことになるプロダクト(製品やサービス)の一部に組み込まれる、もしくはプロダクトそのものになるといったタイプです。チャットボ
こちらのWeekly Updateでも以前中国のAI戦略を紹介しましたが、実はこの15ヶ月くらいの間に他の主要な国々もAIテクノロジーの利用と開発にあたっての戦略を発表しています。 こちらにそれぞれの国のAI戦略がハイレベルで簡単にまとめられています。どの国もフォーカスとプライオリティに差があって、お国柄が出ていると思います。 もちろん日本もしっかりと、さらに実は世界でも2番めに国家レベルでのAI戦略をまとめ発表しています。2016年4月に、「未来投資に向けた官民対話」における安倍首相の指示を受け、人工知能の研究開発目標と産業化のロードマップを作るための「人工知能技術戦略会議」が創設されています。 人工知能技術戦略会議 - Link AIポータル - Link 産官学を代表する11人のメンバーからなりますが、ほとんどが官僚で、あとは東大の学長、トヨタとKDDIの会長といったメンバーです。
先日、第3の波ーAI、機械学習、データサイエンスの民主化という記事の中でも話したように、今では世界中のどこでもデータサイエンスの世界ではRもしくはPythonといったオープンソースのプログラミング言語やツールが広く使われるようになりました。 実際私たちも特にシリコンバレーの様々なタイプのお客様と接することが多々ありますが、最近ではいよいよSASもしくはSPSSといった古くからあるエンタープライズ向けのデータ分析・統計ツールを会社で使用するためにかかる莫大なコストを見直すという圧力が日々大きくなっているようで、新規のプロジェクト、もしくは新規に雇用された人たちがそういった経費の承認を得るのは基本的にありえないか、あってもかなり大変らしいです。で、結局、どうせSASもしくはSPSSを使ってやろうとしてることは何でもRもしくはPythonを使ってできてしまうし、さらにもっと多くの最先端のアルゴリ
以前、「結局、機械学習と統計学は何が違うのか?」というポストの中で「統計と機械学習の違い」について、手法や技術的な側面から簡潔に説明していた記事を紹介しました。 今回は、もう一歩先に進んで、それでは、統計と機械学習のモデルがあった時、どう使い分ければいいのか」について簡潔にまとめられていた記事、"Road Map for Choosing Between Statistical Modeling and Machine Learning" を紹介したいと思います。 以下、要訳。 Road Map for Choosing Between Statistical Modeling and Machine Learning by Frank Harrell - Link 統計モデルはデータ生成のメカニズムに確率を持ち込み、大抵の場合は未知の値を持つ解釈可能なパラメータ(例えば予測変数の影響(係
私のこれまでのブログポストの読者の方には、すでにお馴染みかもしれませんが、AI、機械学習、またはデータサイエンスといったものに対して、多くの人はOverestimate(過剰な期待)、またはUnderestimate(過小な期待)してしまいがちです。 最近では、AIに関するハイプがすごくて、つまりOverestimate(過剰な期待)がすごいので、例えば、AIが選挙やスポーツの試合の結果の予測に失敗したり、AIが人の顔の認識を間違ってしまったりというように、その期待が外れると、やっぱりAIはだめだ、まだまだ人間でないとだめだ、という方向へ一気に振れてしまうことになります。 たしかに現在AIと呼ばれているものには限界があります。そのうちの一つがバイアスの問題です。つまり、AIのアルゴリズムで予測モデルを作った時に使ったデータにバイアスが含まれている場合にはそのモデルが予測する結果にもバイアス
次のページ
このページを最初にブックマークしてみませんか?
『KanNishida - Qiita』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く