The requested URL was rejected. Please consult with your administrator. Your support ID is: 3550184438928800800
The requested URL was rejected. Please consult with your administrator. Your support ID is: 3550184438928800800
こんにちは、トレンド調査ラボの井上寛之(@inohiro)です。 普段は、クックパッドの検索ログを基にした法人向けデータサービス「たべみる」の開発や、 広告事業周辺のデータ分析などを担当しています。 Amazon Redshiftなどのデータベースに蓄積されたログなどの大量のデータに対して、 日次や週次などの単位でバッチ処理を行っている方は多くいらっしゃると思います。 ログなどを扱うバッチ処理では、処理対象が膨大であるとアプリケーションが使うメモリが増大し、 枯渇してしまう恐れもあるため、データの扱いに気をつける必要があります。 データベース内で完結するバッチ処理ならばそこまで気にする必要は無いかもしれませんが、 外部のプログラムからデータを読み出して処理する場合は特に注意が必要です。 そこで考えられる一つの工夫として、処理対象を分割して、繰り返して処理を行う方法が挙げられます。 一般的な
トップ ホームページアドレス(URL)の変更 ホームページアドレス(URL)の変更 The address of our website has changed 当サイトにアクセスいただきありがとうございます。 この度、ホームページアドレス(URL)を変更いたしました。 つきましては、下記の新アドレスへアクセスをお願いいたします。 また、お気に入りやブックマークなどに登録されているお客さまはお手数ですが設定のご変更をお願いいたします。 今後とも当サイトを宜しくお願いいたします。
大学共同利用機関法人 情報・システム研究機構 国立情報学研究所(NII、所長:喜連川 優、東京都千代田区)は11月24日より、不動産情報サービス事業の株式会社ネクスト(ネクスト、代表取締役社長:井上 高志、東京都港区)から無償提供を受けた同社運営の不動産・住宅情報サイト『HOME’S(ホームズ)』の賃貸物件データ(HOME’Sデータセット)を、NIIが本年度設置した「データセット共同利用研究開発センター」(センター長:コンテンツ科学研究系教授 大山 敬三)を通じて研究コミュニティに無償提供を始めます。 ネクストから提供される不動産情報のデータセットは、同社が運営する国内最大規模の不動産・住宅情報サイトである『HOME’S』の533万件の賃貸物件データです。これに紐付けられた8,300万点に上る間取り図やキッチンといった室内写真などの画像データを含んでいます。提供されるデータは『HOME’S
主観的な観点からPythonとRの比較した記事は山ほどあります。それらに私たちの意見を追加する形でこの記事を書きますが、今回はこの2つの言語をより客観的な目線で見ていきたいと思います。PythonとRを比較をしていき、同じ結果を引き出すためにはそれぞれどんなコードが必要なのかを提示していきます。こうすることで、推測ではなく、それぞれの言語の強みと弱みの両者をしっかりと理解できます。 Dataquest では、PythonとRの両方の言語のレッスンを行っていますが、データサイエンスのツールキットの中では両者ともそれぞれに適所があります。 この記事では、NBA選手の2013/2014年シーズンの活躍を分析したデータセットを解析していきます。ファイルは ここ からダウンロードしてください。解析はまずPythonとRのコードを示してから、その後に2つの異なるアプローチを解説し議論していきます。つま
本書では、データサイエンスを行う上で、どのようなプロセスが必要か、データサイエンティストとしてはどのようなスキルセットが必要で、どのような思考方法を選択する必要があるのかを実例を多数示しながら紹介します。Google、Microsoft、Facebookをはじめとした有名企業で使われているアルゴリズムや分析手法の紹介など、興味深い話題や事例も豊富に収録しています。内容の幅が広く、データサイエンティストの参考になるトピックが満載の一冊です。 目次 訳者まえがき まえがき 1章 はじめに:データサイエンスとは 1.1 ビッグデータとデータサイエンスの過剰喧伝 1.2 過剰喧伝を克服する 1.3 なぜいまなのか 1.3.1 データ化 1.4 現状(および多少の歴史) 1.4.1 データサイエンスの仕事 1.5 データサイエンスプロフィール 1.6 思考実験:メタ定義 1.7 データサイエンティス
写真●住友精密工業が機械学習技術の実証実験を行っている、大分県の農家でのみかん栽培の様子。同社製のセンサーネットワーク機器「neoMOTE」を用いている。 センサーネットワーク事業を手掛ける住友精密工業は、同社の農業向けセンサーネットワークサービスの実証実験に、Preferred Infrastructure(PFI)の機械学習エンジン「Jubatus」を採用した(PFIによる発表資料)。設備の異常検知や最適制御などに用いる。 実証実験では、大分県の農家と協業し、みかん栽培のビニールハウスの温度管理や空調設備の異常検知にJubatusの適用を試行している(写真)。現在はセンサーで取得したデータに対し、オフラインで学習エンジンを適用しているが、今後、実活用することを狙う。 最初に試行しているのは、空調設備の異常検知である。一般にハウスみかんの栽培では、みかんの成長ステージに合わせて農家が1~
人気の高いオープンソースのツール、RとRubyを使い、生データを処理し、シミュレーションし、仮説を立て、統計的手法を用いて検証する、というデータ解析の基本の理解を促します。基本が学べるだけでなく、自分のメールボックスや自分の心臓の鼓動など身近な題材を対象としており、データサイエンスの醍醐味を味わうことができる一冊です。日本語版ではさまざまな統計分析手法についての入門となる章を追加。この本で使っている統計の基礎も学べる構成になっています。プログラマ視点で書かれた本書は、ビッグデータを活用するためのスキルを身に付ける必要に迫られた多くの開発者にとっても貴重な情報源となるでしょう。 関連ファイル サンプルコード 正誤表 ここで紹介する正誤表には、書籍発行後に気づいた誤植や更新された情報を掲載しています。以下のリストに記載の年月は、正誤表を作成し、増刷書籍を印刷した月です。お手持ちの書籍では、すで
test-unitはRuby用のxUnit系の単体テストフレームワークです。2.3.1からデータ駆動テスト機能が追加されていたのですが、2.5.3まではリファレンスに記述がなく、知る人ぞ知る機能でした。 2013-01-23にリリースされた2.5.4ではデータ駆動テスト機能についてのドキュメントが追加されています。 データ駆動テスト自体の説明はUxUを用いたデータ駆動テストの記述を参照してください。 Cucumberのscenario outlinesに似ていると言えばピンと来る人もいるのではないでしょうか。 Cucumberのscenario outlinesも前述のククログ記事の通り、テストのデータとロジックを分離しているのでデータ駆動テストの一種と言えます。 今回は、データ駆動テストを導入した例を見ながらtest-unitでのデータ駆動テスト機能の使い方を紹介します。なお、以降の説明
メディア選挙からデータ分析選挙へと旋回した2012年大統領選 November 11, 2012 op-ed / commentary authorjunichi ikeda share tweet 11月6日に行われたアメリカ大統領選は、現職のオバマ大統領が挑戦者のロムニー候補を破り再選された。前回の2008年の熱狂的な支持に比べれば、良くも悪くも現職の大統領として過去3年半余りの実績に基づく、リアルな人物評の下で選挙戦に臨まねばならず、総じて逆風にどう対処するかに注目が集まっていた。 実際、2010年の中間選挙ではいわゆるTea Party効果によって、下院での多数を共和党に奪取され、それ以後は、90年代のクリントン時代のように、大統領と下院議長との間での対立が目立ち、重要な政策=法案が頓挫する事態が続いていた。今回の選挙は、そうしたホワイトハウス(民主党)対連邦議会下院(共和党)の対
日本語の係り受け解析器といえば、KNPやCaboChaが有名ですが、J.DepPは線形分類器を用いて大規模な対象を非常に高速に、また高精度に解析できることが特長です。2009年末に公開されてから着実にバージョンアップされていますが、ビルドの方法が簡単になって、モデルの学習機能が追加されたことで大変使いやすくなっています。また、J.DepPは線形分類器のpeccoやopalを利用していますが、ベースの分類器が高速化されたことが、そのまま解析器の性能向上につながっているようです: ソフトウェアの更新も一人旅になってきた - ny23の日記 このJ.DepPをMacPortsとして登録しました。デフォルトの状態でjdeppをインストールすると、jumandicを参照するMeCabを組み込んだ解析器と、解析済みのブログコーパスであるKNBコーパスを対象とした学習モデルが利用できるようになります:
Twitter クライアント “Termtter” の紹介と収集したソーシャルデータを Fluentd + Hadoop で分析する話id774
国内唯一のTwitter公式パートナーシップにより Twitter全量データをご提供 株式会社NTTデータは、2012年9月27日に米Twitter社とTweetデータ提供に関するFirehose契約を締結致しました。これにより、米Twitter社から全量・全言語のTweetデータをリアルタイムに受領し、Twitter社の公開APIよりも大量・高度・高付加価値なTweetデータをご提供可能なサービスプラットフォームを構築しております。 最上位のTwitter Official Data Partnerとして、このプラットフォームを基軸に、ユーザー企業様のソーシャルメディア情報活用を支援していきます。
今回はPythonによる回帰分析(OLS:Ordinary Least Squares)の実施方法をまとめる。 まずは最小2乗法に基づく重回帰式の作成と結果表示方法を取り上げる。 ライブラリの使い分けについては調査のしやすさを優先しているが、回帰分析については統計モデルはOrange、予測モデルはscikit-learnでやろうかなと考えている。 本来はすべてを統一したいが、後者ライブラリは回帰分析の結果表示で、p値や偏回帰係数の出力が無いようだし、ステップワイズの実施方法も見当たらなかった。しかし、予測モデルとなれば、その精度と堅牢性を高めることが目的となり、p値などに言及しなくても説明責任は果たせるので、逆にscikit-learnのシンプルさが生かせると思っている。 ■ライブラリ >>> import Orange >>> from padnas import * ■データ >>>
Yellow, an asset financier for solar energy and digital devices in Africa has raised $14 million series B funding in a round led by Convergence Partners with participation from the Energy Entrepreneur Fisker, the electric carmaker founded by the Danish auto designer Henrik Fisker, is gearing up to enter the Chinese market where competition is increasingly cut-throat, following in the footsteps of
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く