タグ

データマイニングに関するzia_glassのブックマーク (12)

  • 吉野家が実証実験に参加、AIやIoT技術を活用した睡眠解析プラットフォームβ版が開始

    ニューロスペースは2017年10月11日、「睡眠解析プラットフォームβ版」の運用を開始すると発表した。同プラットフォームは、各人に最適な睡眠改善ソリューションを提供するための、個人の睡眠データの計測や解析に向けたシステム基盤。同時に同プラットフォームの実証実験も開始し、これには吉野家が参加する。 睡眠解析プラットフォームは、「各人の睡眠状態を計測する機器」「取得した睡眠データを評価するアルゴリズム」「睡眠状態の解析結果から最適な睡眠改善ソリューションを提案する機能」の3つの要素で構成されている。 睡眠状態を計測する機器 ニューロスペース独自の睡眠センシング技術を応用して計測機器を開発。同社によると、従来の計測機器では正しい睡眠ソリューションを提供することが不可能とのこと。例えば、体動を指標にした既存の睡眠計測機器は、覚醒やノンレム睡眠、レム睡眠といった睡眠ステージの判定精度に限界があった。

    吉野家が実証実験に参加、AIやIoT技術を活用した睡眠解析プラットフォームβ版が開始
  • Leakage in Data Mining

    データマイニングの現場で頻発する Leakage という問題について気出して考えてみた、的な論文を読んだ: Leakage in Data Mining: Formulation, Detection, and Avoidance. KDD 2011. 概要 Leakage とは、モデルを作るときに、来知らないはずの情報(変数やデータ)を不当に使ってしまうこと 手元のデータではメッチャ高い精度が出たのに、番環境ではまったく精度が出ない、といった事態になる その問題について定式化を試みると同時に、Leakage を検知・回避する方法を考える こういう議論がまじめにされてこなかったせいで、KDD Cup 2008 のようなプロが企画・主催したコンペでさえ、問題の不備による Leakage が発生している おもしろ事例集 はじめに、データマイニングコンペでの Leakage 事例が幾つか紹

    Leakage in Data Mining
  • Latent Dynamics – In pursuit of simplicity in complexity

    This website was originally created as a portal site of a research project, “Discovering Deep Knowledge from Complex Data and Its Value Creation” (2011-2015) led by Professor K. Yamanishi (Univ of Tokyo), which was a subproject of a JST (Japan Science and Technology Agency) grant titled “Advanced Core Technologies for Big Data Integration” (JST CREST Grant Number JPMJCR1304). One of the main resea

  • ネットワーク構造を持つデータの大域的変化を自動検出するデータマイニング技術を開発(2009年7月3日): プレスリリース | NEC

    NECはこのたび、ネットワーク構造を持つデータ(注1)の大域的な変化を自動的に検出し、変化の原因となる箇所(ノード)を特定するデータマイニング技術(注2)「LinkageAnalyzer」を開発しました。技術は、NECがこれまで取り組んできた機械学習技術(注3)をベースに、複数ノード間の関係性を適切に表現する手法を新たに開発することで実現したものです。 「LinkageAnalyzer」は、データマイニング技術に基づき、例えばソーシャルネットワークにおける情報発信量など、ネットワーク構造を持つデータを融合的に分析して、ユーザ間の連動関係の特徴を抽出・数値化し、値の変化を監視します。これにより、特定のコミュニティの急激な活性化(情報発信量が急激に増加)や、あるユーザが多くの他ユーザに一様に情報発信しているといった状態など、従来の個別ノードの監視では検出が困難であったネットワークの大域的な変

  • FIT2012招待講演「異常検知技術のビジネス応用最前線」

    FIT2012で行われた「ビジネスで生きる機械学習技術」セッションの招待講演資料です。 http://www.ipsj.or.jp/event/fit/fit2012/program/data/html/event/event_A-7.html 【講演概要】 世の中で得られる知見の多くは、何らかの観測対象の時間変化や、観測対象グループにおける珍しい個体の出現を捉えたものと考えることができます。特に急速な変化や異常な個体の検出するための異常検知技術は、ビジネスにおけるデータ収集・蓄積インフラの浸透とともに応用が広がっています。従来は、蓄積されたデータを目で見て確認する、閾値を設けてアラートを出す、あるいは経験に基づいて異常パターンをルール化する、などのアプローチが主流でした。しかしながら、収集できるデータの変数と量が飛躍的に増大する中で、比較的単純かつ過去に起きた異常のみ扱えるルールベース手

    FIT2012招待講演「異常検知技術のビジネス応用最前線」
  • データマイニングにおける属性構築、事例選択

    SVM実践ガイド (A Practical Guide to Support Vector Classification)sleepy_yoshi

    データマイニングにおける属性構築、事例選択
  • データマイニングの基礎 第4章 前処理・データ変換 その1 - 毎朝30分読書会

    今日から第4章に入ります。 数値属性の離散化 数値を区間に分割してグルーブ化する シンボルを対象とする手法で数値属性を扱うためには離散化が必要 分割が粗すぎると情報が失われるし、細かすぎると1つの区間のデータが少なくなってしまうのでうまい分割が必要 複数の数値属性をそれぞれ分割する時は属性の軸に直行しない分割や非線形な分割もありえるが、だいたいは軸に直行する超平面で分割 分類器構築と同時に離散化するのを「動的離散化」、あらかじめ離散化しておくのを「静的離散化」と呼ぶ クラス分類の情報を用いて分割する手法もある 各属性単体の離散化 等間隔区間(EWI)と等頻度区間 なんとなく名前からわかる印象の通り、等間隔に分割/区間に含まれるデータ数を等価にするように分割 ChiMerge χ二乗検定を用いた離散化手法。クラス情報を用いる 区間を結合することで離散化とクラス分布が独立であるという仮説がχ^

    データマイニングの基礎 第4章 前処理・データ変換 その1 - 毎朝30分読書会
  • データマイニングで使われるトップ10アルゴリズム - データサイエンティスト上がりのDX参謀・起業家

    2006年のデータマイニング学会、IEEE ICDMで選ばれた「データマイニングで使われるトップ10アルゴリズム」に沿って機械学習の手法を紹介します(この論文は@doryokujin君のポストで知りました、ありがとうございます!)。 必ずしも論文の内容には沿っておらず個人的な私見も入っていますので、詳細は原論文をご確認下さい。また、データマイニングの全体観をサーベイしたスライド資料がありますので、こちらも併せてご覧下さい。 データマイニングの基礎 View more presentations from Issei Kurahashi 1. C4.5 C4.5はCLSやID3といったアルゴリズムを改良してできたもので、決定木を使って分類器を作ります。決定木といえばCARTが良く使われますが、CARTとの違いは以下のとおりです。 CARTは2分岐しかできないがC4.5は3分岐以上もできる C

    データマイニングで使われるトップ10アルゴリズム - データサイエンティスト上がりのDX参謀・起業家
  • 時系列分析I ――ARMAモデルと時系列分析

    連載バックナンバー はじめに 今回は時系列分析について紹介します。ビジネスで生成されるデータの多くが“時間“の項目を含む時系列データで、1週間の傾向や季節変動などを分析する際など、さまざまな場面で時系列の分析が必要となります。 時系列分析(Time Series Analysis)とは? 時系列分析(Time Series Analysis)は、株価や為替レートなど金融関連の時間とともに変化するデータを分析し予測するために発達してきました。「時系列計量経済学(Time Series Econometrics)」などの学問の中で論じられているデータ分析の中では、比較的歴史のあるテーマです。それだけに、定式化するためのさまざまなモデルが提案されていて、1つの変量を分析するためのモデルだけでも、表1のように多くのモデルがあります。 略称 説明 AR

    時系列分析I ――ARMAモデルと時系列分析
  • Index of /~son/datamining/DM

  • 回帰分析×競馬で金儲けができるのか。 - 実験スピリッツ

    先日、たまたま映画「男はつらいよ」を鑑賞しました。私はその劇中で寅さんが競馬で大勝している姿を目撃しました。勝因はなんと「馬が語りかけてきやがった」というものです。 なるほど、それでは当に馬が語りかけてきて勝利を導いてくれるものなのか実践してみたいと思います。 データ分析でやってみる 当に馬が喋ってくるはずがないのでデータを分析します。 しかし、私は競馬のド素人でどうやって勝馬を予想すればいいのか分かりません。ここはデータ分析の出番です。さすが大人気のギャンブルである競馬には様々なデータが提供されており、血気盛んに分析が行われているようです。 今回は、ロジスティック回帰分析を用いて予測モデルを作成し、対象レースの出走馬の勝ち馬を調べることにします。(難しい説明は省きますが、R言語を使えばやること自体は簡単です。データを集めるのが大変でしたが。。) 勝馬を求めるモデル式には、 ・対象馬の

    回帰分析×競馬で金儲けができるのか。 - 実験スピリッツ
  • マルチモデルデータベースを用いたデータモデリング | POSTD

    同じデータストア内に異なるデータモデルを適合させるためのケーススタディ。 最近になって、”多言語パーシステンス”という考えが新たに登場し、ポピュラーになってきました。参考として、 Martin Fowlerが自身のブログに投稿した素晴らしい記事 をご覧ください。Flowerの基的な考えを解釈すれば、大規模なソフトウェアアーキテクチャにおけるパーシステンス層の異なる部分に対して、適切なデータモデルを色々と使うことは有益である、ということになります。このことから、例えば、永続的に構造化されるリレーショナルデータベースには表形式のデータ、非構造化データ向けのドキュメントストアにはオブジェクトライクなデータ、ハッシュテーブル向けのキー/バリューストアには高度に関連付けられた参照データ向けのグラフデータベースを使うこともできるということです。従来の考え方では、これは同一のプロジェクト内で複数のデー

    マルチモデルデータベースを用いたデータモデリング | POSTD
  • 1