NLPに関するkana0355のブックマーク (1,751)

  • Encoder-Decoder でレシピの材料名を正規化する - クックパッド開発者ブログ

    研究開発部の原島です。部のマネージメントのかたわら、自然言語処理関連の開発に従事しています。エントリでは、最近社内で開発した自然言語処理システムを紹介します。 ■ 「しょうゆ」のバリエーションは 100 種類以上 クックパッドで以前から解決したかった課題の一つに材料の名前(以下、材料名)の正規化があります。 クックパッドレシピは複数の材料から構成され、各材料は名前と分量から構成されています。例えば、上のレシピの一つ目の材料は「豚薄切り肉」が名前で、「200g」が分量です。 さて、この材料名はこのレシピでは「豚薄切り肉」という表現でした。しかし、他のレシピでは「豚うす切り肉」という表現かもしれません。「豚うすぎり肉」や「ぶた薄切り肉」、「豚薄ぎり肉」等の表現もありえますね。 これは異表記同義(いわゆる表記揺れ)の問題ですが、同様の問題は他にも沢山あります。例えば、以下のようなものです。

    Encoder-Decoder でレシピの材料名を正規化する - クックパッド開発者ブログ
    kana0355
    kana0355 2017/10/30
  • 「仕事ではじめる機械学習」をざっくり読んだので感想やメモなど - razokulover publog

    仕事ではじめる機械学習を購入したので早速読んでみた。 知ってる箇所とか結構流したとこもあるので雑なメモです。 第Ⅱ部に関しては特に読んでないとこ多いのだが、手を動かさないと意味ないしまた休日にでもやってみます。 第Ⅰ部 1章 機械学習プロジェクトのはじめ方 まずは機械学習を使わないで解決できないか考える 序盤でこの1文が出てきて信用できるだとわかった すぐに結果がでないことが多いのでそれに投資できる/させる調整が必要そう 解くべき問題の仮設設定とMVP検証を必ずやる 成功させるには以下のメンバーが必要 ドメイン知識のあるメンバー・機械学習する人・データエンジニア・失敗を恐れない理解有る責任者 テストがしずらいので継続的にモニタリングして性能の評価をするべし 2章 機械学習で何ができる? p22のどのアルゴリズムを選ぶべきかのフローチャート図が便利 これの簡略版 分類・回帰・クラスタリング

    「仕事ではじめる機械学習」をざっくり読んだので感想やメモなど - razokulover publog
    kana0355
    kana0355 2017/10/28
  • AlphaGo Zeroの論文の要約 : ブログ

    AlphaGo Zeroが自己学習のみで過去最強になったというニュースが出たのでその元論文を読み、要約をしました。 まず感想を述べると、過去数千年にわたって蓄積してきた知識をAIが数時間で発見することに対する気持ち良さがありました。人間などクソらえと思っておりますので、こう言うニュースはとてもスッキリします。そして人間の発見していない打ち筋の発見にも感動しました。これこそがAIの真髄だと信じています。人間が見えていないものをAIが見つける、僕もいつかそんなことをしてみたいと思いながら生きています。 あともう一つ重要だと思ったのは、とてもネットワーク構造および学習過程が簡素化されたことです。マシンパワーも過去に比べて非常に少なく済み、個人でもすぐに再現実験ができそうなくらいです。AIが強くなることと、構造および学習のsimplerが同時に達成できていることが質的だと思います。 一応、下記

    AlphaGo Zeroの論文の要約 : ブログ
    kana0355
    kana0355 2017/10/21
    “ルール以外の人間の知識を与えずに純粋な強化学習だけで人間を超えることが可能だと言うことを証明した。”
  • 大自然言語時代のための、文章要約 - Qiita

    さまざまなニュースアプリ、ブログ、SNSと近年テキストの情報はますます増えています。日々たくさんの情報が配信されるため、Twitterやまとめサイトを見ていたら数時間たっていた・・・なんてこともよくあると思います。世はまさに大自然言語時代。 from THE HISTORICAL GROWTH OF DATA: WHY WE NEED A FASTER TRANSFER SOLUTION FOR LARGE DATA SETS テキスト、音声、画像、動画といった非構造データの増加を示したグラフ そこで注目される技術が、「要約」です。膨大な情報を要点をまとめた短い文章にすることができれば、単純に時間の節約になるだけでなく、多様な視点から書かれた情報を並べて吟味することもできます。 文書は、この文書要約(Text Summarization)についてその概観を示すことを目的として書かれていま

    大自然言語時代のための、文章要約 - Qiita
    kana0355
    kana0355 2017/10/19
  • AlphaGo Zero: Starting from scratch

    Research AlphaGo Zero: Starting from scratch Published 18 October 2017 Authors David Silver, Demis Hassabis Artificial intelligence research has made rapid progress in a wide variety of domains from speech recognition and image classification to genomics and drug discovery. In many cases, these are specialist systems that leverage enormous amounts of human expertise and data. However, for some pro

    AlphaGo Zero: Starting from scratch
    kana0355
    kana0355 2017/10/19
  • 「AlphaGo」が進化 囲碁の打ち手教えずに従来型破る | NHKニュース

    囲碁のトップ棋士に勝った人工知能「AlphaGo」が進化し、打ち手を全く教えずに白紙の状態から学習して従来型の人工知能を破ったと開発した会社が発表し、人工知能はもはや人間の知識に制約されなくなったとしています。 この会社が開発した人工知能「AlphaGo」は、囲碁の名人の打ち手のデータを基に学習を重ね、ことし世界最強とされる中国のトップ棋士を破り、大きな話題となりました。 今回、新たに開発した「AlphaGoZero」は答えを導くデータがなくても、人工知能がみずから試行錯誤を繰り返して、よりよい答えにたどり着く、「強化学習」という手法を取り入れたということです。 そして、囲碁の基ルール以外には何も教えず、わずか3日間で500万回の対戦をひとりでに繰り返して強さを身につけた結果、トップ棋士を破った従来型の人工知能に圧勝したということです。 さらに、新型の人工知能は白紙の状態から学習する中で

    「AlphaGo」が進化 囲碁の打ち手教えずに従来型破る | NHKニュース
    kana0355
    kana0355 2017/10/19
    まさか,この時代になっても「数学なんて勉強して何の役に立つの?」という人はいないよね……? 数学が分からないと,このニュースが何を意味するかも分からない時代になってるんだから.
  • ggsoku.com

    ggsoku.com
    kana0355
    kana0355 2017/10/14
  • 機械学習におけるカーネル法について - めもめも

    何の話かというと 機械学習におけるカーネル法の説明で、よく登場するのがこちらの図です。 左側の (x, y) 平面上の点を分類する場合、このままだと線形分類器(直線で分類するアルゴリズム)ではうまく分類できないのが、右図のように z 軸を追加してデータを変形すると、平面できれいに分割できるようになって、線形分類器による分類がうまくいくというものです。このように、高次元空間にデータを埋め込むことでうまいこと分類するのがカーネル法の仕組みだというわけです。 なのですが・・・・・・・・・・・・・・・・・・・・ これ、当にカーネル法の原理を知っている方には、ちょっと気持ち悪くないですか? ※ 以下はカーネル法を知っている方向けのつぶやきです。 上記の例は、データの配置にあわせて、うまいこと z 軸方向の変形をしているのでうまくいっているのですが、カーネル法には、データの配置にあわせてうまいこと変

    機械学習におけるカーネル法について - めもめも
    kana0355
    kana0355 2017/10/14
    “k近傍法における、kの値を大きくすることと同等の効果になります。”
  • 人はなぜ「人工知能に自我が芽生える」と思ってしまうのか

    進化した人工知能が自我を持つ――。人工知能にまつわるよくある議論の1つですが、実際に開発しているエンジニアからすれば、全く現実的な話ではありません。それでも、なぜ人は、人工知能に自我が芽生えると思ってしまうのでしょうか。 人工知能AI)に関してよくある議論の1つに「人工知能は自我を持つのか」といったテーマがあります。人工知能の性能が上がり続けることで、「いずれは人間のように、心(自我)を持つのではないか?」と思う人は少なくありません。 この話は「自我を持った人工知能が人間に反旗を翻して、戦争を起こすのではないか?」という脅威論のベースにもなっています。こうした心配が広がるのは、「心を持つロボット」というモチーフの物語が世に数多くあるためかとも思うのですが、実際に人工知能を開発しているエンジニアからすると、「そんなバカな……」と失笑するレベルで非現実的な話なのです。 しかし、実際にPepp

    人はなぜ「人工知能に自我が芽生える」と思ってしまうのか
    kana0355
    kana0355 2017/10/12
  • Amazon Polly – 文章から音声へ、47の声と24の言語 | Amazon Web Services

    Amazon Web Services ブログ Amazon Polly – 文章から音声へ、47の声と24の言語 この記事を書き始める時に、自分の子供の頃(TVを見てばかり過ごしていました)に戻って、1960年代や1970年代の有名なコンピュータやロボットの声を思い出してみました。たった数分で、HAL-9000、B9 (Lost in Space)、Star Trek Computerのオリジナル、そしてRosie (The Jetsonsより)が頭に浮かびました。当時は、機械的に生成された音声は、正確な音でそっけなく、人間の感情を欠いているものを多くの人が期待していました。 多くの年月を早送りして、現在はコンピュータが生成した音声には多くの優れたアプリケーションとユースケースが存在し、一般的にText-to-SpeechまたはTTSとして知られています。エンターテイメント、ゲーム、公的

    Amazon Polly – 文章から音声へ、47の声と24の言語 | Amazon Web Services
  • 《日経Robo》文から文を生成するニューラルネットワーク

    この記事は日経Robotics 有料購読者向けの記事ですが 『日経Robotics デジタル版(電子版)』のサービス開始を記念して、特別に誰でも閲覧できるようにしています。 自然言語処理分野において、この数年で大きく進展したのが文の認識と生成である。この中心的な役割を果たしたのがseq2seq(Sequence To Sequence)と呼ばれる新しい系列モデルだ1)。 文はサイズが可変である一方、機械学習が使うモデルのサイズは固定である。このため、文を機械学習のモデルで扱うには、何らかの形で文を機械が扱える固定長の表現に変換する必要がある。 従来手法では文を表現するには、Bag of Wordsと呼ばれる、文に含まれる単語の集合による表現(文書中の単語の位置は無視し、文書中にある単語が出現していたら、その単語に対応する次元を1、それ以外を0にしたような表現)か、または文の意味を解析し、述

    《日経Robo》文から文を生成するニューラルネットワーク
    kana0355
    kana0355 2017/10/08
    “最近では「木構造は本当に必要なのか」という議論もされている。”
  • 突然かつ急激な産業革命的パラダイムシフト、翻訳屋のロゼッタが機械翻訳の飛躍的な向上に白旗宣言 : 市況かぶ全力2階建

    のぞみ全車指定のJR西日、「お乗りになってから初めて自由席がないことにお気付きのお客様」とつい煽ってしまう

    突然かつ急激な産業革命的パラダイムシフト、翻訳屋のロゼッタが機械翻訳の飛躍的な向上に白旗宣言 : 市況かぶ全力2階建
  • Google、プログラミング不要で“機械学習”試せるサイト公開

    サイトは、Googleが8月にリリースした、ブラウザ上で機械学習の訓練と推論を実行できるJavaScriptのライブラリ「deeplearn.js」を用いて作られた。サイトのソースコードはGitHub上に公開している。 Google Creative Labのデザイナーであるバロン・ウェブスターさんは、ブログで「機械学習について興味がある人々が、もっと簡単に機械学習を試せるようにしたかった」とコメントしている。 関連記事 Google、人間のように線画を描く人工知能「sketch-rnn」を養成中 Googleがお絵かきゲーム「Quick, Draw!」にユーザーが手描き入力した膨大なデータを学習材料に訓練した人工知能「sketch-rnn」は、ネコやブタの線画を人間のように描く。 Google、手描きの絵を機械学習でプロの絵に置き換える「AutoDraw」公開 AutoDrawは、タッチ

    Google、プログラミング不要で“機械学習”試せるサイト公開
    kana0355
    kana0355 2017/10/04
  • 日本ディープラーニング協会が発足、資格試験で技術者3万人育成

    ディープラーニング技術などを手掛ける企業や研究者が中心となり、同技術の推進団体「日ディープラーニング協会(JDLA:Japan Deep Learning Association)」が発足した。理事長は東京大学大学院工学系研究科 特任准教授の松尾豊氏。ディープラーニング技術の人材不足解消や産業界での活用促進などを目指す。

    日本ディープラーニング協会が発足、資格試験で技術者3万人育成
    kana0355
    kana0355 2017/10/04
    “Preferred Networksは参画していない。”あ.
  • word2vec を超えた異空間 - 武蔵野日記

    今日は第9回最先端 NLP 勉強会参加のためにリクルート MTL カフェへ。 この勉強会は毎年この時期に開催され、最前線で活躍する人たちがみんなが読みたいと思っている論文を紹介する、という趣旨で開催されている勉強会で、読む前に論文の投票があったりなんだりと、独特のプロセスがある。 自分はというと今年は以下の論文を紹介。 Ding et al. Visualizing and Understanding Neural Machine Translation. ACL 2017. 詳しくは紹介スライドを見てもらえるといいのだが、ニューラル機械翻訳を可視化したいというモチベーションで、ニューラル機械翻訳ではデコード時のアテンションを見ることで少しは見当が付くのだが、それでは全然十分ではないのでもっと細かく見たい、という話(アテンションはアライメントとも違うので、解釈しにくい)。 あとで [twi

    word2vec を超えた異空間 - 武蔵野日記
  • If文から機械学習への道

    機械学習とif文が地続きであることを解説しました。 ver.2 質問への回答を追加し、顧客価値の小問に図を追加してわかりやすくかみ砕きました。Read less

    If文から機械学習への道
    kana0355
    kana0355 2017/09/28
  • 中3「教科書理解できない」25%…読解力不足 : 社会 : 読売新聞(YOMIURI ONLINE)

    新聞や教科書などを読み取る基礎的な読解力を身に付けられないまま中学を卒業する生徒が25%にのぼることが、国立情報学研究所(東京都)・新井紀子教授らの研究チームの初調査で明らかになった。 社会生活を送るのに最低限必要な読解力の不足が懸念される状況だ。 調査は2016年4月~17年7月、全国の小6~社会人を対象に、独自の読解力テストを実施。公立・私立中高生2万1000人の結果を中心に分析した。 主語や目的語など文章の構造が理解できているかを問うタイプの設問群で、中学1年の正答率は62%、中学2年が65%、中学3年が75%となった。中学3年の4人に1人(25%)が、教科書レベルの基礎的な読解力を身に付けないまま義務教育を終えていることになる。

    中3「教科書理解できない」25%…読解力不足 : 社会 : 読売新聞(YOMIURI ONLINE)
  • 中3の15%は短文理解も難しい?中学卒業までの読解的基礎力と将来との関連性に驚く人々と納得する人々「ツイッター見てたらわかる」

    リンク 東京新聞 TOKYO Web 中3の15%、短文も理解困難 教科書や新聞で読解力調査 短い文章から事実を正しく理解する「基礎的読解力」について、国立情報学研究所の新井紀子教授や名古屋大学などのグループが、全国の小中高校生や大学生、社会人らを調… 666 users 1603 新井紀子/ Noriko Arai @noricoco 東ロボ, NetCommons, researchmap, リーディングスキルテスト, edumap, 「AI vs. 教科書が読めない子どもたち」「AIに負けない子どもを育てる」,教育のための科学研究所所長 信頼が崩壊した社会は無駄にコストが高い。name callingはやめませう。 researchmap.jp/arai_noriko/

    中3の15%は短文理解も難しい?中学卒業までの読解的基礎力と将来との関連性に驚く人々と納得する人々「ツイッター見てたらわかる」
  • 文章を正確に読む力を科学的に測るテストを開発/産学連携で「読解力」向上を目指す研究を加速 - 国立情報学研究所/National Institute of Informatics

    大学共同利用機関法人 情報・システム研究機構 国立情報学研究所(NII、所長:喜連川 優、東京都千代田区)は、知識基盤社会において核心的な学力である「読解力」を科学的に診断し、その高低が発生する要因を特定する研究に昨年度から取り組んでいます。この研究を加速し、欠けた部分を補う教育方法を考案して子どもたちの読解力を高め、日教育の質的向上に取り組むため、教育に関わる企業・団体などと共同で産学連携の「教育のための科学研究所」準備協議会をこのほど設置しました。NII以外の参加企業・法人は以下の通りです (五十音順)。 学校法人高宮学園代々木ゼミナール 株式会社ベネッセコーポレーション 東京書籍株式会社 日電信電話株式会社 富士通株式会社 上記の企業・団体に加えて、株式会社野村総合研究所 未来創発センターが協賛します。 件の詳細については、下記リンク先のリリースと資料をご参照下さい。 ニュー

    文章を正確に読む力を科学的に測るテストを開発/産学連携で「読解力」向上を目指す研究を加速 - 国立情報学研究所/National Institute of Informatics
  • リーディングスキルテストで測る読解力とは

    【別紙資料 1】 リーディングスキルテストで測る読解力とは 大学共同利用機関法人 情報・システム研究機構 国立情報学研究所 社会共有知研究センター センター長・新井紀子 「リーディングスキルテスト」(RST)とは、教科書や新聞、マニュアルや契約書などのドキュメント の意味および意図を、 どれほど迅速かつ正確に読み取ることができるかの能力を測定するために国立情報 学研究所 社会共有知研究センターが考案したテストです。 文章(テキスト)と図表から成る初見のドキュメントを、人がどのように読解するかについては、いま だ解明されていない部分が多く残されていますが、 少なくとも次のようなプロセスが含まれると考えられ ています。 1. 文節に正しく区切る。(例:私は学校に行く。→私は/学校に/行く。) 2. 係り受けの構造を正しく認識する。(例:美しい水車小屋の乙女。→美しいのは「乙女」である) 3.