[B! NLP] [12ページ] kana0355のブックマーク

Encoder-Decoder でレシピの材料名を正規化する - クックパッド開発者ブログ

研究開発部の原島です。部のマネージメントのかたわら、自然言語処理関連の開発に従事しています。本エントリでは、最近社内で開発した自然言語処理システムを紹介します。 ■ 「しょうゆ」のバリエーションは 100 種類以上クックパッドで以前から解決したかった課題の一つに材料の名前（以下、材料名）の正規化があります。クックパッドのレシピは複数の材料から構成され、各材料は名前と分量から構成されています。例えば、上のレシピの一つ目の材料は「豚薄切り肉」が名前で、「200g」が分量です。さて、この材料名はこのレシピでは「豚薄切り肉」という表現でした。しかし、他のレシピでは「豚うす切り肉」という表現かもしれません。「豚うすぎり肉」や「ぶた薄切り肉」、「豚薄ぎり肉」等の表現もありえますね。これは異表記同義（いわゆる表記揺れ）の問題ですが、同様の問題は他にも沢山あります。例えば、以下のようなものです。

kana0355 2017/10/30

NLP

リンク

「仕事ではじめる機械学習」をざっくり読んだので感想やメモなど - razokulover publog

仕事ではじめる機械学習を購入したので早速読んでみた。知ってる箇所とか結構流したとこもあるので雑なメモです。第Ⅱ部に関しては特に読んでないとこ多いのだが、手を動かさないと意味ないしまた休日にでもやってみます。第Ⅰ部 1章機械学習プロジェクトのはじめ方まずは機械学習を使わないで解決できないか考える序盤でこの１文が出てきて信用できる本だとわかったすぐに結果がでないことが多いのでそれに投資できる/させる調整が必要そう解くべき問題の仮設設定とMVP検証を必ずやる成功させるには以下のメンバーが必要ドメイン知識のあるメンバー・機械学習する人・データエンジニア・失敗を恐れない理解有る責任者テストがしずらいので継続的にモニタリングして性能の評価をするべし 2章機械学習で何ができる？ p22のどのアルゴリズムを選ぶべきかのフローチャート図が便利これの簡略版分類・回帰・クラスタリング

kana0355 2017/10/28

NLP

リンク

AlphaGo Zeroの論文の要約 : ブログ

Alpha Go Zeroが自己学習のみで過去最強になったというニュースが出たのでその元論文を読み、要約をしました。まず感想を述べると、過去数千年にわたって蓄積してきた知識をAIが数時間で発見することに対する気持ち良さがありました。人間などクソ食らえと思っておりますので、こう言うニュースはとてもスッキリします。そして人間の発見していない打ち筋の発見にも感動しました。これこそがAIの真髄だと信じています。人間が見えていないものをAIが見つける、僕もいつかそんなことをしてみたいと思いながら生きています。あともう一つ重要だと思ったのは、とてもネットワーク構造および学習過程が簡素化されたことです。マシンパワーも過去に比べて非常に少なく済み、個人でもすぐに再現実験ができそうなくらいです。AIが強くなることと、構造および学習のsimplerが同時に達成できていることが本質的だと思います。一応、下記

kana0355 2017/10/21

“ルール以外の人間の知識を与えずに純粋な強化学習だけで人間を超えることが可能だと言うことを証明した。”

web
NLP

リンク

大自然言語時代のための、文章要約 - Qiita

さまざまなニュースアプリ、ブログ、SNSと近年テキストの情報はますます増えています。日々たくさんの情報が配信されるため、Twitterやまとめサイトを見ていたら数時間たっていた・・・なんてこともよくあると思います。世はまさに大自然言語時代。 from THE HISTORICAL GROWTH OF DATA: WHY WE NEED A FASTER TRANSFER SOLUTION FOR LARGE DATA SETS テキスト、音声、画像、動画といった非構造データの増加を示したグラフそこで注目される技術が、「要約」です。膨大な情報を要点をまとめた短い文章にすることができれば、単純に時間の節約になるだけでなく、多様な視点から書かれた情報を並べて吟味することもできます。本文書は、この文書要約(Text Summarization)についてその概観を示すことを目的として書かれていま

kana0355 2017/10/19

NLP

リンク

AlphaGo Zero: Starting from scratch

Research Alpha Go Zero: Starting from scratch Published 18 October 2017 Authors David Silver, Demis Hassabis Artificial intelligence research has made rapid progress in a wide variety of domains from speech recognition and image classification to genomics and drug discovery. In many cases, these are specialist systems that leverage enormous amounts of human expertise and data. However, for some pro

kana0355 2017/10/19

NLP

リンク

「ＡｌｐｈａＧｏ」が進化囲碁の打ち手教えずに従来型破る | NHKニュース

囲碁のトップ棋士に勝った人工知能「ＡｌｐｈａＧｏ」が進化し、打ち手を全く教えずに白紙の状態から学習して従来型の人工知能を破ったと開発した会社が発表し、人工知能はもはや人間の知識に制約されなくなったとしています。この会社が開発した人工知能「ＡｌｐｈａＧｏ」は、囲碁の名人の打ち手のデータを基に学習を重ね、ことし世界最強とされる中国のトップ棋士を破り、大きな話題となりました。今回、新たに開発した「ＡｌｐｈａＧｏＺｅｒｏ」は答えを導くデータがなくても、人工知能がみずから試行錯誤を繰り返して、よりよい答えにたどり着く、「強化学習」という手法を取り入れたということです。そして、囲碁の基本ルール以外には何も教えず、わずか３日間で５００万回の対戦をひとりでに繰り返して強さを身につけた結果、トップ棋士を破った従来型の人工知能に圧勝したということです。さらに、新型の人工知能は白紙の状態から学習する中で

kana0355 2017/10/19

まさか，この時代になっても「数学なんて勉強して何の役に立つの？」という人はいないよね……？数学が分からないと，このニュースが何を意味するかも分からない時代になってるんだから．

web
NLP

リンク

ggsoku.com

kana0355 2017/10/14

NLP

リンク

機械学習におけるカーネル法について - めもめも

何の話かというと機械学習におけるカーネル法の説明で、よく登場するのがこちらの図です。左側の (x, y) 平面上の点を分類する場合、このままだと線形分類器（直線で分類するアルゴリズム）ではうまく分類できないのが、右図のように z 軸を追加してデータを変形すると、平面できれいに分割できるようになって、線形分類器による分類がうまくいくというものです。このように、高次元空間にデータを埋め込むことでうまいこと分類するのがカーネル法の仕組みだというわけです。なのですが・・・・・・・・・・・・・・・・・・・・これ、本当にカーネル法の原理を知っている方には、ちょっと気持ち悪くないですか？ ※ 以下はカーネル法を知っている方向けのつぶやきです。上記の例は、データの配置にあわせて、うまいこと z 軸方向の変形をしているのでうまくいっているのですが、カーネル法には、データの配置にあわせてうまいこと変

kana0355 2017/10/14

“k近傍法における、kの値を大きくすることと同等の効果になります。”

NLP

リンク

人はなぜ「人工知能に自我が芽生える」と思ってしまうのか

進化した人工知能が自我を持つ――。人工知能にまつわるよくある議論の1つですが、実際に開発しているエンジニアからすれば、全く現実的な話ではありません。それでも、なぜ人は、人工知能に自我が芽生えると思ってしまうのでしょうか。人工知能（AI）に関してよくある議論の1つに「人工知能は自我を持つのか」といったテーマがあります。人工知能の性能が上がり続けることで、「いずれは人間のように、心（自我）を持つのではないか？」と思う人は少なくありません。この話は「自我を持った人工知能が人間に反旗を翻して、戦争を起こすのではないか？」という脅威論のベースにもなっています。こうした心配が広がるのは、「心を持つロボット」というモチーフの物語が世に数多くあるためかとも思うのですが、実際に人工知能を開発しているエンジニアからすると、「そんなバカな……」と失笑するレベルで非現実的な話なのです。しかし、実際にPepp

kana0355 2017/10/12

NLP

リンク

Amazon Polly – 文章から音声へ、47の声と24の言語 | Amazon Web Services

Amazon Web Services ブログ Amazon Polly – 文章から音声へ、47の声と24の言語この記事を書き始める時に、自分の子供の頃(TVを見てばかり過ごしていました)に戻って、1960年代や1970年代の有名なコンピュータやロボットの声を思い出してみました。たった数分で、HAL-9000、B9 (Lost in Space)、Star Trek Computerのオリジナル、そしてRosie (The Jetsonsより)が頭に浮かびました。当時は、機械的に生成された音声は、正確な音でそっけなく、人間の感情を欠いているものを多くの人が期待していました。多くの年月を早送りして、現在はコンピュータが生成した音声には多くの優れたアプリケーションとユースケースが存在し、一般的にText-to-SpeechまたはTTSとして知られています。エンターテイメント、ゲーム、公的

kana0355 2017/10/12

リンク

《日経Robo》文から文を生成するニューラルネットワーク

この記事は日経Robotics 有料購読者向けの記事ですが『日経Robotics デジタル版（電子版）』のサービス開始を記念して、特別に誰でも閲覧できるようにしています。自然言語処理分野において、この数年で大きく進展したのが文の認識と生成である。この中心的な役割を果たしたのがseq2seq（Sequence To Sequence）と呼ばれる新しい系列モデルだ1）。文はサイズが可変である一方、機械学習が使うモデルのサイズは固定である。このため、文を機械学習のモデルで扱うには、何らかの形で文を機械が扱える固定長の表現に変換する必要がある。従来手法では文を表現するには、Bag of Wordsと呼ばれる、文に含まれる単語の集合による表現（文書中の単語の位置は無視し、文書中にある単語が出現していたら、その単語に対応する次元を1、それ以外を0にしたような表現）か、または文の意味を解析し、述

kana0355 2017/10/08

“最近では「木構造は本当に必要なのか」という議論もされている。”

NLP
CogLing

リンク

突然かつ急激な産業革命的パラダイムシフト、翻訳屋のロゼッタが機械翻訳の飛躍的な向上に白旗宣言 : 市況かぶ全力２階建

のぞみ全車指定のJR西日本、「お乗りになってから初めて自由席がないことにお気付きのお客様」とつい煽ってしまう

kana0355 2017/10/04

web
NLP

リンク

Google、プログラミング不要で“機械学習”試せるサイト公開

サイトは、Googleが8月にリリースした、ブラウザ上で機械学習の訓練と推論を実行できるJavaScriptのライブラリ「deeplearn.js」を用いて作られた。サイトのソースコードはGitHub上に公開している。 Google Creative Labのデザイナーであるバロン・ウェブスターさんは、ブログで「機械学習について興味がある人々が、もっと簡単に機械学習を試せるようにしたかった」とコメントしている。関連記事 Google、人間のように線画を描く人工知能「sketch-rnn」を養成中 Googleがお絵かきゲーム「Quick, Draw!」にユーザーが手描き入力した膨大なデータを学習材料に訓練した人工知能「sketch-rnn」は、ネコやブタの線画を人間のように描く。 Google、手描きの絵を機械学習でプロの絵に置き換える「AutoDraw」公開 AutoDrawは、タッチ

kana0355 2017/10/04

NLP

リンク

日本ディープラーニング協会が発足、資格試験で技術者3万人育成

ディープラーニング技術などを手掛ける企業や研究者が中心となり、同技術の推進団体「日本ディープラーニング協会（JDLA：Japan Deep Learning Association）」が発足した。理事長は東京大学大学院工学系研究科特任准教授の松尾豊氏。ディープラーニング技術の人材不足解消や産業界での活用促進などを目指す。

kana0355 2017/10/04

“Preferred Networksは参画していない。”あ．

NLP
web

リンク

word2vec を超えた異空間 - 武蔵野日記

今日は第9回最先端 NLP 勉強会参加のためにリクルート MTL カフェへ。この勉強会は毎年この時期に開催され、最前線で活躍する人たちがみんなが読みたいと思っている論文を紹介する、という趣旨で開催されている勉強会で、読む前に論文の投票があったりなんだりと、独特のプロセスがある。自分はというと今年は以下の論文を紹介。 Ding et al. Visualizing and Understanding Neural Machine Translation. ACL 2017. 詳しくは紹介スライドを見てもらえるといいのだが、ニューラル機械翻訳を可視化したいというモチベーションで、ニューラル機械翻訳ではデコード時のアテンションを見ることで少しは見当が付くのだが、それでは全然十分ではないのでもっと細かく見たい、という話（アテンションはアライメントとも違うので、解釈しにくい）。あとで [twi

kana0355 2017/10/02

リンク

If文から機械学習への道

機械学習とif文が地続きであることを解説しました。 ver.2 質問への回答を追加し、顧客価値の小問に図を追加してわかりやすくかみ砕きました。Read less

kana0355 2017/09/28

NLP

リンク

中３「教科書理解できない」２５％…読解力不足 : 社会 : 読売新聞（YOMIURI ONLINE）

新聞や教科書などを読み取る基礎的な読解力を身に付けられないまま中学を卒業する生徒が２５％にのぼることが、国立情報学研究所（東京都）・新井紀子教授らの研究チームの初調査で明らかになった。社会生活を送るのに最低限必要な読解力の不足が懸念される状況だ。調査は２０１６年４月～１７年７月、全国の小６～社会人を対象に、独自の読解力テストを実施。公立・私立中高生２万１０００人の結果を中心に分析した。主語や目的語など文章の構造が理解できているかを問うタイプの設問群で、中学１年の正答率は６２％、中学２年が６５％、中学３年が７５％となった。中学３年の４人に１人（２５％）が、教科書レベルの基礎的な読解力を身に付けないまま義務教育を終えていることになる。

kana0355 2017/09/25

NLP
CogLing

リンク

中3の15%は短文理解も難しい？中学卒業までの読解的基礎力と将来との関連性に驚く人々と納得する人々「ツイッター見てたらわかる」

リンク東京新聞 TOKYO Web 中３の１５％、短文も理解困難教科書や新聞で読解力調査短い文章から事実を正しく理解する「基礎的読解力」について、国立情報学研究所の新井紀子教授や名古屋大学などのグループが、全国の小中高校生や大学生、社会人らを調… 666 users 1603 新井紀子/ Noriko Arai @noricoco 東ロボ, NetCommons, researchmap, リーディングスキルテスト, edumap, 「AI vs. 教科書が読めない子どもたち」「AIに負けない子どもを育てる」,教育のための科学研究所所長信頼が崩壊した社会は無駄にコストが高い。name callingはやめませう。 researchmap.jp/arai_noriko/

kana0355 2017/09/25

CogLing
NLP

リンク

文章を正確に読む力を科学的に測るテストを開発／産学連携で「読解力」向上を目指す研究を加速 - 国立情報学研究所/National Institute of Informatics

大学共同利用機関法人情報・システム研究機構国立情報学研究所（NII、所長：喜連川優、東京都千代田区）は、知識基盤社会において核心的な学力である「読解力」を科学的に診断し、その高低が発生する要因を特定する研究に昨年度から取り組んでいます。この研究を加速し、欠けた部分を補う教育方法を考案して子どもたちの読解力を高め、日本の教育の質的向上に取り組むため、教育に関わる企業・団体などと共同で産学連携の「教育のための科学研究所」準備協議会をこのほど設置しました。NII以外の参加企業・法人は以下の通りです（五十音順）。学校法人高宮学園代々木ゼミナール株式会社ベネッセコーポレーション東京書籍株式会社日本電信電話株式会社富士通株式会社上記の企業・団体に加えて、株式会社野村総合研究所未来創発センターが協賛します。本件の詳細については、下記リンク先のリリースと資料をご参照下さい。ニュー

kana0355 2017/09/25

CogLing
NLP

リンク

リーディングスキルテストで測る読解力とは

【別紙資料 1】リーディングスキルテストで測る読解力とは大学共同利用機関法人情報・システム研究機構国立情報学研究所社会共有知研究センターセンター長・新井紀子「リーディングスキルテスト」（RST）とは、教科書や新聞、マニュアルや契約書などのドキュメントの意味および意図を、どれほど迅速かつ正確に読み取ることができるかの能力を測定するために国立情報学研究所社会共有知研究センターが考案したテストです。文章（テキスト）と図表から成る初見のドキュメントを、人がどのように読解するかについては、いまだ解明されていない部分が多く残されていますが、少なくとも次のようなプロセスが含まれると考えられています。 1. 文節に正しく区切る。（例：私は学校に行く。→私は/学校に/行く。） 2. 係り受けの構造を正しく認識する。（例：美しい水車小屋の乙女。→美しいのは「乙女」である） 3.

kana0355 2017/09/25

NLP
CogLing

リンク

はてなブックマーク

タグ

関連タグで絞り込む (44)

NLPに関するkana0355のブックマーク (1,751)

お知らせ

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

今週のはてなブックマーク数ランキング（2024年5月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス