NLPとresearchに関するkana0355のブックマーク (49)

  • 在留支援のためのやさしい日本語ガイドライン | 出入国在留管理庁

    このガイドラインは、出入国在留管理庁と文化庁が、共生社会実現に向けたやさしい日語の活用を促進するため、多文化共生や日語の有識者、外国人を支援する団体の関係者などを集めた在留支援のためのやさしい日語ガイドラインに関する有識者会議を開催し、やさしい日語を活用している地方公共団体や外国人の意見を聞いて作成したものです。 日に住む外国人が増え、その国籍も多様化する中で、日に住む外国人に情報を伝えたいときに、多言語で翻訳・通訳するほか、やさしい日語を活用することが有効です。 このガイドラインは、やさしい日語の中でも、特に書き言葉に焦点を当てたガイドラインです。 お知らせなど書き言葉で情報発信をする際に、ぜひご活用ください。 また、別冊のやさしい日語書き換え例では、日語をやさしい日語に変換する際の一例を掲載しています。 【2020年11月13日】 ガイドラインの解説動画をYouT

  • TEC-JL コーパス - Qiita

    概要 TEC-JL コーパス について紹介します。 3行まとめ 日語学習者の文法誤り訂正システムのための評価コーパスです。 (手書きの作文ではなく)キーボードから入力した作文に、最小限の訂正で文法的に正しい文になるよう、文法誤り訂正情報を付与しています。 大幅な訂正も許容して、文法的に正しくかつ流暢な文にするようなコーパスを現在作成中です。 いきさつ 自分の所属する都立大システムデザイン学部情報科学科(およびその前身の情報通信システムコース)では、研究室配属は4年生ですが、3年生の後期に「研究室インターンシップ」として研究室に仮配属され、(研究室ごとにそれぞれ異なる)研究を体験できる、というシステムがあり、それの一環として研究をしたい(学部3年生で論文を書いてみたい)という学生に対しては、半年間研究をして論文を書いてもらい、3月の言語処理学会年次大会で発表する、ということをしています。

    TEC-JL コーパス - Qiita
  • 自然言語を簡単に可視化・分析できるライブラリ「nlplot」を公開しました - ギークなエンジニアを目指す男

    こんにちは。たかぱい(@takapy0210)です。 日は自然言語の可視化を手軽にできるようにしたパッケージnlplotをPyPIに公開したので、これのご紹介です。 nlplotとは? nlplotで何ができるか 使い方 使用データ 事前準備 ストップワードの計算 N-gram bar chart N-gram tree Map Histogram of the word count wordcloud co-occurrence networks sunburst chart まとめ nlplotとは? 自然言語の基的な可視化を手軽にできるようにしたパッケージです。 現在は日語と英語で動作確認済みです。 基的な描画はplotlyを用いているため、notebook上からインタラクティブにグラフを操作することができます。 github.com (スター★お待ちしております🙇‍♂️)

    自然言語を簡単に可視化・分析できるライブラリ「nlplot」を公開しました - ギークなエンジニアを目指す男
  • 情報系研究者のための研究ノート - Qiita

    Abstract 計算機科学研究での記録のとり方 を書いてから半年ほど過ぎて、さらに知見がたまったので書き直します。情報系研究者が、紙ベース以外で研究ノートを取る場合に何をすれば良いか とにかく効率よく研究するにはどうするか をいくつかまとめました。改善案があればコメント希望、自分も研究効率をあげたいので教えてほしいですね。半年ぐらい経ったらたぶんまた書き直すと思います。 Introduction 記事は、締め切りの明確に定まっている文章(上位国際学会論文、国際学会論文のrebuttal(反論)データ、学位論文)のための実験を円滑柔軟に行う上での効果的なノウハウを提案する。この内容は、筆者のいる研究室でのゼミ内容を幾分反映してはいるが、それだけにはとどまらない。内容はいくつかの段階に分けられる。 実装段階での工夫 実験デザイン段階の工夫 実験実行段階での工夫 Preliminaries

    情報系研究者のための研究ノート - Qiita
  • 論文を読む能力 - なーんだ、ただの水たまりじゃないか

    去年の4月くらいから、論文を読む事が出来るようになった、という気がしている。 もう一年以上前の話なんだが。なんとなくその事をブログに書いてなかったな、と思ったので、ここに書いておく。 論文を読む、というのは、みんなやっている、と主張はするものだ。 ちゃんと理解できているかは怪しいものだが、 一方でその区別もそんなにはっきりとはしていないので、 誰が論文は読めて誰が読めてないのかもよく分からない。 論文の分野にもよるからますます一概には言えない。 ただ、機械学習仕事では論文を読むのは重要な日常業務の一つで、 この能力が明らかに不足している人というのはかなり居る。 明確な境界を決めるのは無理だけれど、明らかに足りてない場合は明白に分かるし、皆が言う程はこの能力は簡単な物では無い。 実際、自分も2015年ころには、この論文を読む能力が低くて困っていた。 2017年の4月頃には読めるようになった

  • word2vec(Skip-Gram Model)の仕組みを恐らく日本一簡潔にまとめてみたつもり - これで無理なら諦めて!世界一やさしいデータ分析教室

    久しぶりの記事更新です。 今回はかねてより書いてみたかったword2vecについて。 word2vecはとても面白い考え方なのですが、個人的には仕組みがちょっと捉えづらく、理解するのに結構時間がかかりました。 そこで今回は、過去の自分を救えるように、word2vecをできるだけ簡潔に、そして直観的に理解できるように解説していきます。 なお、word2vecについては以下書籍でよくまとまっているので、よろしければ是非! Pythonと実データで遊んで学ぶ データ分析講座 作者: 梅津雄一,中野貴広出版社/メーカー: シーアンドアール研究所発売日: 2019/08/10メディア: 単行(ソフトカバー)この商品を含むブログを見る ※追記※ スマホのAMPだと、行列や数式がうまく表示されない可能性がありますので、こちらのリンクかPCから購読頂けますと幸いです。 word2vecを使うと何ができる

    word2vec(Skip-Gram Model)の仕組みを恐らく日本一簡潔にまとめてみたつもり - これで無理なら諦めて!世界一やさしいデータ分析教室
    kana0355
    kana0355 2018/01/16
    ”ある単語の周りに出現する単語を予測する学習を、ニューラルネットワークで行う””入力層から隠れ層への重み行列の各行を、そのまま単語ベクトルと表現”
  • Type Token Ratio (TTR) を使うのはもう止めようという話 - Qiita

    (V:異なり語数, N:総語数) という単純な式で表されます。 テキストマイニングで有名な同志社大の金先生のサイトにも紹介され、たまに論文でも見かける指標ですが、注意して扱わないと間違った結論を引き出しかねません。 というのもTTRにはサンプルサイズ依存性があり、Nが異なる文書間ではTTRを比較することができないからです(したがって上記サイトで安倍首相は福田総理よりも語彙が豊富と結論しているのは誤りだと思う)。以下、説明とその対策を見ていきたいと思います。 サンプルサイズ依存性 この問題はBaayen(2001)の"Word Frequency Distributions"に詳しく書かれています。 一言で言うと、問題は異なり語数Vが総語数Nの増加に対して線形には増加していかないことにあります。TTRは異なり語数を総語数で割ったものなのですが、この性質から、一般的には総語数が少ない文書のほう

    Type Token Ratio (TTR) を使うのはもう止めようという話 - Qiita
  • VOICE - Project

  • Structured Abstracts

    What are structured abstracts? A structured abstract is an abstract with distinct, labeled sections (e.g., Introduction, Methods, Results, Discussion) for rapid comprehension (see Figure 1). What kinds of structures are used? Standardized formats for structured abstracts have been defined for original research studies, review articles and clinical practice guidelines (1,2). The IMRAD format (INTRO

    Structured Abstracts
    kana0355
    kana0355 2017/03/16
    Move付きPubMed Abstract
  • TwilioとGoogle Cloud Speech APIで電話の内容を文章に変換する | DevelopersIO

    Google Cloud Speech API (以下Speech API) を利用すると、人間が発声した音声をAPIを通してテキストに変換することができます。 Speech APIは日語にも対応しているため、国内でも電話で話した内容を自動的にテキストに変換するといったようなことが出来るようになります。 ということで、Twilio, Zappa, Speech APIを組み合わせて、サーバレスに電話の内容を文章化する仕組みをつくってみました。 構成 以下が今回作成した仕組みの構成図になります。 Twilioを用いて電話から音声を録音する方法については、こちらの記事を参考にしてください。 上記の記事に加えて、Twilioから録音された音声ファイルのURLをSNSを通して別のLambda Functionに投げ、そこから音声ファイルの取得とSpeech APIへの問い合わせを行っています。最

    TwilioとGoogle Cloud Speech APIで電話の内容を文章に変換する | DevelopersIO
  • 2016年のディープラーニング論文100選 - Qiita

    これはFujitsu Advent Calendar 2016の11日目の記事です。 掲載内容は個人の意見・見解であり、富士通グループを代表するものではありません。なお、内容の正確性には注意を払っていますが無保証です。 はじめに この記事では先月今年発表されたディープラーニング論文(ArXivでの発表時期、発表された国際会議が2016年開催またはジャーナル掲載が2016年のもの)から私が個人的に重要だと思った論文を収集しています。また、2015年末ごろの論文も重要なものは採用しています。 以下の投稿も合わせてご覧ください。 2017年のディープラーニング論文100選 DeepLearning研究 2016年のまとめ 2016年の深層学習を用いた画像認識モデル foobarNet: ディープラーニング関連の○○Netまとめ NIPS2016実装集 ディープラーニングにとっての2016年 20

    2016年のディープラーニング論文100選 - Qiita
    kana0355
    kana0355 2016/12/22
    素晴らしい
  • NAACL2016 - 寺町計算言語

    忘れた頃にもう一つ国際会議の報告です。6月に NAACL 2016 という会議に出かけて発表してきました。 NAACL という会議は、ACL、EMNLP と並んで、一応 first tier ということになっています。私の論文は聞く人がいるとは思えない趣味ネタでしたが、どういうわけか口頭発表でした。 まあ、この日記に研究の中身の話は書かないことにしています。興味があれば他を当たってください。NLP若手の会 (YANS) 第11回シンポジウム プログラムで小林颯介さんという学生 (当時) が立派な参加報告をされていて感心しました。*1そのスライドが公開されると良いのですが。 NAACL の NA は North American の略で、その名の通り北米で開催されます。*2今回の開催地はカリフォルニアのサンディエゴで、空港と海に挟まれたヨットハーバーの付け根という異様な立地でした。空港から歩

    NAACL2016 - 寺町計算言語
    kana0355
    kana0355 2016/10/10
    “これは不幸なことだと思います。自分で手を動かせる時間がある人は自分が本当にやりたいことをできず、自分がやりたいことをできるようになったときには自分で手を動かす時間がなくなるのです。”
  • NHK番組アーカイブス 学術利用トライアル

    学術利用トライアルは、NHKがこれまで放送し、NHKアーカイブスで保存している番組を大学などの研究者に見ていただき、学術的に利用する方法を検討するプロジェクトです。公募で採択された研究者には、東京のNHK放送博物館、川口・NHKアーカイブス、NHK大阪拠点放送局の研究閲覧室で、研究テーマに沿った番組を選んで閲覧し、その成果を研究論文や学会発表などにつなげ、放送文化の発展に貢献していただきたいと考えています。このプロジェクトは2010年からスタートし、これまで253組の研究者の方々が参加しています。 時代を記録してきたNHKの放送番組を、新しい視点で視聴し、NHKアーカイブスから新たな知見を切り開いてみませんか。積極的な参加をお待ちしています。 テレビ草創期のものから最近のものまで、原則としてNHKが過去に放送した様々なジャンルのあらゆるテレビ・ラジオ番組、約100万が閲覧できます。※ニュ

  • 「HOME'S」の物件・画像データセットを研究者に提供開始します! - LIFULL Creators Blog

    こんにちは、リッテルラボラトリーの清田です。 このたび、国立情報学研究所(NII)のご協力を得て、HOME'Sに掲載されている日全国の賃貸物件データ(約533万件)と、それに紐付く物件画像データ(約8300万件)を研究資源として無償提供することになりました。あわせて、画像処理分野などで注目を集めているdeep learningなどの機械学習アルゴリズムや、テキストマイニング処理などを簡単に試していただけるツールキット群も年内に公開予定です。 2015年11月24日より、NII情報学研究データリポジトリを通じてHOME'Sデータセットとして提供開始しました。ぜひ多くの研究者の方にデータセットを研究利用していただき、住まい探しを変革するようなイノベーションにつなげていただけると嬉しいです! 詳しい内容については、以下のイベントでお話しさせていただきました。 スライドファイルを公開しております

    「HOME'S」の物件・画像データセットを研究者に提供開始します! - LIFULL Creators Blog
  • 自然言語処理を自習したくなったら参考になりそうなサイトなど - 鴨川にあこがれる日々

    雑にですが,知ってるサイトやチュートリアルをまとめたくなったのでまとめてみました.夏ですし. 適宜更新しています. 最終更新 2018年02月03日 チュートリアル 言語処理100ノック 言語処理100ノック 2015 東工大の岡崎先生が作られたチュートリアルです. 他大学の研究室でも利用されています. 簡単な内容からはじまるので,プログラミングの導入としてもいいと思います. NLPプログラミングチュートリアル Graham Neubig's Teaching Carnegie Mellon UniversityのGraham Neubig先生のチュートリアルです. Githubにサンプルコードが公開されています. 各チュートリアルにはテストがついているので,実装が正しいかを確かめることができます. 扱っているトピックが広いので,かなり勉強になると思います. ソフト 形態素解析器 日

    自然言語処理を自習したくなったら参考になりそうなサイトなど - 鴨川にあこがれる日々
  • 「エンジニアは今すぐディープラーニングを学べ」松尾豊氏が見据える、日本がシリコンバレーを追い越す日 - エンジニアtype | 転職type

    2015.07.08 スキル 大企業からスタートアップまで。BtoBサービスからエンターテインメントまで。日々取材をしていて、いまや人工知能という言葉を聞かない日はない。過去2度のブームと冬の時代を繰り返してきた人工知能研究に、3度目の春が訪れている。 その主役は「ディープラーニング」と呼ばれる新しい機械学習の手法だ。 2012年に行われた画像認識技術を競う世界的なコンペティション「ILSVRC」で、トロント大学の研究チームがこの技術を用いて、それまでの常識を覆す圧勝を記録。同じ年に発表された有名な「Googleのネコ認識」と呼ばれる研究も、ディープラーニングを用いたものだった。 東京大学大学院工学系研究科・准教授の松尾豊氏も、まだ「ディープラーニング」という名前がなかったころからこの技術に注目し、研究を続けてきていた。松尾氏は著書『人工知能は人間を超えるか』の中で、ディープラーニングを「

    「エンジニアは今すぐディープラーニングを学べ」松尾豊氏が見据える、日本がシリコンバレーを追い越す日 - エンジニアtype | 転職type
    kana0355
    kana0355 2015/07/08
    さあ,エンジニアのみなさん,D進して勉強しましょう.
  • NEWS - Preferred Networks, Inc.

    PFE to Develop 100B Multimodal Foundation Model and Test Pre-Training of 1T Large Language Model with NEDO’s Support

    NEWS - Preferred Networks, Inc.
    kana0355
    kana0355 2013/11/06
    “次世代シーケンサーから得られたビックデータの解析における大規模機械学習技術・情報検索技術・文字列解析技術の応用に関して、共同研究契約を締結しました。”
  • ETS Research: Automated Scoring and Natural Language Processing

  • タグ付きKYコーパス

    ■更新情報 2023.6.1.公開終了しました。 2023.3.29. 公開終了のお知らせ。 2013.6.1. ユーザーインタフェースを更新しました。 2010.4.1. ウェブ版「タグ付きKYコーパス」を公開します。 あなたは 番目の訪問者です。

  • グローバルに活躍するなら日本人であることは武器 - 武蔵野日記

    夜の10時くらいに床に就いたのだが、2-3時間に1回起きてしまい、熟睡できない。体調が悪いせいというよりは、昨日と一昨日に寝すぎたせいかもしれないが……。 乾燥しているせいか、喉が痛くて眠れないので、朝病院に行く。それほど待つこともなくスムーズに診察。症状を伝えると、「かなりインフルエンザだった可能性が高いですね。ただ、もう治っていると思うので、検査しても出す薬は変わりませんし、検査する必要はないかと思いますが、会社の関係で診断書が必要なのであれば検査しますが、どうしますか。」と言われ、人生初インフルエンザの感染確認をお願いしようかと一瞬悩んだが、検査しないほうがいいと思いますよオーラが出ていたので、やらないことにする。喉の薬だけ処方してもらう。(これは、経験上、喉かぜは最近薬を飲まないと1週間以上こじらせることが多いので) 帰宅してから在宅で仕事 (←一応有給申請してあるが)。週5日の勤

    グローバルに活躍するなら日本人であることは武器 - 武蔵野日記
    kana0355
    kana0355 2013/02/14
    "日本語を扱わなければいけない仕事は、日本語に特化した作り込みが必要であるという点で、それなりに高い参入障壁がある"