[B! web][NLP] kana0355のブックマーク

GitHub - curtgrimes/webcaptioner: A former speech-to-text app using the Web Speech API.

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

kana0355 2022/02/07

web
NLP

リンク

日本の住所の正規化に本気で取り組んでみたら大変すぎて鼻血が出た。 - Qiita

先日、弊社では Community Geocoder というサービスをリリースしました。 Community Geocoder 紹介記事さて、このジオコーダーは、住所を正規化してそれを「大字町丁目コード」という12桁の数字に変換し、そのコードをファイル名として GitHub ページ上に大量においた JSON ファイルにアクセスして緯度経度を取得するということをやっています。つまり、住所の正規化からコードに変換する部分がとても重要で、そもそも正規化に失敗してしまうとどうしようもないという仕様なんです。さいわい先日経産省が公開した IMI コンポーネントツールである程度のことをやってくれるのですが（というかそうであることを期待したのですが）、いろいろ調べ始めると住所という仕組みはほんとに複雑で、Facebook で絡んでくださった @hfu さんいわくまさに「自然言語処理そのもの」であ

kana0355 2020/06/04

web
NLP

リンク

あまりに高精度のテキストを作り出してしまうため「危険すぎる」と問題視された文章生成言語モデルの最新版「GPT-3」公開

人間が書いたものと見分けが付かないぐらいに精度の高い文章を生成できる言語モデル「GPT-2」の後継である「GPT-3」が、人工知能を研究する組織・OpenAIにより公開されました。 GitHub - openai/gpt-3: GPT-3: Language Models are Few-Shot Learners https://github.com/openai/gpt-3 [2005.14165] Language Models are Few-Shot Learners https://arxiv.org/abs/2005.14165 OpenAI debuts gigantic GPT-3 language model with 175 billion parameters https://venturebeat.com/2020/05/29/openai-debuts-giga

kana0355 2020/06/01

web
NLP

リンク

https://anlp.jp/nlp2020/NLP2020_online_report.pdf

kana0355 2020/04/03

今年3月に急遽オンライン開催に変更となった言語処理学会第26回年次大会の記録．使用したZoomのアカウントは36個．

web
NLP

リンク

GoogleのAIとNTTのAIを融合したら最強の業務カイゼンツールが爆誕した - Qiita

作ったもの紙の書類などスキャンして管理してると ↓こんな感じでファイル名がカオスになりがち… そこで、今回のツールを一発たたくとこうなります。何となく中身が推測できるようになりました。このツールは何？請求書・名刺・Webページなどのpdf・画像ファイルの中身を読み取り、重要(っぽい)ワードで自動リネームするツールです。内部では以下を行ってます。ファイルをGoogle Driveにアップロード (G Suiteが理想) OCRされたテキストを抽出重要部分をNTTコミュニケーションズの固有表現抽出APIで抽出 (企業名とかの専門用語辞書使うと精度上がるっぽいけど無料版だと使えない…) 日付、会社名、人名を結合したファイル名を作りリネーム動作確認環境 Mac 10.14.3 Python 3.7.2 動かし方手順 1.ファイルをGoogle Drive APIでアップロードできる

kana0355 2019/04/16

web
NLP

リンク

Pythonと機械学習ができること画像認識を工場の事例で試してみた

工場を想定した事例をPythonで画像認識今回は「工場の制御機器で使われているPLC(シーケンサ)」+「画像認識+測定」含めた事例を想定してPythonで制御してみます。想定しているイメージとしては下記です。「PLC(シーケンサ)で工場内の機器を操作する」+「製品を画像認識で測定する」工程をまとめて管理したいと思います但し、工場の制御機器におけるPLC(シーケンサ)に関しては「ラダー」という特殊なプログラミング言語で書かれていることが大半でPythonでは直接プログラムできません。そのためPLC(シーケンサ)自身にはそのままのラダープログラムで動いてもらいます。ラダーの箇所(製造工程)が終わったらGPIO経由でPythonに通知して画像認識(測定工程)を行います Pythonへの通知方法はGPIOでなくても何でも構いません(筆者が使いやすかっただけです)。 Python側はPLCか

kana0355 2019/04/16

web
NLP

リンク

Googleが大量の機械学習用データベースを無料公開してた - Qiita

個人用メモです。機械学習は素材集めがとても大変です。でもこの素材集め、実は無理してやらなくても、元から良質な無料データベースがあったようなのです。 URLはこちら YouTube8-M https://research.google.com/youtube8m/explore.html 提供されているサービスは以下の通り 800万個の動画 19億個のフレーム 4800個の分類使い方はExploreから画像セットを探し、ダウンロードするだけ。他の方法も見つけた open images dataset 「すごい神だな」と思ったのはこれもう完成されてますよねもちろんこの認識前の画像もセットでダウンロードできます。 Youtube-８Mとは、画像数を取るか、精度で取るか、という違いでしょうか。他にも良い素材集を教えていただきました（はてなブックマーク情報 @sek_165 さん）

kana0355 2019/04/14

web
NLP

リンク

Googleの新アプリが凄すぎる。リアルタイム文字変換の精度がエグい

Search, watch, and cook every single Tasty recipe and video ever - all in one place! News, Politics, Culture, Life, Entertainment, and more. Stories that matter to you. Googleの新アプリが凄すぎる。リアルタイム文字変換の精度がエグいGoogleの音声文字変換のAndroidアプリ「Live Transcribe」がすごいのです。YouTubeなどの音源までをも機械学習で取り込み、字幕の精度をあげている同社。今後の展開は、Gmail、Google Driveなどを運営するG Suiteと一緒にビジネス展開もありえるかも…！？

kana0355 2019/04/06

web
NLP

リンク

【続々】平成の次の元号を、AIだけで決めさせる物語（＠直前スペシャル） - Qiita

前書き平成の次の元号をAIで決める物語＆そのテレビ取材編の続き。前回までで、プログラムは完成していたのだが、大きな「マッタ」がかかってしまった。出した予想が当たらないことが分かってしまったのだ。そこで、全結論が変わるほどの変更を行うことになった。さらなる「ガチ当て」をするようにブラッシュアップした。変更が生じたため再度、本番4/1のテレビ放送前に、その詳細、 VTRの尺に収まらなそうな部分を先行公開することにする。前回、多くの方にご声援を頂いた。楽しみと言ってくださる方のためにも、続編をちゃんと書く。応援ありがとうございます！！初回の記事と、前回の記事については、以下をご参照。初回の記事⇒ 平成の次の元号を、AIだけで決めさせる物語前回の記事⇒ 【続】平成の次の元号を、AIだけで決めさせる物語（＠テレビ取材）前回までの話を３行で言うと、 AIで元号予想したらテレ

kana0355 2019/03/27

web
NLP

リンク

C++標準化委員会、ついに文字とは何かを理解する: char8_t - Qiita

C++ Advent Calendar 2018 この記事はC++ Advent Calendar 2018 15日目の記事です。 14日目: VTKライブラリ 16日目: C++のエラー処理との付き合い方当初見積もりよりも大幅に長い記事となり、投稿したのは12/22で1週間遅刻です。すみません。お知らせ cpprefjpにchar8_t型追加について解説を書きました。ぎゅぎゅっとコンパクトに、また査読を受けて中立的な表現で書いていますので、よければどうぞ。 UTF-8エンコーディングされた文字の型としてchar8_tを追加 - cpprefjp C++日本語リファレンス追記全ての開発者が知っておくべきUnicodeについての最低限の知識 - GIGAZINE Unicodeについて簡潔にまとまってるいい記事を見つけました。 Caution この文章には以下の要素が含まれます。苦手

kana0355 2018/12/23

web
NLP

リンク

1000作品以上集めてわかった「マンションポエム」に隠された“ワナ” | 文春オンライン

マンションポエム。マンション広告に見られる詩的なキャッチコピーのことをぼくはそう名付けた。「洗練の高台に、上質がそびえる」（野村不動産「プラウドタワー白金台」）といった名調子のことだ。折り込みチラシや、駅や電車内の広告などでよく見かける。物件のアピールの域を超えたその表現は、ポエムと呼ぶにふさわしい。

kana0355 2018/12/18

“1位が「街」なのだ。”

リンク

「小説家になろう」の小説を自動生成するマンになろう - nus_miz’s diary

この記事は eeic （東京大学工学部電気電子・電子情報工学科）その2 Advent Calendar 2018 - Qiita の13日目の記事です。 1. なにをしたいの？本記事は、小説を書くことができない人間がなんとかして自力（？）で小説を生み出すために試行錯誤した記録です。リカレントニューラルネットワークの一種である多層LSTMを用いて、「小説家になろう」に投稿された小説の「言語モデル」を学習し、学習したモデルをもとに実際に小説を自動生成します。「御託はいいから生成された文章を見せろ」という人はこの記事の10章に飛ぶか、https://ncode.syosetu.com/n7444fc/ を見てください。 2. 「小説家になろう」とは https://syosetu.com/ 誰でも無料で小説を投稿、閲覧することができるWEBサイトです。独自の文化を形成しており、主に異世界

kana0355 2018/12/14

web
NLP

リンク

IMAKITA Document Squeezer

Number of Summary Sentence : Minimum Length of Summary Sentence : use v2(test) About IMAKITA is AI engine to summarize (sometimes boring and unnecessarily long) document. IMAKITA is available in English, Japanese, Chinese, Spanish, French, Portuguese, German and Italy (quality check is done only in English and Japanese. Feedback is welcome). How to use Japanese document here Paste document to the

kana0355 2018/12/12

web
NLP

リンク

「開発の丸投げやめて」　疲弊するAIベンダーの静かな怒りと、依頼主に“最低限”望むこと (1/5) - ITmedia NEWS

「開発の丸投げやめて」　疲弊するAIベンダーの静かな怒りと、依頼主に“最低限”望むこと：これからのAIの話をしよう（覆面AIベンダー編）（1/5 ページ） AI（人工知能）開発を丸投げするクライアントの「いきなり！AI」に苦悩するAIベンダー。データサイエンティストのマスクド・アナライズさんに、AI開発現場の実態と、依頼主に最低限望むことを聞いた。「AI（人工知能）は触ったことないし、プログラムも書けません。でも社長が“AIをやれ”って言うので何とかしてください」――こんな困ったオジサンたちを、ユーモアたっぷりの愛と皮肉で表現する人物をご存じでしょうか。その名は「マスクド・アナライズ」さん。正体は一切不明でソーシャル上のアイコンは覆面マスクと、一見イロモノ系アカウントに見えますが、Twitterでの発言は多くの人たちから「あるある」「共感する」と絶賛され、ときには何千回、何万回とRTや

kana0355 2018/10/09

“人に合わせてシステムを開発しようとすると、残念な結果になってしまう”

web
NLP

リンク

「エロい目で見んじゃねよ、このクズ」　26万人を罵倒したAI「罵倒少女」から考える「飽きない対話AI」の作り方 (1/2) - ITmedia NEWS

「エロい目で見んじゃねえよ、このクズ」　26万人を罵倒したAI「罵倒少女」から考える「飽きない対話AI」の作り方：AI MEETUP 2（1/2 ページ）ユーザーが入力した言葉の意味を推測し、さまざまな罵詈雑言を浴びせるAI「罵倒少女」が2016年に注目を集めた。開発者がキャラクターAIの開発で得た知見、今後の展望を語った。

kana0355 2018/09/30

web
NLP

リンク

え、１秒で書けちゃうの？　ＡＩ記者が野球で見せた実力：朝日新聞デジタル

今夏の全国高校野球選手権記念西兵庫大会決勝。神戸新聞社はツイッターで、記事を発信した。「明石商は同点の７回、二死二塁から３番田渕翔のセンターヒット、なおも二死二塁から４番右田治信のレフト二塁打などで計３点を挙げ、逆転した」ＡＩを活用して記事をつくる「ロボットくん」が書いたものだ。地方大会のデータや、過去に記者が書いた同種の記事などを「学習」。試合データを読み込ませると１秒あまりで「執筆」する。準々決勝から実験的に配信を始めた。デジタル事業局メディアプロモート室の川上隆宏さん（４４）によると、社内では「そつなくまとまっていた」という評価の一方、「試合の熱量や雰囲気が伝わらない」という声も。今後の活用方法は検討中だが、開発の現場では「記者が行けない試合のデータをもらい、ＡＩで記事化してはどうか」という意見もあがっているという。ＮＨＫは、野球の解説で「ＺＵＮＯ（ズノ）さん」を電通と開発し

kana0355 2018/09/02

この辺，Encoder-Decoderで大分進化した印象．

web
NLP

リンク

知らなかった……“青空文庫”の全データは“GitHub”から一括ダウンロードできる！／“データを丸ごとほしい！”という場合に便利【やじうまの杜】

kana0355 2018/07/26

リンク

GANによる超解像がもたらす新しい方向性と「The Perception-Distortion Tradeoff」の話 - Think more, try less

CVPR2018にて超解像分野において極めて重要そうだなと感じた論文がありました。Yochai Blauらによる下記の論文です。 [1711.06077] The Perception-Distortion Tradeoff この内容を踏まえて最近の超解像研究の流れをまとめたいと思います。超解像とは？超解像について振り返ります。多くの方がwaifu2xというソフトウェアで一度は目にしたことがあるかもしれません。下記イメージのように低解像の画像を高解像の画像に変換する方法を超解像（Super Resolution）と呼ばれます。（参照元：二次元画像を拡大したいと思ったことはありませんか？ - デー）このwaifu2xがざっくりどのように超解像を行っているかというと、ベースはSRCNNというConvolutional Neural Netoworkを使った超解像手法であり、下記のよう

kana0355 2018/07/25

web
NLP

リンク

音響処理の基礎 with CNN　〜機械学習で「太鼓の達人」の自動作譜をしてみた〜 - Qiita

この記事の対象者音響処理の基礎を概観したいディープラーニングを用いた音響処理に興味がある太鼓の達人が好きだつまり初心者向けってことです。プロの方のツッコミもお待ちしています。結果見て（聴いて？）もらうと早いと思います。これは今回作ったモデルで生成した譜面を太鼓さん次郎2で演奏したものです。米津玄師さんの「ピースサイン」：「音楽から全自動で太鼓の達人の譜面を作るAI」を作りましたまたいつか解説記事書きます pic.twitter.com/IW6qrd9knS — うっでぃ (@woodyOutOfABase) July 16, 2018 UndertaleよりToby Foxさんの"Your Best Nightmare" @no_TL pic.twitter.com/UW5ntQg0KC — うっでぃ (@woodyOutOfABase) July 20, 2018 ki

kana0355 2018/07/25

web
NLP

リンク

高校野球の戦評、AIが「1秒あまり」で自動作成、Twitter配信　神戸新聞「経過戦評ロボットくん」運用スタート

高校野球の一打席速報の内容を、機械学習を使った人工知能（AI）で解析し、戦評を自動作成するプログラム「経過戦評ロボットくん」を、神戸新聞社が開発した。7月23日（夏の東・西兵庫大会・準々決勝）以降の全試合で運用しており、試合終了後わずか1秒あまりで戦評を執筆。Twitterに配信中だ。「AIや機械学習に関心をもつ社員が開発した」という。ロボットくんは、各打席の結果をリアルタイムで配信する一打席速報をリアルタイムで監視。終了した試合を見つけるとページの内容を読み込み、打席結果を解析して経過戦評をまとめる。具体的には、試合の中で起きたひとつひとつの打席結果を分析し、それぞれの得点シーンについて勝敗への影響度を算出。高い点数がついた得点シーンを複数組み合わせてテキストにまとめるという手順だ。どのようなシーンを重要と判断するかは、あらかじめ機械学習作成した点数表をもとに計算。人間の記者が書いた

kana0355 2018/07/24

NLP
web

リンク

はてなブックマーク

タグ

関連タグで絞り込む (15)

webとNLPに関するkana0355のブックマーク (145)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス