はじめに 画像生成AIのDALL・E2や文章生成AIのGPT-3で何かと話題のOpenAIですが、今度は、音声認識の世界でもやってくれました。 2022年9月22日に高性能な音声認識AIのWhisperを発表したのです。日本語にも対応していたので、早速、GoogleColaboratoryで実装してみました。 驚くほど簡単に実装でき、かつ、驚くほど精度が高くて、びっくりしました。 ここでは、Whisperの概要について簡単に触れた上で、GoogleColaboratoryでの実装方法、精度をお示ししたいと思います。 Whisperについて OpenAIの公式サイトから、概要をご紹介します。 Whisperは、ウェブから収集した68万時間に及ぶ多言語・マルチタスク教師付きデータで学習させた自動音声認識(ASR)システムです。 大規模で多様なデータセットを使用したことで、アクセント、背景雑音、
はじめに EC事業部のエンジニアリングリードを担当している @nyanyami です。 昨年公開された勉強会の記事が大変好評でしたが、時が経つのは早いものでなんと公開から1年が経過していました。ここ1年で新たに実施された、勉強会に関する情報を公開したいと思います。既にこのテックブログにて公開済みの内容についてはリンクを貼っていますので詳細については各記事にてご確認ください。 開催された勉強会 読書会 読書会はだいたい週1ペースで開催される傾向にあり、進め方は読む書籍やメンバーによってそれぞれ異なっています。良書とされるものはメンバーを変えて新規に読書会が開催されることもあります。 SREの探求 ―様々な企業におけるサイトリライアビリティエンジニアリングの導入と実践 チーム・ジャーニー 逆境を越える、変化に強いチームをつくりあげるまで プロダクトリサーチ・ルールズ 製品開発を成功させるリサー
3つの要点 ✔️ 近年発表され始めた時系列データ用Transformerの包括的レビュー ✔️ ネットワーク構造と、アプリケーション(予測、異状検知、分類)の両面から分類され、Transformerの強みや限界がレビューされています。 ✔️ 将来の展開として、事前学習、GNN、NASとの組み合わせについて解説されています。 Transformers in Time Series: A Survey written by Qingsong Wen, Tian Zhou, Chaoli Zhang, Weiqi Chen, Ziqing Ma, Junchi Yan, Liang Sun (Submitted on 15 Feb 2022 (v1), last revised 7 Mar 2022 (this version, v3)) Comments: Published on arxiv
簡単に Kaggleで最近よく使われるTabnetについて、どのようなモデルか調べた。 Tree-basedとDNNのいいとこ取りをしたようなモデル。 Feature ImportanceとMaskにより結果の解釈ができる。 Titanicにおける精度について、LBの値ではLightGBM、NNよりもやや高い。 TitanicにおけるFeature Importanceの上位特徴量について、LightGBMとは異なっている。そのため、TabNetはEnsembleに有用かもしれない。 ※ 2021/01/10 14:50 TabNetのコードが一部誤っていることを指摘頂き、コード修正しました。それに伴い記事の下記部分を更新しています。 4 実装の際に用いたNotebook 6.7 精度 6.8 Feature Importance(Global interpretability) 6.10
はじめに UKIです。 Kaggleで開催されたJPX Tokyo Stock Exchange Predictionのサブミッションが終了しました。本コンペの結果が出るのは3ヶ月後ですが、記憶が鮮明なうちにコンペを終えた感想をまとめておきたいと思います。 コンペ仕様 ざっくり要約すると、 日本株2000銘柄の中から、 毎日200銘柄ロング、200銘柄ショートし、 3カ月間の日次損益のシャープを競う 運ゲーになりがちなファイナンスコンペですが、以下の点で問題設定に工夫が凝らされていると感じました。 買い入れ銘柄数を大きくすることで異常値の影響を軽減する 例えば買い入れ銘柄が少ない場合、運よくSTOP高銘柄を引き当てたプレイヤーは大きなアドバンテージを得ることになります。買い入れ銘柄を大きくすることで異常値の影響を軽減し、予測性能の実力を可能なかぎり測れるよう配慮されています。 評価指標がシ
こんにちは、tkmです。 このブログではポエムはあまり書かないことにしてたのですが、最近エンジニア勉強会(特にML系)が募集後すぐに埋まるツイートを目にしたので、 エンジニア勉強会全盛期(TokyoR, TokyoWebMiningなどの時)に学生で参加してから、kaggle meetupとかで運営するようになったので色々思うことを垂れ流して見ます 持続的な勉強会(コミュニティ)に必要なこと 適度な内輪感と公共性の両立 質の高い発表者の確保は最優先 運営から一言声を掛けるのがとても大事 発表することが目的の発表を排除 参加者の質も最低限確保したい 勉強会おじさんは絶対排除。慈悲はない それでも新規参入者の敷居は低く 内輪盛り上がりは予想以上に外部から醜悪に映る コアになる常連メンバーは必要 運営は出しゃばらない どこまで公共性を追求するか いま思っていること 優しい終身の独裁者は必要なのか
この記事は、NewsPicks Advent Calendar 2018 の2日目の記事です。 はじめに こんばんは。NewsPicksでソフトウェアエンジニアをしている@tatsuyaoiwです。NewsPicksに入社して今日でちょうど9ヶ月が経ちました。 入社して以来一貫してアメリカ版NewsPicksの開発を担当していましたが、今年の7月にNewsPicksの親会社であるUzabase(ユーザベース)がアメリカの経済メディアQuartzを買収したことをきっかけに、現在はQuartzの会員システムやコミュニティ、ニュースキュレーションなどの機能のサーバーサイドを中心に日々開発を行なっています。NewsPicksとQuartzの関係性については、こちらの記事に詳しく書かれています。 【買収発表】NewsPicksが米クオリティ経済メディア「Quartz」を買収する理由 「Quartzと
あまり深く考えたくない性格なもので、出来ればざっくりと感覚的に理解したいと常々思っています。 そこで、この損失関数についても、直観的に理解できるように、ちょっと調べてみます。 損失関数ってなによ? そもそも損失関数ってなんでしょう? いろいろ調べるとやたら難しい説明が出てきますが、ようは2つの値の差が小さくなるような関数のことのようです。 Deep Learningの識別等では、学習時に、いかに答えに近い値になるように重みパラメータを調整するのかがメインとなるのですが、この「答えに近い値になるように」の部分を担うのが、この「損失関数」というわけです。 「値=損失」ということで、この損失をいかに少なくするのかということで「損失関数」となります。 損失関数の種類 では、損失関数にはどういった種類のものがあるのでしょうか。 ざっと調べてみても、結構な種類があります。 ヒンジ損失関数 ε許容誤差関
いまお仕事の関係で、機械学習の教科書的な書籍を読んだりオンライン講座を受講したりしながらサンプルやチュートリアルを動かして勉強しています。 機械学習を勉強するときは、Pythonの環境を構築し、JupyterNotebookを使って、実際に手と頭を動かしながら行うのが効率的です。が、アルゴリズムの理論そのものの理解がすでにしんどい上、過学習対策のための正則化、汎化性能の評価、クロスバリデーション、不均衡データや少ないデータはどうすればいいか、などなどいちいち難しいことを数多く勉強しなければなりません。 その上、、、、機械学習での学習は、1度やれば終わり!ではなく、パラメータチューニングしたり、データを増やしたり加工したりしながら、繰り返しなんども行う必要があります。一見ビジネス寄り&アカデミックな雰囲気を醸し出していますが、実際のところは、非常に泥臭い作業のオンパレードです。 が、、、、、
「なんで勉強しなきゃいけないの?」「なんで制服があるの」なんていう学校にたいする素朴な疑問は、誰でも一度は感じたことがあるはず。逆に一度も疑問を持ったことがない人は、ちょっとまずいかもしれません。 なぜか? それは近い将来、世の中の、そして学校のルールがチェンジするかもしれないから。 そのとき、今みんなが学校や塾でしている勉強は通用しなくなってしまうかもしれない。 現代の魔法使い、落合陽一って? 今回インタビューをさせてもらった落合陽一さんは東京大学で博士号を取得後、メディアアーティストとして活躍しながら筑波大学で助教として自分の研究室を運営するほか学長補佐として活躍。「現代の魔法使い」と呼ばれる人です。 ちなみに、なぜ魔法使いなのか? まずは下の動画を見てください。 Pixie Dust 超音波で白い粒子を浮かせて、自在に動かしています。まるで小さな妖精が集まって、私たちにメッセージを贈
はじめに 本記事のターゲット 「 "データサイエンティスト"とか"統計"とか最近良く聞くし、興味あるけど、正直その分野それほど詳しいわけじゃねーし、どっから始めればいいんだよチキショーがっ」 って人に向けて描いた記事です。 つまりは X年前の自分が「あったらいいのにな」って思ったであろう記事です。 なので「俺はバリバリのデータサイエンティストだぜ」って人が喜ぶようなマニアックな内容について触れているような書籍などは載せていません。 「PRMLがないとか...基本のキだろ、あんたモグリかい?」 などと思われた方はこの記事から得られることは無いかもしれません。 あくまで初学者をターゲットにした記事になります。 ※ ある程度データサイエンス周りを齧ってる人でも、部分的には参考になるかもしれません。(願望) 【こちらもどうぞ】 ・そろそろデータサイエンティストの定義とスキルセットについて本気で考え
(Photo via VisualHunt) 追記 2017年3月現在の最新書籍リストはこちらです。 最近になってまた色々とデータサイエンティストを目指す人向けのお薦め書籍リストとか資料リストとかが出てきてるんですが、個人的には何かと思うところがあるので僕も適当にまとめておきます。偏りありまくり、完全に主観で決めたリストなので文句が出まくるかと思いますが、もはや毎回のことなのでご容赦を。 なおこちらのリストはあくまでもビジネスの現場でデータ分析を生業にする(しようとしている)人たち向けのものであり、研究者含めたガチ勢の方々向けのものではありませんのでどうか悪しからずご了承下さい。 ちなみに毎回言ってますが、アフィリエイトは全くやっていないのでここに貼られたリンクを踏んで皆さんが購入されても僕の懐には一銭も入りません。拙著だけはそもそも例外ですが(笑)。*1 初級者向け5冊 一応初級者向けと
おはこんばんにちは、ハルです。 最近はフロントエンドでもガンガン黒い画面を使うようになったので、こちらの記事に引き続き、黒い画面を好きになるため、遊びながら勉強をしていきたいと思います。 今回は、MACの通知を表示させて遊びながら、crontabの基本的な使い方も勉強できる方法を紹介したいと思います。 crontabとは 定期的に処理を実行するコマンドで、日時・曜日で繰り返し実行するタスクをスケジュール管理できます。つまり、定期的に実行したい処理の管理ができます。 「平日の朝7時に、RSSの情報を取得する」などのスクリプトを実行するために使ったりできちゃいます。 crontabの基本的な使い方 MacPCを使って、コマンドを使っていきたいと思います。基本的には、crontabに関してはLinuxなら同じように使えます。 実行しているコマンドの読み上げ・音楽再生やアラートは、Mac特有の命令
こんにちは。面白ハンターのテツヤマモトです。 ブロガー界隈では、去年あたりから「サロン」というキーワードがなかなかお馴染みになっています。 ブロガー向けサロンはオンライン上の塾みたいなもので、お金を払ってブログについて勉強できるという場です。勉強できてお友達できて一石二鳥!みたいな場です。 いやーしかし、サロンって実際どうなんでしょうね? 役立つんですかね?それともお金を搾取されてるんですかね? 今日は3つのブロガー向けサロンに3か月ずつ加入していた経験を持つ僕が、それぞれのサロンに加入した感想を書いていきます! イケハヤブログ術(加入期間:2015年8月~10月) イケハヤブログ塾まとめ ブログマーケティングスクール(加入期間2015年12月~2016年2月) ブログマーケディングスクールまとめ 八木仁平のブログカレッジ(加入期間:2015年10月~2015年12月) 八木仁平のブログカ
お陰様で2012年10月にTOEIC 910点獲得!当ブログは、堅実ながらも効率的で再現性の高い勉強法を追求し、体系化しています。自分の勉強の失敗と成功をさらしつつ、本気で英語を勉強している学習者の悩みを解決し、やる気に火をつけ、「英語人生を楽しめる」ようにサポートするのがミッションです!(・∀・)> 去年2012年の10月にTOEIC 910点を取得してから、この半年間、900点を取るのに大切な考え方や、有効だと感じた勉強法・参考書は、HOME(トップページ)や上部メニューの おすすめ参考書 と TOEIC 対策・勉強法 にある記事にまとめてきたので、コツコツと実践していただければ、基本的に900点は取れると思います(・∀・)b この記事は、自分がTOEIC 900点を取るまでにやってきたことを全部書き出し、関連記事を添えた総集編的なものになります。 この40コすべてを実践しない
20歳を過ぎた日本人(留学経験無し・受験英語/TOEIC英語しか学んだことがない人達)が下記の段階に到達するための英語学習法を公開しています。 このハタチエイゴ学習法が目指す目標 TOEIC試験で860点(Aレベル)以上に到達する。 「読む」「聞く」という受身な英語だけではなく、自分から英語を発信すること、すなわち「話す」「書く」がちゃんとできるようになる。 英語を母語とする人たちと英語で意思疎通できるようになる。第2言語としての英語を使いこなせるようになる。 ハタチエイゴ・基本情報 この勉強法ははてなブックマークを7,700以上獲得した人気記事です。 このblogは書籍化されてDiscover21より2010年9月16日に発売しました。書籍の名前は「20歳を過ぎてから英語を学ぼうと決めた人たちへ」です。5刷で26,000部。 勉強法の問い合わせは執筆者である@HAL_Jまでお願いします。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く