コーパスの人気記事 14件 - はてなブックマーク

1 - 14 件 / 14件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

コーパスの検索結果1 - 14 件 / 14件

プログラミング必須英単語600+ | プログラミング英語検定
- 1742 users
- progeigo.org
- 学び
- 2019/09/05
概要プログラミングをする際には、APIリファレンスやソースコードのコメントなどを英語で読むことが求められます。場合によっては英語で関数名を付けたり、ちょっとしたマニュアルを書いたりする機会もあります。ただしプログラミング時に求められる英単語は、一般的な英語で求められる英単語とは異なります。本必須英単語リストでは、プログラミング時に求められ、特に目にすることが多い英単語を以下のカテゴリーに分けて選定しています（注1）。プログラミング英語の学習や知識確認にご活用ください。
- 英語
- プログラミング
- あとで読む
- 学習
- 英単語
- english
- programming
- コード
- 知識
- api
プロとアマの小説の特徴を数値化して比較してみたらやっぱり差があったので、それを埋めるための型付き小説記述用言語 TypeNovel を公開した件について - anti scroll
- 949 users
- tategakibunko.hatenablog.com
- テクノロジー
- 2019/07/06
ラノベのタイトルみたいな記事を書く、という夢が叶いました。 github.com 開発に至った動機以前から、アマチュアの小説はプロに比べると、描写不足な傾向があるのかもしれない、と思っていました。特に不足がちだと感じるのは「時間」に関する描写です。季節がわからなかったり、昼か夜か、平日か休日かみたいなことが不明瞭な作品が多い気がします。しかし印象だけで語ってもアレなので、実際に差があるのかどうかを計測してみました。計算式は、時間描写の文の数 * 時間描写分布のエントロピー / 文の数です。「時間描写分布のエントロピー」というのは「全体を通じて、どれだけ満遍なく時間表現が書かれているか」という数字だと思ってください。例えば時間描写が冒頭部にしかなかったりすると数値が小さくなり、全編を通じて満遍なく描写されていると、数値が大きくなります。あと時間描写というのは、一応「季節、
- 小説
- あとで読む
- 言語
- 文章
- F#
- novel
- 書き物
- 文学
- 自然言語処理
- program
現代英語の９割をカバーする基本英単語 NGSL（New General Service List）を７クリックで覚えるための新しい表
- 722 users
- readingmonkey.blog.fc2.com
- 学び
- 2019/09/28
Author:くるぶし（読書猿） twitter:@kurubushi_rm カテゴリ別記事一覧新しい本が出ました。読書猿『独学大全』ダイヤモンド社 2020/9/29書籍版刊行、電子書籍10/21配信。 ISBN-13 : 978-4478108536 2021/06/02 11刷決定累計200,000部（紙＋電子） 2022/10/26　１４刷決定累計260,000部（紙＋電子）紀伊國屋じんぶん大賞2021　第３位アンダー29.5人文書大賞2021 新刊部門第１位第２の著作です。 2017/11/20刊行、４刷まで来ました。読書猿 (著) 『問題解決大全』 ISBN:978-4894517806 2017/12/18 電書出ました。 Kindle版・楽天Kobo版・iBooks版韓国語版『문제해결 대전』、繁体字版『線性VS環狀思考』も出ています。こちらは１０刷
- 英語
- あとで読む
- english
- 辞典
- 学習
- list
- 読書
- 言吾
- 書
- リスト
超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開
- 452 users
- prtimes.jp
- テクノロジー
- 2023/01/19
株式会社レアゾン・ホールディングス(本社：東京都新宿区、代表取締役：渡邉真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 2023年1月18日株式会社レアゾン・ホールディングス(本社：東京都新宿区、代表取締役：渡邉真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 ※音声コーパス: 音声データとテキストデータを発話単位で対応付けて集めたもの。音声認識モデルを作成する材料として使用され、その規模と品質が音声認識の精度を大きく左右する。 ※2「ReazonSpeech」を用いた文字起こしサービスをプロジェクトwebサイトにて実際に試すことができます。プロジェクトwebサイト：https://
- AI
- あとで読む
- 日本語
- 音声認識
- 音声
- voice
- 技術
- フリーソフト
- コーパス
- 機械学習
LINE、NAVERと共同で、世界初、日本語に特化した超巨大言語モデルを開発　新規開発不要で、対話や翻訳などさまざまな日本語AIの生成を可能に | ニュース | LINE株式会社
- 430 users
- linecorp.com
- テクノロジー
- 2020/11/25
LINE、NAVERと共同で、世界初、日本語に特化した超巨大言語モデルを開発　新規開発不要で、対話や翻訳などさまざまな日本語AIの生成を可能に従来の特化型言語モデルとは異なる、汎用型言語モデルを実現予定。処理インフラには世界でも有数の、700ペタフロップス以上の高性能スーパーコンピュータを活用 LINE株式会社（所在地：東京都新宿区、代表取締役社長：出澤剛）はNAVERと共同で、世界でも初めての、日本語に特化した超巨大言語モデル開発と、その処理に必要なインフラ構築についての取り組みを発表いたします。超巨大言語モデル（膨大なデータから生成された汎用言語モデル）は、AIによる、より自然な言語処理・言語表現を可能にするものです。日本語に特化した超巨大言語モデル開発は、世界でも初めての試みとなります。従来の言語モデルは、各ユースケース（Q&A、対話、等）に対して、自然言語処理エンジニアが個
- AI
- あとで読む
- LINE
- 機械学習
- 言語
- NLP
- 開発
- 日本語
- 自然言語処理
- データ
PDFをコピペするとなぜ“文字化け”が起きてしまうのか　変換テーブル“ToUnicode CMap”が原因だった
- 380 users
- logmi.jp
- テクノロジー
- 2021/05/26
NTT Tech Conferenceは、NTTグループのエンジニアたちが一堂に会し、NTTグループ内外のエンジニアたちと技術交流を行うためのカンファレンスです。ここで、細田氏が「PDFのコピペが文字化けするのはなぜか？〜CID/GIDと原ノ味フォント〜」をテーマに話します。まずは文字化けが起こってしまう原因について。原ノ味フォントの作成者細田真道氏（以下、細田）：細田です。ふだんはNTTグループのどこかでDXな仕事をしていますが、今日はぜんぜん仕事とは関係なく、個人的にやっているオープンソースなどの話をしたいと思います。よろしくお願いします。簡単に自己紹介をします。楽譜を作成するプログラム「LilyPond」のコミッターと、GNUの公式文書フォーマット「Texinfo」のコミッターをしています。あとで話しますが、「原ノ味フォント」を作っていて、すごく似たような名前で「原ノ町」という
- pdf
- 文字コード
- あとで読む
- フォント
- font
- unicode
- tech
- 仕事
- 漢字
- 技術
Excelで誰でも簡単言語処理 (感情推定, 固有表現抽出, キーワード抽出, 文類似度推定 etc...) - Qiita
- 376 users
- qiita.com/Harusugi
- テクノロジー
- 2019/08/05
Excelで誰でも簡単言語処理 (感情推定, 固有表現抽出, キーワード抽出, 文類似度推定 etc...)ExcelAPIVBA自然言語処理COTOHA 3行まとめ Excel関数一発で高度な言語処理を使えるようにしました感情推定、固有表現抽出など日本語を分析・整理するのにいろいろ使えます Windows + Officeユーザならマクロファイルで誰でも簡単に使えます ※Macだと多分動かないと思います。VBAのHTTPリクエストを有効にできないため。。。 9/1追記: コメント頂きましたが、64bit版OfficeだとjsonParseが動かないようなのでアップデートしてみました。動作確認できていないので自己責任でお願いします https://github.com/korinzuz2/excelcotoha/blob/master/COTOHA公開用64bitExcel対応版.xls
- excel
- あとで読む
- 形態素解析
- API
- 言語
- Qiita
- VBA
- 自然言語処理
- nlp
- tips
「クソゲー・オブ・ザ・イヤー」を一変させた『四八（仮）』ショックとはなんだったのか？ “テキストの量的分析”からクソゲーの定義とレビューの変容を見る
- 355 users
- news.denfaminicogamer.jp
- アニメとゲーム
- 2020/03/27
ビデオゲームの文化で「クソゲー」という極めて暴力的な単語が一般化してからどれくらいが経っただろうか。みうらじゅん氏が『いっき』に対して使ったなど起源には諸説あるが、ともかくその言葉は死滅せずに現代まで生きながらえてきた。制作者が心血を注いで創りあげた一個のゲームという作品。それをたった一言で簡単に断罪できてしまうその言葉は、無残なほどにネガティブなパワーを持っており、ゲームメディアでは忌避すべきワードのひとつである。しかし口をつぐんだところで、いままでプレイヤー間で何年にもわたり続いてきた「クソゲーを語る」という文化が、無かったものになるわけでもない。たった4文字でゲームを語ることができるこの魔法の言葉は、その時代や個々人の認識によって極めて定義が曖昧で、いまも万華鏡のように変化し続けている。（画像はニコニコ動画「クソゲーオブザイヤー2008」より）　そんな歴史の中、その年度で一番の
- KOTY
- ゲーム
- game
- あとで読む
- インタビュー
- 論文
- クソゲー
- ネタ
- 言葉
- 分析
高精度でテキスト分類を行えるAIの環境を用意しました【BERT】 - ニートの言葉
- 252 users
- blog.takuya-andou.com
- テクノロジー
- 2019/09/22
こんにちは、あんどう（@t_andou）です。最近、自然言語処理のAIの一種であるBERTをよく触っています。今回はBERTのソースを読まなくてもサクッと試せる環境を用意しましたので、メモとして残しておきます。 BERTとはどういうものか画像引用：https://arxiv.org/pdf/1810.04805.pdf 凄くざっくりと説明すると、BERTとは2018年末にGoogleの人たちが開発した自然言語処理において汎用的に使えて精度の良いAIです。自然言語処理において精度を測るためにいくつかのタスクがあるのですが、発表された時点ではダントツの成績でした。仕組みなどの詳細については論文を読むか解説記事をググってください。 2019/09/22時点で既により精度の良い手法がどんどん発表されていますが、BERTの情報量と比べるとまだ少ないため、入門としてはBERTを触ってみるのが
- bert
- あとで読む
- AI
- 自然言語処理
- 機械学習
- google
- NLP
- データセット
- 学習
AWS、PythonでMeCabを使う際の語彙データを無料公開 | Ledge.ai
- 245 users
- ledge.ai
- テクノロジー
- 2020/11/20
アマゾンウェブサービスジャパン株式会社（Amazon Web Services、AWS）は、同社のオープンデータセットに、日本語自然言語処理で定番の形態素解析器である「MeCab」を、ラッパーライブラリであるfugashi経由でPythonで使用する際の語彙（ごい）データに加えた、と公式ブログで明らかにした。多くの機械学習デベロッパーが、AWS上でさまざまなアルゴリズムの開発やモデルを構築している。なかでも、自然言語処理をする際には、対象言語の特性に即した形で前処理をする必要がある。日本語の自然言語処理を実施する際には、一般的に「形態素解析」と呼ばれる文章の分解処理を前位処理として実施する。日本語形態素解析をするためには、日本語の語彙データが必要になる。語彙データは大きなサイズになるだけではなく、これらを用いた計算の際にも大量のGPUおよびCPUが求められる。そのため、従来このよ
- mecab
- あとで読む
- aws
- python
- 形態素解析
- 自然言語処理
- nlp
- 学習
- データ
Python による日本語自然言語処理〜系列ラベリングによる実世界テキスト分析〜 / PyCon JP 2019
- 232 users
- speakerdeck.com/taishii
- テクノロジー
- 2019/09/16
PyCon JP 2019 での発表スライドです。 GitHub: https://github.com/taishi-i/nagisa-tutorial-pycon2019
- python
- あとで読む
- nlp
- 自然言語処理
- slide
- analysis
- presentation
- 分析
自然言語系AIサービスと著作権侵害｜知的財産・IT・人工知能・ベンチャービジネスの法律相談なら【STORIA法律事務所】
- 226 users
- storialaw.jp
- テクノロジー
- 2021/10/25
第1　はじめに自然言語処理技術の発展に伴い、自然言語AIを利用したサービスが大変盛り上がっています。たとえば、検索、要約、翻訳、チャットボット、文章の自動生成、入力補完などのサービスで、近いところで有名なのは、2020年にOpenAIが発表した「GPT-3」ですかね。これは約45TBにおよぶ大規模なテキストデータを学習し、あたかも人間が書いたような文章を自動で生成することが可能な自然言語モデルです。【参考リンク】自然言語処理モデル「GPT-3」の紹介進化が止まらない自然言語処理技術ですが、事業者が自然言語AIを利用したサービス（＊ここでは、データの処理がクラウド上で自動的に行われるサービスを前提とします）を提供する際に検討しなければならないことは、大きく分けると、学習済みモデルの構築フェーズの問題と、モデルを利用したサービス提供フェーズに関する問題に分かれます。このうち、モデル
- 著作権
- 機械学習
- 自然言語処理
- AI
- あとで読む
- 法律
- NLP
- 言語
- 人工知能
- Corpus
コワクナイWebクローリング&スクレイピング - 初心者とPython使いのための作法とノウハウ - Lean Baseball
- 159 users
- shinyorke.hatenablog.com
- テクノロジー
- 2019/08/12
名著です,まじでオススメ個人的にすごく気に入っているかつオススメな「Pythonクローリング&スクレイピング」の増補改訂版が出てました. Pythonクローリング&スクレイピング[増補改訂版] -データ収集・解析のための実践開発ガイド作者: 加藤耕太出版社/メーカー: 技術評論社発売日: 2019/08/10メディア: 単行本（ソフトカバー）この商品を含むブログを見る早速読みましたが,初版からのアップデートに加え元々の構成の良さに感激しました.*1 本の内容そのものの解説は, 著者である加藤さんのエントリー @iktakahiroさんの感想エントリーをご覧いただくとして*2,このエントリーでは, Webクローリングとスクレイピングはコワクナイヨ！っていう話をルール・ノウハウという「お作法」の面でポエムしたいと思います. TL;DR インターネットおよび, リアル（現実世界）に迷惑
AIはハチ=米津玄師を見破れるか ? -J-popアーティストの歌詞を分析してみた- - Qiita
- 100 users
- qiita.com/kazuya-n
- テクノロジー
- 2019/09/14
はじめに一年前にこんな記事を書きました。未だにちょくちょくいいねを頂いているので、自然言語処理の練習を兼ねて久しぶりに遊んでみた系の記事を投稿しようと思います。やったこと歌詞データのクローリング Mecabによる分かち書き tf-idfによるベクトル化ベクトル化した歌詞によるアーティストのクラスタリングとUMAPでの可視化 (おまけ) fastTextでハチ=米津玄師を見分けられるのか? 分析にはJupyter Labを用いました。歌詞データ今回用いる歌詞データについて説明します。クローリングで取得先立って歌詞データのクローリングをしました。とある人気アーティスト順に歌詞を取得できるサイトより、45人のJ-popアーティストにつき、最大50曲分の歌詞を取得しCSVに保存しました。実際にクローリングに用いたコードを公開するのもどうかと思うので、ここでは割愛します。。。Bea