並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 62件

新着順 人気順

形態素解析の検索結果1 - 40 件 / 62件

  • プロとアマの小説の特徴を数値化して比較してみたらやっぱり差があったので、それを埋めるための型付き小説記述用言語 TypeNovel を公開した件について - anti scroll

    ラノベのタイトルみたいな記事を書く、という夢が叶いました。 github.com 開発に至った動機 以前から、アマチュアの小説はプロに比べると、描写不足な傾向があるのかもしれない、と思っていました。 特に不足がちだと感じるのは「時間」に関する描写です。 季節がわからなかったり、昼か夜か、平日か休日かみたいなことが不明瞭な作品が多い気がします。 しかし印象だけで語ってもアレなので、実際に差があるのかどうかを計測してみました。 計算式は、 時間描写の文の数 * 時間描写分布のエントロピー / 文の数 です。 「時間描写分布のエントロピー」というのは「全体を通じて、どれだけ満遍なく時間表現が書かれているか」という数字だと思ってください。 例えば時間描写が冒頭部にしかなかったりすると数値が小さくなり、全編を通じて満遍なく描写されていると、数値が大きくなります。 あと時間描写というのは、一応「季節、

      プロとアマの小説の特徴を数値化して比較してみたらやっぱり差があったので、それを埋めるための型付き小説記述用言語 TypeNovel を公開した件について - anti scroll
    • 「Visual Studio Code」で執筆するSF作家 藤井太洋氏が作る物書きのための拡張機能

      「VS Code Meetup」は、強力かつ軽量なオープンソースのコードエディター「Visual Studio Code」のミートアップです。今年もVS Code Meetup 主催の年次カンファレンス、「VS Code Conference Japan 2021」が開催されました。招待講演では、SF作家の藤井太洋氏が登壇。VS Codeで執筆を支援する機能拡張「novel-writer」の制作について発表しました。 『Hello, World!』で吉川英治文学新人賞を受賞したSF作家 藤井:お時間いただきまして、ありがとうございます。本日、「Visual Studio Codeで小説を書く」というセッションを持たせていただく、SF作家の藤井太洋です。それでは、プレゼンテーションを進めます。 まず簡単な自己紹介から。私は、2012年に『Gene Mapper』というサイバーパンク小説をセル

        「Visual Studio Code」で執筆するSF作家 藤井太洋氏が作る物書きのための拡張機能
      • 3ヶ月くらいフロントエンドやったのでやったこと一旦まとめ - Stimulator

        - はじめに - 9月くらいから趣味でフロントエンド周りをやっていたので、その勉強過程のまとめ。 何が良かった悪かったとか、こうすればよかったとか、所感とか。 - はじめに - - 前提 - - どんな感じで進めたか - 最初の開発 TypeScriptとNext.jsを使った開発 アプリ手伝いから自分のアプリ開発まで - できてないこと - - 所感 - - おわりに - - 追記 - - 前提 - 前提として9月頭くらいの私のフロントエンドに対する理解と技術的な知識はこんな感じ。 5年程前まではjQueryで謎のWebサービスや動きモリモリのプロフィールページを作ったりDjangoで研究室のWebサイトを作ったりしてた Railsチュートリアルはやったことある 仕事では普段機械学習モデル作ってるが、機械学習のデータやモデルの変更が及ぶ場合に既存のPHP、Railsアプリの改修をしたり、

          3ヶ月くらいフロントエンドやったのでやったこと一旦まとめ - Stimulator
        • 生活と意見: ソーシャルディスタンスなどと称してユーザー名や文章にスペースを挟む行為についての苦情

          covid19-twitter-research_01.md 生活と意見: ソーシャルディスタンスなどと称してユーザー名や文章にスペースを挟む行為についての苦情 更新履歴 2020-05-13 追記 継続して観測していて、対応が行われたアカウントの記録などを残している https://twitter.com/bulkneets/status/1259419102851903490 FAQとして「機械が人間の都合に合わせろ」に対する反論を取り急ぎ置いておく 走り書きで書いた https://twitter.com/bulkneets/status/1260524434256879617 https://twitter.com/voqn/status/1259515760986095617 記事下部に、フィードバックなどを追記した。 はじめに この文章は mala (twitter: @bul

            生活と意見: ソーシャルディスタンスなどと称してユーザー名や文章にスペースを挟む行為についての苦情
          • Python自然言語処理テクニック集【基礎編】

            自分がよく使用する日本語自然言語処理のテンプレをまとめたものです。 主に自分でコピペして使う用にまとめたものですが、みなさんのお役に立てれば幸いです。 環境はPython3系、Google Colaboratory(Ubuntu)で動作確認しています。 Pythonの標準機能とpipで容易にインストールできるライブラリに限定しています。 機械学習、ディープラーニングは出てきません!テキストデータの前処理が中心です。 前処理系 大文字小文字 日本語のテキストにも英語が出てくることはあるので。 s = "Youmou" print(s.upper()) # YOUMOU print(s.lower()) # youmou 全角半角 日本語だとこちらのほうが大事。 全角半角変換のライブラリはいくつかありますが、自分はjaconv派。 MIT Licenseで利用可能です。 import jaco

            • ChatGPTを業務に組み込むためのハンズオン.pdf

              ChatGPTを業務に組み込むためのハンズオン 2023/06/26 一般公開用 デジタル庁 Fact&Data Unit 大杉直也 ↑マイナンバー交付数のダッシュボードを作っているところです 「Microsoft でテストされたアイデアのうち、改善を示すメトリクスを実際に改善できたのは3分の1にすぎない」 (Microsoft社 元Vice President) 「もしあなたが実験主導のチームにいるなら、70%の仕事が捨てられることに慣れてください。それに応じてプロセスを構築しましょう」(Slack社 Director) A/Bテスト実践ガイド p14より 一方で 「アイデアの価値を見積もることは難しい。このケースでは、年間1億ドルの価値ある単純な変更が何か月も遅れていた。」(同著 p5より) こともあります 午前中のアイデアソンで出たアイデアはちゃんと検証するまで価値があるかは不明です

              • ChatGPTに自社データを組み込んで新しい検索体験を模索してみました|masa_kazama

                イントロChatGPTやBing、NotionAIなどの大規模自然言語モデル(LLM)を活用したサービスが注目を集めています。対話、要約、翻訳、アイデア生成などの多様なタスクにおいて、とても性能が高いです。ただ、ChatGPTでは、ときどき嘘が混じっていたり、文献が捏造されたりすることがあります。 ChatGPTとの対話画面(結果の書籍は存在しない)それを防ぐために、BingやPerplexityでは、文献を引用した上で、なるべく嘘が紛れ込まない形で回答してくれます。 Perplexityでは引用もつけてくれるしかし、これらのAIは、Web上の公開されている一部のデータを元に学習しているので、公開されてないデータに対しては当然ながら、正しく回答できません。 そこで、この記事では、自社が保有しているデータをChatGPTに組み込んで、自社オリジナルのPerplexityのようなシステムを作る

                  ChatGPTに自社データを組み込んで新しい検索体験を模索してみました|masa_kazama
                • AIはてなブックマーカーを作った

                  (追記) 今後の開発記録はブログで公開していくからよかったら読者登録よろしくね。 https://firststar-hateno.hatenablog.com/ ------------------------------------------------------------------------------------------------------ 昨今話題のAIでブクマカを作ってみたよ。 https://b.hatena.ne.jp/firststar_hateno/bookmark 今のところ手動なんだけど、そのうち6時間に1回ホットエントリーの記事5記事程度に対して自動でブックマークするようにするつもり。 ちょっと前のよっぴー騒動ではてな版のとぅぎゃっちゃんとかいたらいいんじゃないのって言ってたのを思い出して、なんとなくそれを意識して作ってる。 最初は記事の内容を読

                    AIはてなブックマーカーを作った
                  • DATAFLUCT Tech Blog

                    2022-08-27 データ抽出に特化したAirbyteによるEL(T) 環境構築の実践 データ基盤 Airbyte ELT こんにちは。今回は、データ基盤の構築の一部を実際に体験してみたいと思います。 データ基盤を作成するにあたり、まずは、社内に眠る様々なデータを集めてくる必要があります。前回の記事では、その機能を「収集」と紹介していました。 データ基盤とは何か… データ基盤 データ分析基盤 実践 2022-08-18 Metaflowでモデルの学習をpipeline化するまで MLOps Metaflow Pipeline 皆さんは「MLOps」について取り組んでいらっしゃるでしょうか。私は2018年頃からデータクレンジングや機械学習モデルの構築や運用をしてきましたが、当時の日本で私の耳にはMLOpsという言葉が入ってくることはありませんでした。 ただMLOpsの元となった「Dev…

                      DATAFLUCT Tech Blog
                    • AI・Python活用レシピ100選 - Qiita

                      ※ 一部ガイドラインに反する内容がありましたので、該当箇所を修正のうえ再投稿しております。 はじめに Axross は、エンジニアの"教育"と"実務"のギャップに着目し、「学んだが活用できない人を減らしたい」という想いで、ソフトバンク社内起業制度にて立ち上げたサービスです。 現役エンジニアによる実践ノウハウが"レシピ"として教材化されており、実際に動くものを作りながら、具体的な目的・テーマをもってプログラミングを学ぶことができます。 今回は、Axross運営が厳選した『AI・Python活用レシピを100選』をご紹介します。是非、みなさまのAIやPython学習の参考にしてみてください。 Axross:https://axross-recipe.com 公式Twitter:https://twitter.com/Axross_SBiv 基礎 スクレイピング 01 . JUMPの掲載順をスク

                        AI・Python活用レシピ100選 - Qiita
                      • 2019年末版 形態素解析器の比較 - Qiita

                        形態素解析は日本語処理の初歩であり、文を単語に分割したり、品詞や活用形、基本形を分析するために行います。本記事では形態素解析のツールをいくつかの出力例を交えて比較していきます。 (SentencePieceでいいじゃん、という人はお呼びでないですが、そういう方には、Twitterのトレンドが変な分割になってたら嫌では?と申し上げておきたいです) MeCab 言わずと知れた形態素解析器。とりあえずMeCabを使うという人は今なお多いことでしょう。とにかく高速であるということと、システムと辞書が分離されているのが特徴です。またPythonから使うのも簡単になりました(Janomeというものがありましたがmecab-python3の方が高速です)。Javaから使いたい人はKuromojiを使えばmecab(+ipadic)相当の結果が得られるはずです。 辞書はIPA辞書が推奨されていますが、Un

                          2019年末版 形態素解析器の比較 - Qiita
                        • 我偽中国語翻訳機作成了 - Qiita

                          のように、日本語の文章から偽中国語を自動生成したい。 偽中国語とは 中国語のようでいて日本人でも意味を理解できてしまう漢字の羅列のこと。 通常「私はご飯が食べたい」を中国語では 我想吃饭 と書きます。一方で偽中国語は 我飯食希望 と「私はご飯を食べることを希望する」と読めなくもない表記で記します。 これが偽中国語です。以前からTwitterやLINEなど各種SNSで使われてきたユーモアあふれる記法です。 そこで、日本語の文字列を与えることで偽中国語に変換してくれる翻訳機を作りました。 サンプル 実行環境 macOS High Sierra 10.13.6 Python 3.5.1 方針 実装方法 偽中国語の慣例上 1 、 - 動詞「○○する」は「○○実行」と変換することが多い - 「明日お酒飲みに行かない?」のような提案する文章の場合、文末に「如何?」を付ける - 「私は◯◯したい」のよう

                            我偽中国語翻訳機作成了 - Qiita
                          • Excelで誰でも簡単言語処理 (感情推定, 固有表現抽出, キーワード抽出, 文類似度推定 etc...) - Qiita

                            Excelで誰でも簡単言語処理 (感情推定, 固有表現抽出, キーワード抽出, 文類似度推定 etc...)ExcelAPIVBA自然言語処理COTOHA 3行まとめ Excel関数一発で高度な言語処理を使えるようにしました 感情推定、固有表現抽出など日本語を分析・整理するのにいろいろ使えます Windows + Officeユーザならマクロファイルで誰でも簡単に使えます ※Macだと多分動かないと思います。VBAのHTTPリクエストを有効にできないため。。。 9/1追記: コメント頂きましたが、64bit版OfficeだとjsonParseが動かないようなのでアップデートしてみました。動作確認できていないので自己責任でお願いします https://github.com/korinzuz2/excelcotoha/blob/master/COTOHA公開用64bitExcel対応版.xls

                              Excelで誰でも簡単言語処理 (感情推定, 固有表現抽出, キーワード抽出, 文類似度推定 etc...) - Qiita
                            • How to implement Japanese full-text search in Elasticsearch

                              全文検索は一般的に知られていますが、検索エクスペリエンスで非常に重要な役割を果たしています。ただし、日本語など、一部の言語では、全文検索を実装するのが難しい場合があります。このブログでは、日本語で全文検索を実装する際の課題を探り、Elasticsearchでこれらの課題を解決する方法をいくつか示します。 全文検索とは? Wikipediaより、下記が定義となります。 全文検索とは、コンピュータにおいて、複数の文書(ファイル)から特定の文字列を検索すること。「ファイル名検索」や「単一ファイル内の文字列検索」と異なり、「複数文書にまたがって、文書に含まれる全文を対象とした検索」という意味で使用される。 全文検索は、現在多くのデジタル体験を強化するものです。全文検索は、データセット内に隠れている可能性のある単語やフレーズを見つけようとしてくれます。例えば、ネットショッピングして「phone」を検

                                How to implement Japanese full-text search in Elasticsearch
                              • Twitter可視化システムを作ってみたら日本に笑顔が溢れていた話 - NTT Communications Engineers' Blog

                                はじめに はじめまして。 プラットフォームサービス本部 データプラットフォームサービス部門の森分です。 もともと私は、NTT Comのクラウドサービスをベースにした法人向けソリューションの個社別運用やインフラ関連のプロジェクトマネージャ業務を担当しておりました。 最近はSmart Data Platform(以下、SDPF)アーキテクトなる、お客様課題の解決やNTT Comのビジネスの中でSDPFの活用を推進する部隊に参画しています。 データ利活用を支えるSDPFのアーキテクトがデータ利活用に詳しくなければ立つ瀬がありません。 そうならないように日々研鑽を積んでいるわけですが、その中で作ったTwitter分析システムっぽいもののご紹介が本稿の趣旨となります。 本来のデータ利活用プロジェクトでは、課題および仮説をまず明確にして、それに応じたデータ解析を進めていくのですが、本稿では堅苦しいもの

                                  Twitter可視化システムを作ってみたら日本に笑顔が溢れていた話 - NTT Communications Engineers' Blog
                                • OpenAI API を用いた文書校正(誤字脱字検出) | blog.jxck.io

                                  Intro OpenAI の API を用いて、長年の課題だった文書校正を VSCode 上で実現するプラグインを修作したところ、思った以上の成果だった。 文章校正と誤字脱字検出 執筆を補助するツールは多々開発されているが、基本は形態素解析を用いた品詞分析の延長で行うものが多かった。 よくある「助詞の連続」、「漢字の開き閉じ」、「一文の長さ」などは、ある程度の精度で検出可能ではあるが、結局執筆時に一番検出して欲しいのは「誤字脱字」だ。 文体をどんなに揃えたところで、誤字脱字があるとやはりクオリティが低く感じるし、そこさえ抑えられていれば、他のスタイル統一は訓練である程度なんとかなる。 英語のスペルチェックはかなり進んでいるが、日本語においてはそこまで革新的なものが見当たらない。あらゆるツールを試したが、結局満足のいく精度が出る誤字脱字検出は「Word の校正機能」しかなかった。 そこで筆者

                                    OpenAI API を用いた文書校正(誤字脱字検出) | blog.jxck.io
                                  • 【2023年版】機械学習の日本語無料学習教材まとめ - Qiita

                                    言語&開発基礎編 PythonやSQLなどの言語と開発環境に関連することをまとめました。 機械学習に関する教材はこの次のセクションにまとめてあります。 学習環境 インストール及び使い方チュートリアルのサイトと、ある程度使い慣れた後に役立つtips集を各エディタでまとめました。 Google Colaboratory Python初学者にとって最もわかりやすいPython実行環境です。プログラミングは初めて!という方はまずこのGoogle Colaboratory(通称: Colab)から始めてみて、使い方がある程度わかったら、そのまま次のセクションのPython編に移りましょう。 Pythonプログラミング入門 難易度: ★☆☆ 東京大学の公開しているPython講座ですが、冒頭でColabの使い方を解説しています。使ったことのない方はこちらから! Google Colabの知っておくべき

                                      【2023年版】機械学習の日本語無料学習教材まとめ - Qiita
                                    • Elasticsearchで日本語検索を扱うためのマッピング定義 - ZOZO TECH BLOG

                                      こんにちは、検索基盤部 検索基盤ブロックの渡です。私は検索基盤ブロックで、主にZOZOTOWNの検索周りのシステム開発に従事しています。 以前の記事では、Elasticsearchのマッピング設定の最適化について取り上げました。そして、今回は日本語による形態素解析を実現するまでの手順をご紹介します。 techblog.zozo.com 目次 目次 はじめに Elasticsearchで全文検索を実現させる手順 全文検索のためのマッピング定義 Analyzerの構造 日本語対応のAnalyzer 日本語対応のためのプラグイン追加 kuromoji Analyzerを指定したマッピング定義の例 kuromojiプラグイン機能 カスタムしたAnalyzerのマッピング定義 Analyzerの動作確認 modeを選択した場合のマッピング定義の例 Analyzer適用の注意点 kuromoji以外の

                                        Elasticsearchで日本語検索を扱うためのマッピング定義 - ZOZO TECH BLOG
                                      • Mozcdic-UT (Mozc-UT)が終わった話と、代替品を開発してる話 - Chienomi

                                        序 2023-01-12にLinux界隈に激震が走ったらしい。 Linux環境(Unix環境を含む)の日本語入力を支えていた、Mozcdic-UTプロジェクトが終了したからだ。 まず、前提として私の立場を明確にしよう。 私は2017年から、従来のMozc-UTに代わる新しい(ライセンス上の懸念のない)Mozc辞書として誕生したMozc-NEologd-UTのFcitxバインディング、fcitx-mozc-neologd-utのAURパッケージをメンテナンスしてきた。 その後新生Mozc-UTが誕生してからはfcitx-mozc-ut-unifiedとfcitx-mozc-ut-unified-fullというふたつのパッケージを加え、計3つパッケージをメンテナンスしてきた。 その後、mozcdic-ut自体がfcitx4をサポートしなくなったこと、fcitx5は既にメンテナーがいたことから私

                                        • 社会学者はtwitterでどう語られるか? - データをいろいろ見てみる

                                          twitter上でdisられる社会学者 しばしば 社会学者はSNSで悪し様に罵られる。 なぜ社会学はここまで嫌われるのか|小山晃弘|note 例えばこのブログが書いているように、胡散臭い、学問ではない と言われる。 ここで疑問に思ったのは、上で紹介したブログに様に社会学者だけに悪評が立っているのか?他の学問分野ではどうなのだろうか? twitterで社会学者はどの様に語られているか? twitterは、開発者向けに全ツイートの1%のサンプリングデータを公開している。私は2018年からそのtweetサンプルを収集している。現在、約7億件のtweetを収集している。 そのデータを利用して、社会学者はtwitter上でどの様に語られているかを調査する。 調査データ データ種別 説明 データ期間 2018-01-09から2021-01-28 データ件数 約7億2千4百万件 調査方法 サンプリングさ

                                            社会学者はtwitterでどう語られるか? - データをいろいろ見てみる
                                          • オタクと気持ち悪いという言葉 - データをいろいろ見てみる

                                            概要 Twitter上で「気持ち悪い」、「キモイ」という言葉が、どのように使われてるかと調査した。 調査対象は、キモイ、気持ち悪いという言葉を含むtweet、約28万件 時系列の変化を見るため、2018年と2019年で調査を行った 気持ち悪いと言う言葉は、オタクへの言及とともに使われている オタクを含んだtweetは、28万件中、14431件あった 調査結果 2018年調査 2018年に投稿されたツイート調査 調査期間 2018/01/09 - 2018/12/31 tweetソース元 Sample realtime Tweets API 2019年調査 2019年に投稿されたツィート調査 調査期間 2019/01/01- 2019/10/20 tweetソース元 Sample realtime Tweets API 気持ち悪いという言葉の特徴 気持ち悪いという単語は、他者を侮蔑する意味と

                                              オタクと気持ち悪いという言葉 - データをいろいろ見てみる
                                            • 君がエッチなことを考えるとみんなのブラウザに流れ星が降るChrome拡張 - Qiita

                                              2022/04/28:追記 公開していたzipファイルのリンクを削除しました。 バックエンドのサーバーを停止しました。 伴ってもう星が流れなくなります。 ※この記事にはちょっとだけエッチな内容が含まれます!苦手な方はご注意ください。 こんにちは。あんど(@ampersand_xyz)と申します。 いきなりすみません、タイトルにエッチとか入ってて驚かれた方もいらっしゃることでしょう。どういうことなのか説明させていただきます。 概要説明 画像出典: 吸血鬼すぐ死ぬ 9巻 P134 盆ノ木至 秋田書店 __要するにこれです。__さすがに宙に星を降らせるわけにはいきませんので今回はブラウザ内に星を降らせていきます。 漫画のコマを見ただけでは何を言ってるのかご理解いただくのが難しいかもしれませんが、これ以上説明のしようがありませんのでついてきてください。 実現方法 いかにしてエッチなことを考えている

                                                君がエッチなことを考えるとみんなのブラウザに流れ星が降るChrome拡張 - Qiita
                                              • 頻出単語表示、わずか9KBのAI日本語単語分割ライブラリ「TinySegmenter」をESモジュール化

                                                自由入力された文章をデータ化する形態素解析ですが、巨大な辞書が必要になったり次々登場する単語に対応することなどなかなか大変そうなイメージでしたが、機械学習を使った、単語分割するコンパクトな実装「TinySegmenter」を発見。ブラウザやDenoでいい感じに使えるESモジュール版にしてみました。 「頻出単語表示 by TinySegmenter」 文章を入れると、頻出単語順に並び替えて表示する、サンプルアプリ。このアプリでは、3文字以上を単語としています。一日一創ブログをコピペしてみるといい感じに! プログラムで組み込む方法は簡単、ブラウザやDenoで下記コードを入れるだけ。 import { TinySegmenter } from "https://code4fukui.github.io/TinySegmenter/TinySegmenter.js"; const segs = T

                                                  頻出単語表示、わずか9KBのAI日本語単語分割ライブラリ「TinySegmenter」をESモジュール化
                                                • メルカリShops の技術スタック、その後 | メルカリエンジニアリング

                                                  こんにちは。ソウゾウのSoftware Engineer(CTO)の@suguruです。連載:メルカリShops 開発の裏側 Vol.2の1日目を担当させていただきます。 去年、2021年に開始した メルカリShopsの技術スタック についての記事を書きましたが、今回はリリースまでに採用した技術スタックが、半年通してどのようにアップデートしてきたかを共有したいと思います。 ローンチ時に採用した技術が、実際の運用でどのように変遷したのかを共有することで、技術スタックを考える際の何らかの参考になれば幸いです。 monorepo メルカリShops ではサービスに必要なコードを1つに集約する monorepo を採用しています。リリース後半年たってコード量はかなり増えてきましたが、monorepo に対する満足度は非常に高く、うまく機能しています。 サービス全体の見通しが良くなることと、すべての

                                                    メルカリShops の技術スタック、その後 | メルカリエンジニアリング
                                                  • 【重要】日本語形態素解析・自然言語理解API V2 リリースのお知らせ - Yahoo!デベロッパーネットワーク

                                                    いつもテキスト解析Web APIをご利用いただきありがとうございます。 テキスト解析Web APIにおける一部APIの後継バージョン(V2)リリースと仕様変更についてお知らせいたします。 ■ 対象API 日本語形態素解析 自然言語理解 ■ 変更箇所 リクエストURLが変わります GETリクエストは廃止となり、POSTリクエストのみになります リクエストパラメータが変わります(一部パラメータが廃止されます) レスポンス形式・フィールドが共に変更になります V2の仕様の詳細につきましては以下のページをご覧ください。 日本語形態素解析 自然言語理解 V1終了予定時期につきましては2022年11月末を予定しております。 ご迷惑をおかけしますが、なにとぞご了承ください。 今後ともテキスト解析Web APIをよろしくお願いいたします。

                                                      【重要】日本語形態素解析・自然言語理解API V2 リリースのお知らせ - Yahoo!デベロッパーネットワーク
                                                    • AWS、PythonでMeCabを使う際の語彙データを無料公開 | Ledge.ai

                                                      アマゾン ウェブ サービス ジャパン株式会社(Amazon Web Services、AWS)は、同社のオープンデータセットに、日本語自然言語処理で定番の形態素解析器である「MeCab」を、ラッパーライブラリであるfugashi経由でPythonで使用する際の語彙(ごい)データに加えた、と公式ブログで明らかにした。 多くの機械学習デベロッパーが、AWS上でさまざまなアルゴリズムの開発やモデルを構築している。なかでも、自然言語処理をする際には、対象言語の特性に即した形で前処理をする必要がある。日本語の自然言語処理を実施する際には、一般的に「形態素解析」と呼ばれる文章の分解処理を前位処理として実施する。 日本語形態素解析をするためには、日本語の語彙データが必要になる。語彙データは大きなサイズになるだけではなく、これらを用いた計算の際にも大量のGPUおよびCPUが求められる。そのため、従来このよ

                                                        AWS、PythonでMeCabを使う際の語彙データを無料公開 | Ledge.ai
                                                      • 自然言語を簡単に可視化・分析できるライブラリ「nlplot」を公開しました - ギークなエンジニアを目指す男

                                                        こんにちは。たかぱい(@takapy0210)です。 本日は自然言語の可視化を手軽にできるようにしたパッケージnlplotをPyPIに公開したので、これのご紹介です。 nlplotとは? nlplotで何ができるか 使い方 使用データ 事前準備 ストップワードの計算 N-gram bar chart N-gram tree Map Histogram of the word count wordcloud co-occurrence networks sunburst chart まとめ nlplotとは? 自然言語の基本的な可視化を手軽にできるようにしたパッケージです。 現在は日本語と英語で動作確認済みです。 基本的な描画はplotlyを用いているため、notebook上からインタラクティブにグラフを操作することができます。 github.com (スター★お待ちしております🙇‍♂️)

                                                          自然言語を簡単に可視化・分析できるライブラリ「nlplot」を公開しました - ギークなエンジニアを目指す男
                                                        • 2023年の話題&ベストセラーをまとめて紹介! Udemyで今年最大級のセール開催、生成AIなど対象講座が1,200円より - はてなニュース

                                                          世界中を席巻した生成AIは、ブームに終わることなく着実に社会のさまざまな場面で利用が進んでいます。特にChatGPTを始めとするテキスト生成はビジネスシーンですぐに適用可能なケースも多く、使いこなす人とそうでない人には大きな差が生じつつあります。 使いこなすノウハウにも一定の知見が貯まっており、定番となるセオリーが整理されています。正しく学ぶことができれば一気にキャッチアップできるでしょう。Udemyの講座でも、ChatGPTを使いこなすプロンプトの作法や、アプリケーションにLLM(大規模言語モデル)を組み込むノウハウ、AIをより深く知る数学知識などに人気があります。 この記事では、2023年11月17日(金)に始まるブラックフライデーセール(24日まで)、そして26日(日)から2日間のサイバーセールの対象になる人気講座から、エンジニアリングやビジネスシーンにおいて読者の成長を助けてくれる

                                                            2023年の話題&ベストセラーをまとめて紹介! Udemyで今年最大級のセール開催、生成AIなど対象講座が1,200円より - はてなニュース
                                                          • 最近またLinux用の日本語IMEを作っている - tokuhirom's blog

                                                            最近またLinux用の日本語IMEを作っている 本件は mozc の ut がどうこうとかは関係なくて、ふと linux desktop を使おうと昨年末に思いまして、昨年末からちまちまやってます https://github.com/tokuhirom/akaza かな漢字変換って作るの難しいのかなぁ、と思ったので作ってみている。これはまさに Just for Fun でやっている。 わりと普通に自分で常用してる分には困らないかな、というところまできている。 以下は、思ってることの垂れ流しという感じで、まとまってないですが。 「日本語入力を支える技術」という本が 2018年に出ていて、この本の内容を読めば、だいたいエンジン部分は実装できる。Amazon のレビューではこの本よんでも実装できないって書いてあるけど、変換エンジン自体は実装できます。 UI が辛い。けど。 エンジンは、ビタビア

                                                            • 1つの HTML ファイルだけで完結する校正支援ツールの作り方

                                                              こんにちは。LINEヤフー株式会社でテキストマイニングや自然言語処理などをやっている山下( @yto )です。 Yahoo!デベロッパーネットワークのテキスト解析 Web API が CORS(Cross-Origin Resource Sharing)対応したため、サーバがなくてもブラウザから直接 Web API にアクセスできるようになりました(参考)。 そのテキスト解析 Web API の機能の一つである「校正支援」は日本語文章の品質チェック(校正)を支援するもので、文字の入力ミス、言葉の誤用、わかりにくい表記、不適切な表現などが使われていないかをチェックして、指摘します(内部の辞書データをベースとしているため完全なものではないことをご承知おきください)。 この校正支援機能のサンプルプログラムとして「HTML ファイル1つだけで完結する校正支援ツール」を作ったので紹介します。入力され

                                                                1つの HTML ファイルだけで完結する校正支援ツールの作り方
                                                              • WEB開発に役に立つAPI一覧+API毎に関連するQiita記事を分類 ! - Qiita

                                                                前回: Qiita APIで記事からYoutube動画を集めてみた 🎬 、Qiita APIを使って、Qiita記事を取得してYoutube動画のURLを抽出することができました。 今回は、特定APIに関連したQiita記事を取得して、API毎に分類、タグを集計してドーナツグラフ化することでAPIの特徴を表してみました。 最新のAPI一覧はこちら API一覧 | DOGAKIITAA! ~ APIごとにQiita記事を分類 ~ Google系 Cloud Vision API https://cloud.google.com/vision/docs/quickstart 📝 機械学習を使用して画像を解析します。画像ラベリング、顔やランドマークの検出、光学式文字認識(OCR)、不適切なコンテンツへのタグ付けなどができます。 Cloud Vision APIの凄さを伝えるべくRasPi b

                                                                  WEB開発に役に立つAPI一覧+API毎に関連するQiita記事を分類 ! - Qiita
                                                                • Elasticsearchで関連キーワード機能がどれだけ低コストで実装できるかの旅路 - エムスリーテックブログ

                                                                  クエリに対する関連キーワード機能 エムスリーエンジニアリンググループ AI・機械学習チームの中村(@po3rin) です。 好きな言語はGo。仕事では主に検索周りを担当しています。 Overview 最近の仕事で医師に質問ができるサービスで「Elasticsearchを使ってなるべく低コストで関連キーワード機能を実装する」という案件に携わっていました。本記事では関連キーワード機能を低コストで実装するための技術調査の結果と、実際に採用した方法をご紹介します。 今回紹介する方法は機械学習などは使わず、なるべく低コストである程度の品質を目指すものです。この記事を読むことで検索アプリケーションにサクッと関連キーワード機能を実装できるようになるでしょう。 Overview 検索における関連キーワード機能とは 実装の前提条件 実装パターンの紹介 (1) ログで出現した単語を数えあげる (2) ログに対

                                                                    Elasticsearchで関連キーワード機能がどれだけ低コストで実装できるかの旅路 - エムスリーテックブログ
                                                                  • もし「GitHub Copilot」を現役弁護士が使ったら? - MNTSQ Techブログ

                                                                    こんにちは。GitHub Copilotを先日初めて触って、感銘を受けたMNTSQ代表の板谷です。MNTSQの代表をしておりますが、現役の弁護士でもあります。 なぜ私が、GitHub Copilotに感銘を受けたかというと、「プログラミングの LLM による進化」は、契約という言語をコーディングするためにもドンピシャで使えそうだと感じたからです。 例えば、GitHub Copilot では、自分の過去のコードを参照して、最適なコードをサジェストしてくれます。 これは、契約に関わるすべてのビジネスパーソンが求めていたものです!契約の 99.9%が過去のコードの使い回しであるにもかかわらず、毎回ゼロからコーディングするのが本当に苦痛だからです。ちなみに、前回契約と理由なく diff があると取引先に怒られます。笑 しかし、GitHub Copilot 的なものがプログラミング言語だけでなく契約

                                                                      もし「GitHub Copilot」を現役弁護士が使ったら? - MNTSQ Techブログ
                                                                    • Pythonで始める自然言語処理の基礎の基礎 | クリエイターのための総合情報サイト CREATIVE VILLAGE

                                                                      PythonはAIや機械学習領域のライブラリを豊富に持っており、近年非常に高い人気を誇っています。今回はPythonを使用して自然言語(人間が読み書きする言語)を処理する方法ご紹介します。 近年、自然言語処理の領域は急速に発展しており、機械翻訳(英語から日本語の翻訳等)の精度も年々向上しています。今回はその自然言語処理の基礎の基礎の部分をお伝えし、Pythonで処理する方法をご紹介いたします。 合田 寛都(ごうだ・かんと) 株式会社メンバーズ メンバーズデータアドベンチャー データアナリスト メンバーズに新卒入社後大手企業のWEBサイト運用やアクセス解析等に従事。メンバーズデータアドベンチャーに異動し、クライアント企業にデータアナリストとして常駐。 自然言語とは? 自然言語とは人間が日常的に読み書きする、所謂普通の言語のことを指します。これと対比されるのが機械語やプログラミング言語で、Py

                                                                        Pythonで始める自然言語処理の基礎の基礎 | クリエイターのための総合情報サイト CREATIVE VILLAGE
                                                                      • 小説家になろうを機械学習でデータ分析してブックマーク10以上を獲得しやすい条件を探す - Qiita

                                                                        はじめに これを書いてる人の機械学習・データ分析のスキルはpythonの拡張子が.pyであることを知ってから10日目ぐらい、「決定木」「最小二乗法」「特徴量」「RMSE」といった単語を初めて見てから7日目ぐらいといったレベルです。なのでより良い方法がある場合や、分析の途中間違っている箇所などがあればコメント欄等でどんどん指摘してくださると有り難いです。(コードが汚い、変数の命名がおかしい等はご容赦ください) 本記事について 小説家になろうの作品でブックマーク10以上を獲得するために、有利なジャンルはあるのか、作品のタイトルとあらすじの文字数は重要か、本文の文字数は重要か、ジャンルが重要ならどのジャンルが良いのか、文字数が重要ならどのぐらいの文字数が良いのか、といったことを調べていきます。 先に分析の結果を書くと 大ジャンル ジャンル 15禁止作品かどうか、タイトルの文字数、あらすじの文字数

                                                                          小説家になろうを機械学習でデータ分析してブックマーク10以上を獲得しやすい条件を探す - Qiita
                                                                        • 歴代チャットボットと最近のLLMのまとめ - Qiita

                                                                          LLMs The History of Chatbots ELIZA (1966) 初期の人工知能プログラムのひとつ。 ルールベースの簡単なパターンマッチングで返答していた。 心理療法士の会話を模したELIZA(DOCTOR)が有名。 PARRY (1972) PARRYは偏執病的統合失調症患者をシミュレートしようとしたもの。 ELIZA(DOCTOR)と通信し話題となった。 Jabberwacky (1982, 1988, 1997) ユーモラスな人間同士の自然な会話をシミュレートすることを目的としていた。 ユーザーとの会話の大規模なデータベースを構築し、言語と文脈を学習することができた。 プロジェクト自体は1982年から開始されていたが、当初は学習機能は有していなかった。 ローブナー賞を2005年(George)、2006年(Joan)に受賞している。 ローブナー賞(Loebner P

                                                                            歴代チャットボットと最近のLLMのまとめ - Qiita
                                                                          • 技術書典13で注目している新刊本

                                                                            2022年9月11日(日)追記 技術書典が始まって2日経ちました。ありがたいことに筆者の本を買ってくださった方もいらっしゃいます。本記事で紹介した本はすべて購入し、ダウンロード可能なものには全部目を通しました。結論からいうと全部買ってよかったです。買って後悔するような本はひとつもないので、安心してお買い上げください。一部の本には購入後のコメントを書き加えました。しかし皆さんクオリティが高いですね。 もうすぐ技術書典13が始まります。筆者は今回初めて出展者として参加することもあり、とても楽しみにしています。オンラインマーケットも技術書典13仕様になり、新刊特集も登場しました。 新刊特集のキャプチャ(筆者の本も入っています。うれしい!) DiscordやTwitterを見ているとギリギリまで執筆している方も多く、新刊特集の対象本は毎日のように増えています。まだまだ増えそうですが、とりあえず現時

                                                                              技術書典13で注目している新刊本
                                                                            • 本当に役立つFAQ検索システムを目指して - Nota TechConf

                                                                              Nota Tech Conf 2021 Spring 3日目の発表資料です 2021/3/11 こんばんは daiizdaiiz.iconです Helpfeelの検索技術の話をします 開発、運用チーム プロダクトオーナー daiiz.icon プロジェクトマネージャー akix.icon Webディレクター akix.icon など テクニカルライター カスタマーサクセス エンジニア、デザイナー rakusai.iconakix.icondaiiz.iconshokai.icontakeru.iconTiro.icon 予測検索 Helpfeel CTO /masui/増井俊之.iconの展開ヘルプをベースとするFAQ検索システム PayPayフリマ様 FAQ テキパキと高速に検索できている クエリの表現に合わせて柔軟に結果が提示される Agenda いかにして探すか 1. 入力に対して遅

                                                                                本当に役立つFAQ検索システムを目指して - Nota TechConf
                                                                              • ゼロから始める異体字の世界【レトロデザインのための近代日本語講座〈2〉】 - マチポンブログ

                                                                                今回は「異体字」についてお話しします。すこし専門的な部分もあるので、適宜不要な部分は読み飛ばすことをお勧めします。 こんな問題から始めてみましょう。世田谷区の区章とその説明文は以下のように書かれています。 外輪の円は区内の平和、中心は「世」の文字が三方に広がり、人びとの協力と区の発展を意味しています。(世田谷区の紋章、シンボル | 世田谷区ホームページより) 「中心は『世』の文字」とありますが、そうは見えません。なぜこのような形なのでしょうか。 前回の記事 本記事は連載形式で、前回の補足のような内容になっています。前回の記事もご参照ください。 shokaki.hatenablog.jp クリックで目次の表示/非表示 前回の記事 異体字とは 異体字の認識 異体字の使われ方 どこまでが同じ漢字か 誤字か異体字か 異体字はどうできるのか よく使う字は略字化する 画数の多い字は正確でなくても読める

                                                                                  ゼロから始める異体字の世界【レトロデザインのための近代日本語講座〈2〉】 - マチポンブログ
                                                                                • WebブラウザでPythonが動作する!PyScriptの詳解 | gihyo.jp

                                                                                  鈴木たかのり(@takanory)です。今月の「Python Monthly Topics」では、Webブラウザ上でPythonが動作するPyScriptについて、内部構造なども含めて詳しく解説したいと思います。 PyScript公式サイト(https://pyscript.net/) Warning:PyScriptは現在非常に活発に開発が進んでいるプロダクトのため、将来的にこの記事のサンプルコードが動かなくなる可能性があります。記事執筆時点では最新バージョンであるPyScript 2023.03.1で動作確認しています。うまく動かない場合はPyScriptの公式ドキュメントなどを参照してみてください。 PyScript - PyScript documentation PyScriptとは? PyScriptは公式サイトに「Run Python in Your HTML」と書いてあると

                                                                                    WebブラウザでPythonが動作する!PyScriptの詳解 | gihyo.jp