並び順

ブックマーク数

期間指定

  • から
  • まで

241 - 280 件 / 1150件

新着順 人気順

文字コードの検索結果241 - 280 件 / 1150件

  • ゼロから作った形態素解析器Taiyakiで学ぶ形態素解析 - The jonki

    本記事は,自然言語処理 Advent Calendar 2019 - Qiitaの1日目の記事です. はじめに 今回の記事では,去年末ごろからPythonとCythonだけでチマチマ作った形態素解析器Taiyakiをベースに,形態素解析器の解説をしようかなと思います.この形態素解析器の完成はまだ程遠いんですが,ひとまず簡単な形態素解析はできるようになったのでここでお披露目しておきます.本記事は実質,Double-Arrayの辞書引きと最小コスト法に基づく形態素解析器の解説記事となっています. なぜ今更に形態素解析器を作ったかと問われると困ってしまうのですが,NLPerなら1つぐらい自作しても良いのかなってことと.形態素解析がどう動いているかって意外と知らなかったのが動機です.解説内容間違えてる可能性はあるので,見つけた方はコメント欄でご指摘いただけると嬉しいです. 作っているものは下記リポ

      ゼロから作った形態素解析器Taiyakiで学ぶ形態素解析 - The jonki
    • nkf の代替としての StreamRelay.jar (文字コード変換) - Qiita

      java.exe -Djava.security.policy=StreamRelay.policy -jar StreamRelay.jar ⇔ StreamRelay.bat InputStream/OutputStreamにReader/Writerを被せる事で、(文字コードを含む)文字列を扱うことができるので、入力の文字コードと出力の文字コードを異なるオプション指定をすれば、文字コード変換を行う事ができる オプション 使うオプションは、 - -LocalCharset - -RemoteCharset 通信方向ごとに個別に設定したい場合は↓ -LocalRequestCharset -LocalResponseCharset -RemoteRequestCharset -RemoteResponseCharset レスポンスだけ文字コード変換したい。という時に使える 文字コード変換

        nkf の代替としての StreamRelay.jar (文字コード変換) - Qiita
      • Raspberry Pi で RetroPie を構築する方法 - Qiita

        1. はじめに 今回は、自分自身への備忘録を兼ねて、Raspberry Pi で RetroPie を構築する方法を、お伝えしたいと思います。 ※2020年1月11日現在、Raspberry Pi 4 へのRetroPie公式対応はまだ発表されていないようです。(現時点ではRaspberry Pi 3B+をご利用することをおすすめいたします。) 2. この記事を読んでできること Raspberry PiでRetroPieを構築できるようになる。 3. 必要なもの Raspberry Pi(この記事では Raspberry Pi 3B+ を利用しました) SDカード(32GB) インターネット環境 パソコン(Windows10など) sshクライアントソフト(TeraTerm) 参考:RaspberryPiにIPアドレスではなくホスト名で接続したい方は、あらかじめiTunes(正確には『Bo

          Raspberry Pi で RetroPie を構築する方法 - Qiita
        • Webサービスの歩き方 - シン・境界値分析 - freee Developers Hub

          京王線 16:27 各停 調布 32768両編成 こんにちは。freeeでQAのマネージャをやってるuemuです。freee人事労務とグローバル開発のQAをメインで担当しています。 これは、freee QA Advent Calendar2023 23日目の記事になります。 はじめに みなさん、境界値分析はやってますか? 普段、QA業務を行っている人だったら、やったことがない人はいないでしょう。「そんなの知ってるよ」「いつもやってるよ」という人がほとんどだと思いますが、今回は普段より少し広い視野で境界値分析をやってみたいと思います。 ちょっと話が脱線しますが、私はブラタモリという番組をよく観ます。タモリさんが“ブラブラ”歩きながら知られざる街の歴史や人々の暮らしに迫る番組ですが、その中でタモリさんがよくこんなことを言っています。 「へりがおもしろいんですよ、へりが。」 「事件はへりで起きて

            Webサービスの歩き方 - シン・境界値分析 - freee Developers Hub
          • 大規模日本語ビジネスニュースコーパスを学習したXLNet(MeCab+Sentencepiece利用)モデルの紹介 - Qiita

            はじめに 以前、日本語のBERT事前学習済モデルとELMo学習モデルの紹介記事を投稿しましたストックマークの森長です。 モデル公開の記事を多くの皆様に読んでいただき、ありがとうございます。 昨今の自然言語処理界?では、事前学習モデルであるBERTの登場を皮切りに、XLNet、RoBERTa、ALBERTと多数のモデルが提案され、SOTAを競いあい、大いに盛り上がっています! ですが、最先端のモデルは英語や中国語で事前学習されたモデルが多く、日本語で試すにはハードルがかなり高いと感じています。 そこで、今回はBERT、ELMoに続いて、XLNetの日本語事前学習済モデルを公開いたします。 XLNetとは XLNetとは、自己符号化ベースであるBERTの以下懸念点を解消するために作られた、自己回帰ベースのモデルです。 BERTの[MASK]トークンは、fine-tuningの時に使用しないため

              大規模日本語ビジネスニュースコーパスを学習したXLNet(MeCab+Sentencepiece利用)モデルの紹介 - Qiita
            • データベースの文字数制限が191文字になっている理由とは?

              世の中のデータベースを見ていると、格納するデータの文字数に「191文字以内」という制限が課されている場合があります。一体なぜ191文字という中途半端な数字で制限が行われるのかについて、オープンソースのデータ同期ツールを展開するGrouparooのCTOを務めるエヴァン・ターラーさんが解説しています。 Grouparoo Blog: Why do database columns have a character length of 191? https://www.grouparoo.com/blog/varchar-191 ターラーさんはまず、現代のデータベースシステムでは無制限に文字を格納する設定も可能だとした上で、文字数の制限で検索速度が向上すると説明しています。例えば、メールアドレスの行が「[email protected]」となっているユーザーを見つけたい場合、なんの工夫も無い状

                データベースの文字数制限が191文字になっている理由とは?
              • CSVの区切り文字変更や文字コード変換などを一括処理「CSVのお供:アテンダントCSV」/「Excel」で読み込んだ際に先頭の“0”が消えたり、日付と解釈されることを防ぐことも【レビュー】

                  CSVの区切り文字変更や文字コード変換などを一括処理「CSVのお供:アテンダントCSV」/「Excel」で読み込んだ際に先頭の“0”が消えたり、日付と解釈されることを防ぐことも【レビュー】
                • Emacsで異体字とか色付き絵文字とかを表示できるようにしてみた - tmtms のメモ

                  いまだに Emacs を使ってるんだけど、最近フォント周りを調べてみたのでメモ。 異体字セレクタ Emacs は異体字セレクタに対応してないとずっと思っていたんだけど、実は単にフォントの問題で、ちゃんと異体字セレクタに対応したフォントを使えば異体字を表示することができた。 普段使ってる Migu 1M フォントだと Emacs 上で異体字はこんな感じに表示される。 異体字セレクタに対応している花園明朝Aフォントを使うとちゃんと表示できる。 でも明朝体ではなくゴシック体を使いたい。IPAexゴシックフォントは一部しか異体字セレクタに対応していない。「禰󠄀豆子」は表示できるけど「令󠄂和」は表示できない。 全体的に Migu 1M フォントを使いつつ、「令」(U+4EE4)は花園明朝A、「禰」(U+79B0)はIPAexゴシックを使うということもできる。 (set-fontset-font

                    Emacsで異体字とか色付き絵文字とかを表示できるようにしてみた - tmtms のメモ
                  • Excelデータクレンジングの「議論」をしよう(総務省ICTスキル総合習得プログラム期末テスト) - わえなび ワード&エクセル問題集 waenavi

                    困ったことに、情報処理の専門家が集まって情報処理の教材を作ると、知識が豊富すぎて「あれも大事、これも大事」と言いながらいろんなことを盛り込んでしまい、結局、初心者に見向きもされない教材が出来上がってしまいます。国家試験であるITパスポート試験もいろんな知識を盛り込んだ結果、何のパスポートにもならない暗記の試験になっています。 そして、総務省が2018年に公表した「ICTスキル総合習得プログラム」も例外ではありません。 www.youtube.com 大学の眠たい授業のように、偉い先生がYoutubeでマニアックな知識を得意げに披露したところで誰が関心を持つのでしょうか?? データ収集や処理、分析といった情報処理の基本を学ぶには、なぜそのような処理が必要なのかを考え、手を動かし、ときにはマイケルサンデル先生のように受講生を議論に参加させるなど、「疑問と議論」を重視した授業を展開するべきです。

                      Excelデータクレンジングの「議論」をしよう(総務省ICTスキル総合習得プログラム期末テスト) - わえなび ワード&エクセル問題集 waenavi
                    • データベース管理システム「MySQL」の基礎力を!インストールから解説する『MySQL徹底入門 第4版』

                      RDBMS(Relational Database Management System)の1つとして広く利用されているMySQL。その入門書として、CodeZineを運営する翔泳社では日本MySQLユーザ会のメンバーによる『MySQL徹底入門 第4版』を7月6日(月)に発売しました。第3版から9年ぶりの全面的な改定となり、バージョン8.0に対応。8.0を導入しようか気になっている方はもちろん、すでに使っているもののいまいち思いどおりのことができていない方も、ぜひ本書でMySQLの基礎力を高めてください。 『MySQL徹底入門 第4版 MySQL 8.0対応』は、2018年に5.7から8.0へと一気にバージョンアップしたMySQLの基礎を網羅的に解説した入門書です。 データベース管理システムを選ぶとき、MySQLは非常に有力な選択肢です。誰でも無料で利用できるオープンソースライセンスだけでな

                        データベース管理システム「MySQL」の基礎力を!インストールから解説する『MySQL徹底入門 第4版』
                      • [改訂第8版]LaTeX2ε美文書作成入門

                        2020年11月14日紙版発売 2020年11月14日電子版発売 奥村晴彦,黒木裕介 著 B5変形判/448ページ/DVD1枚 定価3,608円(本体3,280円+税10%) ISBN 978-4-297-11712-2 ただいま弊社在庫はございません。 →本書の新版が発行されています。 本書のサポートページサンプルファイルのダウンロードや正誤表など この本の概要 本書は,本や論文などを組版し,印刷・電子化するためのフリーソフト「LaTeX」および関連ソフトについて,やさしく解説したものです。LaTeXの基礎はもちろん,「自分で体裁を変更したい」といったある程度高度な知識が必要なところまで幅広く網羅。LaTeXを使うすべての人にオススメの一冊です。 第8版では,旧来のpLaTeXだけでなく,(モダンな)LuaLaTeX等にも配慮して大幅に内容を見直しました。どちらの環境をメインにされている

                          [改訂第8版]LaTeX2ε美文書作成入門
                        • 重症者を検知器とするクラスター対策およびその帰結について - remcat: 研究資料集

                          クラスター対策の基本的性質 Science のサイトに Japan ends its COVID-19 state of emergency という記事が掲載されていました。 Then, whereas much of the rest of the world built its response to the pandemic on widespread contact tracing, isolation, and testing, Japan adopted a “quite different” strategy, Oshitani says. “We try to identify the clusters and [determine] their common characteristics.” ...... They also concluded that most of

                            重症者を検知器とするクラスター対策およびその帰結について - remcat: 研究資料集
                          • Hal Seki on Twitter: "総務省のマイナンバーカード交付状況をデータ化していて、データの結合がうまくいかないなーと思ったら、なんと、同じ埼玉でも文字コードが違うという落とし穴が・・ 3月8日では \u2f5f が使われていて、それ以降では\u7389…… https://t.co/yzgf41Wl4w"

                            総務省のマイナンバーカード交付状況をデータ化していて、データの結合がうまくいかないなーと思ったら、なんと、同じ埼玉でも文字コードが違うという落とし穴が・・ 3月8日では \u2f5f が使われていて、それ以降では\u7389…… https://t.co/yzgf41Wl4w

                              Hal Seki on Twitter: "総務省のマイナンバーカード交付状況をデータ化していて、データの結合がうまくいかないなーと思ったら、なんと、同じ埼玉でも文字コードが違うという落とし穴が・・ 3月8日では \u2f5f が使われていて、それ以降では\u7389…… https://t.co/yzgf41Wl4w"
                            • 転職は非線形な成長のきっかけになる。専門外から飛び込んだセキュリティ業界でギャップを乗り越えて【はせがわようすけさんインタビュー】 - Findy Engineer Lab

                              ひょうひょうとした自然体。専門家だと偉ぶることもなく若手エンジニアと議論に興じ、子どものように無邪気に技術を楽しむ──Webセキュリティ企業のセキュアスカイ・テクノロジー(SST)でCTOを務めるはせがわようすけ(@hasegawayosuke)さんは、技術力や発想力だけでない不思議な魅力の持ち主です。 そんなはせがわさんですが、エンジニアとしてのスタートは組み込み領域における回路設計。単純に勤続年数としては最も長く経験された企業だとか。同じコンピュータ関連とはいえ、畑違いの世界からいったい何を考えてセキュリティ業界に移り、どんなキャリアを歩むことで現在のはせがわさんになったのか? いくらかの笑いも交えながらお話を伺いました。 目の前の課題をできるだけ抽象化してから解決したい 電子回路の設計を通して学んだ「品質」とハックの原点 コミュニティ黎明期から生じたWebセキュリティへの興味 セキュ

                                転職は非線形な成長のきっかけになる。専門外から飛び込んだセキュリティ業界でギャップを乗り越えて【はせがわようすけさんインタビュー】 - Findy Engineer Lab
                              • 超入門SQL 初心者でも理解できるCOUNT()とSUM() ─ グルーピングと集約関数の基本|ハイクラス転職・求人情報サイト AMBI(アンビ)

                                超入門SQL 初心者でも理解できるCOUNT()とSUM() ─ グルーピングと集約関数の基本 以前に掲載して好評を博している「SQL入門」の続編です。前回は基本的なSELECT文を解説しましたが、今回は簡単な集計に挑戦してみます。執筆は前回と同じく、日本MySQLユーザ会副代表の坂井恵さんです。 社内に蓄積された大量のデータを、エンジニア以外のスタッフが自分の手で抽出し、集計できる環境を手にする機会も増えてきました。ビジネスの現場にいるメンバーが、自らSQLを使用してデータ操作を行うことができれば、ほしい情報をスピーディーに利用できます。この記事ではそういった「エンジニアではないがSQLを利用できる環境にいる」方に向けて、SQLの便利な集計操作をいろいろと紹介していきます。 集計の基本: COUNT(*)関数で件数を取得する SQLの集計処理入門: GROUP BYによるグルーピング グ

                                  超入門SQL 初心者でも理解できるCOUNT()とSUM() ─ グルーピングと集約関数の基本|ハイクラス転職・求人情報サイト AMBI(アンビ)
                                • 10年放置されたレガシーコードをモダン化する | BLOG - DeNA Engineering

                                  ゲーム事業部の酒井です。 今年DeNAのMobageは15周年を迎えます。同時にそれを支えてきた技術にも15年の歴史があることになります。サービスを構成しているさまざまな技術は、そのときどきの事情やトレンドによって適切に更新・メンテナンスしながら運用されてきました。 一方でサービスを構成する重要なコンポーネントであるにもかかわらず、多様な理由から長らくメンテナンスもされず、現場から忘れ去られてしまったものも存在します。実際Mobageのサービスのひとつ「アバター」にそのようなコンポーネントがあり、それがあることをきっかけにサービスの存続に関わる問題としてにわかに噴出するということがありました。 そのため該当コンポーネントのコードをアップグレードし、かつ今後は誰でもメンテナンスができるようビルド環境の再整備を行いました。今回はこの実例をもとに、レガシーコードをモダン化した試みを紹介します。

                                    10年放置されたレガシーコードをモダン化する | BLOG - DeNA Engineering
                                  • Macで濁点とかが起こす文字化け問題について

                                    B! 24 0 0 0 Macの中でGNU screenなどを立ち上げると文字化けすることがありますが、 その辺の問題についてのメモ。 Macでの文字化け問題 問題の確認 Windowsでの文字化け問題 HomebrewでインストールするGNU screenの文字化け対策 Macでの文字化け問題 Macの中でGNU screenを立ち上げたらファイル名の表示などが文字化けしたりすることがあります。 殆どの場合は日本語ファイル名で濁点を使ってる場合で、文字コードの問題です。 ただ、単純にUTF-8かShift_JISか、とかそういったものではなく、濁点や半濁点の扱いの特殊さによります。 MacではFinderでもターミナル上でも基本的にUTF-8で文字を扱いますが、 UTF-8の中でもいくつか文字の取り扱いに対して違うものが存在します。 FinderではNFD(Normalization F

                                    • DBMで単語辞書を作ろう - 豪鬼メモ

                                      データベースマネージャTkrzwを無事にリリースしたはよいが、ドッグフードは自分で食わないといけない。DBMを作るとまず最初にやりたくなるのが、それを使った単語辞書を作ることである。仕事柄、英和辞書と和英辞書はよく使うのだが、自分で作ったものを毎日便利に使っている。時間効率と空間効率に優れたDBMは辞書データを扱うのにうってつけだ。ということで、PythonでとDBMライブラリを使って単語辞書を実装していこう。 同じ仕組みで英和辞書でも和英辞書でも独和辞書でも中仏辞書でも何でも作れるが、当然ながら辞書データが必要である。私は普段、英辞郎のデータを購入して使っているが、ライセンス上、デモサイトの公開などには使えない。代わりに、この連載ではプリンストン大が公開しているWorldNetというデータベースを利用して英英辞書を作る方法を紹介する。ただし、入力データを先にTSV形式の中間データに落とし

                                        DBMで単語辞書を作ろう - 豪鬼メモ
                                      • 文字ときどきRuby / Character and Ruby (NSEG)

                                        MySQL徹底入門 第4版 - ユーザー管理とか文字コードとか / MySQL Book 4 - User and Charset

                                          文字ときどきRuby / Character and Ruby (NSEG)
                                        • ChatGPTでプログラミングのフラット化がはじまっている

                                          プログラミングを始めるハードルが爆発的に下がっている! MITテクノロジーレビューによると、囲碁AIの「アルファ碁」で有名な、ディープマインドが新しいアルゴリズムを発見したそうだ。アルゴリズムというのは、NHKの『ピタゴラスイッチ』でやってる「アルゴリズム体操」ではないが、コンピューターを内部的に動かす手順のことだ。 コンピューターで、ある問題を解きたいときにプログラムをどう書くか? 言葉で何かを表現するときにさまざまな言い方があるように、アルゴリズムもさまざまだ。アルゴリズムでは、とくに正確で速いことに意味がある。同社は、2022年にも「行列演算」を高速化するアルゴリズムを50年ぶりに記録更新しているが、今回は、プログラマーなら誰でも知っている「ソート」(並べ換え)のアルゴリズムだそうだ。 記事には、「それまで最善とされていた手法よりも最大70%速くリスト内のアイテムをソートする手法を発

                                            ChatGPTでプログラミングのフラット化がはじまっている
                                          • フィヨルドブートキャンプを(11ヶ月前に)卒業したこと、楽しいことをすること - Eggshell

                                            「フィヨルドブートキャンプ Part 2 Advent Calendar 2021 - Adventar」4日目の記事です。 2021年1月にフィヨルドブートキャンプというプログラミングスクールを卒業しました。2021年1月から永和システムマネジメントという会社で働いており、スクールを卒業して就職してから11ヶ月経ちました。卒業エントリにしては時間が経っているのですが、時間が経ったから見えてくることもあるかなと思うのでこれまでのことと、これからのことをつらつらと書いていきます。 フィヨルドブートキャンプとは フィヨルドブートキャンプとは、 プログラマーとして就職を目指せるだけのスキルを身につけることを目標としたオンラインプログラミングスクールです。就職を目指せるスキルを弊社では「現場の人間にとって、戦力になるプログラマー」としています。 というプログラミングスクールです。主にRailsエン

                                              フィヨルドブートキャンプを(11ヶ月前に)卒業したこと、楽しいことをすること - Eggshell
                                            • できる mirakc

                                              最新版「できるmirakc」はこちら。 はじめまして、masnagam です。mirakc の開発をしています。 これまで mirakc は、ソフトウェア開発の経験がある人が使用することを前提としてドキュメントを作成してきました。しかし、本記事では、対象読者をソフトウェア開発者に限定せず、すでに EPGStation や TVTest を使った録画及び視聴環境を持っている人が、mirakc を利用できるようになるところまで順を追って説明します。最終目標は、既に稼働している録画・視聴環境中の Mirakurun を、mirakc に置き換えて動かすことです。 🧪 mirakc って何ですか?始めて名前を目にした人もいると思うので、簡単に説明しておきます。 mirakc は、Raspberry Pi のような シングルボードコンピュータ (SBC) をターゲットデバイスとして、Rust 言語

                                                できる mirakc
                                              • JSON入門 - とほほのWWW入門

                                                JavaScript Object Notation の略です。 RFC7158 と ECMA-404 1st edition では若干仕様の差異がありましたが、2017年12月に仕様の統一が行われ、RFC 8259, IETF STD 90, ECMA-404 2nd edition で再規定されました。 MIMEタイプは application/json。拡張子は .json。 JavaScript のデータ定義文をベースとした、簡易的なデータ定義言語です。 JavaScript だけではなく、Java, PHP, Ruby, Python など、様々な言語間のデータ交換、特に Ajax や REST API などで使用されています。 これまでは、共通データ定義言語として XML が利用されてきましたが、現在では、簡易的な JSON が利用されるケースが増えてきています。 子要素がひと

                                                • RubyKaigi 2023に参加しました & 登壇しました - shioimm || coe401_

                                                  皆さんRubyKaigi 2023お疲れ様でした! あっという間で本当にたのしい3日間でしたね。わたしは一週間が経ってもいまだにわくわくした気持ちで日々を過ごしています。 今年もありがたいことにDAY2に登壇の機会をいただいたので、この記事では今回作ったものや会期中のあれこれを振り返ってみたいと思います。 今回の発表テーマを選んだきっかけ 今回はImplementing "++" operator, stepping into parse.yというタイトルにて「"MRIにインクリメント演算子を追加する"という取り組みを題材に、MRIの字句解析器(スキャナ)と構文解析器(パーサ)に親しむ」というテーマでプロポーザルを提出しました。 (今年のRubyKaigiはパーサ関連の発表が豊作だったので、思いがけず空前のパーサブームに加わることができて幸運でした) 自分自身の個人的な技術的興味はネットワ

                                                    RubyKaigi 2023に参加しました & 登壇しました - shioimm || coe401_
                                                  • macOS Catalinaの不具合、アプリの動作不良、各種問題報告まとめ | ゴリミー

                                                    macOS Catalinaの不具合、アプリの動作不良、各種問題報告まとめ アップデートは慎重に!アプリが最新macOSとの互換性がなく、起動できない場合も macOS Catalinaにアップデートすると「Office 2011」などの32bitアプリが起動不能になることを伝えたが、64bit対応アプリでも起動できない場合やクラッシュしてしまう場合がある。 本記事ではmacOS Catalinaにアップデートすることによって現時点で分かってる起動できないアプリや各種クラッシュ、不具合などを分かる範囲でまとめたので、アップデートを検討している人は参考にどうぞ。 なお、本文中に書ききれていない内容もあるので、コメント欄に皆さんが投稿して頂いた不具合情報もあわせてチェックするべし! 【不具合情報、随時募集中】 「このアプリは起動しなかった」「これはクラッシュした」「これの動作がおかしい」などの

                                                      macOS Catalinaの不具合、アプリの動作不良、各種問題報告まとめ | ゴリミー
                                                    • 実務経験がないマークアップエンジニアが実践で注意しておくべきこと | ARUTEGA blog|アルテガブログ

                                                      web制作の実務経験でしか知ることができない注意点を記事にしました。 こちらは有料にて販売いたします。 実務経験がないマークアップエンジニアが事故るのは自己責任なので、私の知ったことではありません。 学習不足な本人が悪い。 でも、それでは依頼する側が可哀想。 二度と発注はしたくないでしょう。 この記事ではマークアップエンジニアが、事故る前に知っておかないとまずいことをまとめています。 自分も最初は知らなかったことなので、下記の方は参考にしてもらいたいです。 対象の人 コーディングはわかるけど実務経験がない コーディングの実務のフローを知りたい方 副業で事故りたくない方 Progateをやったけど、次に何をすればいいかわからない このような方を対象に書いています。 逆に、下記のような方は対象外なのでそっとブラウザを閉じてください。 対象外の人 フロントエンドエンジニアとして、すでに企業で活躍

                                                        実務経験がないマークアップエンジニアが実践で注意しておくべきこと | ARUTEGA blog|アルテガブログ
                                                      • 言語処理100本ノック2020年版が公開!どこが変わったの? - Qiita

                                                        はじめに 自然言語処理の基礎を楽しく学べる問題集として長らく親しまれてた言語処理100本ノック、その2020年版が4/6に公開されました!これは5年振りの改訂です。 2015年版をやったけど興味ある人、15年版のQiita記事が役立たなくなって残念に思ってる人、15年版を途中までやってたけど20年版が出て心が折れそう、という人のために、どこが変わったのかをまとめていきます。もちろん非公式なので変更箇所の見逃し等はあるかもしれません。 改訂の概要 4/7現在、公式の更新履歴によると、次の3点が大きく変わったようです。 深層ニューラルネットワークに関する問題を追加 第8, 9, 10章が全て新規に作成された問題になっている 英語版の公開(39番まで) 40番以降も順次公開予定とのこと(著者Twitter) 旧第6章(英語テキストの処理)が英語版に移動 該当する英語版は未公開。作成中のようだ(G

                                                          言語処理100本ノック2020年版が公開!どこが変わったの? - Qiita
                                                        • ケーススタディで見る!字形を正しく表示させるために大事な3つのポイント|モリサワ note編集部

                                                          「自分はちゃんと伝えたはずなのに、相手には正しく伝わっていなかった……」 そんなちょっとしたすれ違いからトラブルになる、なんてことは誰しも経験があると思います。 文字の世界でもそれは同じ。 手書きなら「書き間違い」や「字の形の癖」などで間違って伝わることがありますが、PCをはじめとした電子機器で文字を扱うことが多い昨今、 「同じ内容を見ているはずなのに、なぜか自分と相手で表示されている文字の形が違う……」 ということが起こりえます。 同じテキストを開いているはずなのに!これは怪奇現象?システムトラブル? いいえ。これは、PCで文字を扱う「仕組み」が関係しています。 PCで文字を扱う仕組みって何……?と追求していくと、アマゾンの奥地のごとく深い専門的なところまでたどり着いてしまうのがこの分野。 ひとまずこの記事で、具体的なトラブル例を見ながらざっくり理解し、つまずきやすいポイントを押さえまし

                                                            ケーススタディで見る!字形を正しく表示させるために大事な3つのポイント|モリサワ note編集部
                                                          • 自治体職員もわかってないマイナンバー、電子証明書を格納しなければ意味なし マイナンバーカードの普及を阻む4つのパスワード、本当に必要なのか | JBpress (ジェイビープレス)

                                                            (榎並 利博:行政システム株式会社 行政システム総研 顧問、蓼科情報株式会社 管理部 主任研究員) ある会合で社会保険労務士さんから聞いた話である。 たまたま自治体の窓口で、担当者が高齢者にマイナンバーカードを交付する場面に遭遇した。その時、職員が電子証明書は使いませんよねと言って、電子証明書を格納せずに渡していた。思わず、「これじゃ健康保険証として使えないじゃない」と心の中で叫んだという。 この話を知り合いにしたところ、自治体では高齢者に「(住民票などの)コンビニ交付でマイナンバーカードを使いますか」と尋ね、「使わない」と答えた人には電子証明書を格納せずにマイナンバーカードを交付しているケースがあるという。 マイナンバーカードを使ったサービスにおいては、一部チップの空き領域を使ったサービスも実施されているが、ほとんどのケースではチップに格納された電子証明書を使っている。つまり、電子証明書

                                                              自治体職員もわかってないマイナンバー、電子証明書を格納しなければ意味なし マイナンバーカードの普及を阻む4つのパスワード、本当に必要なのか | JBpress (ジェイビープレス)
                                                            • ドトールにあって、スタバにないもの…それは“アスキーアート”である「スタバもカップにモナーとか描いてくれんかな」

                                                              リンク ドトールコーヒーショップの紹介 ドトールコーヒーショップ ドトールコーヒーショップの公式ホームページです。 5 users 333 リンク Wikipedia アスキーアート アスキーアート(ASCII art)とは、プレーンテキストによる視覚的表現技法のことである。 「ASCII art」とは本来、英語コミュニティにおいて「ASCII文字コードに含まれる文字・記号を用いた表現」のことを指した。日本語の入力環境としてはASCIIコードよりもシフトJISやEUC-JPなどが主流だが、テキストアート一般を指す語として日本語でも「アスキーアート」と呼んでいる。一方、英語ではこれらは「シフトJISアート(Shift_JIS art)」と呼んで、ASCII artとは明確に区別する。 ア 31 users 76

                                                                ドトールにあって、スタバにないもの…それは“アスキーアート”である「スタバもカップにモナーとか描いてくれんかな」
                                                              • さくらの VPS を使用してオープンソースのアクセス解析ツール 「Umami」 をホストしてみる

                                                                Google Analytics の代替候補、シンプルな機能と画面が特徴のオープンソース、セルフホスティング型アクセス解析 「Umami」 を さくらの VPS (Ubuntu 20.04) を使用して立ち上げてみたというお話。 Web サイトのアクセス解析において、Google Analytics を利用しているというケースは多いと思います。私がお仕事で Web サイトの構築をお手伝いする場合でも、ほぼ 100% といっていい確率で、Google Analytics 導入してくださいっていう話になりますし、まぁ確かに無料であれだけの機能が使えれば便利ですから使わない理由はないですよね。 とはいえ、アクセス解析って導入は簡単なんですけど、実際に活用できるかっていうとまた別の話で、実際に導入した後でたま~に月のアクセス数だけ見て終わり、何も活用できてませんなんて人も多いんじゃないでしょうか。

                                                                  さくらの VPS を使用してオープンソースのアクセス解析ツール 「Umami」 をホストしてみる
                                                                • Python/C/C++向けライブラリ「StringZilla」が登場、SIMD命令を利用して文字列操作を高速化

                                                                  アルメニア出身で米サンフランシスコ在住の開発者であるAsh Vardanian氏は、Python/C/C++向けライブラリ「StringZilla」のバージョン1.1.3を8月31日(現地時間)に公開した。StringZillaはApache 2.0ライセンスと3条項BSDライセンスで公開しているオープンソース・ソフトウェア。ユーザーはどちらかのライセンスを選んで利用できる。 StringZillaは、大規模な文字列データを単語ごとに区切ったり、区切った単語をソートするなどの機能を提供している。StringZillaの最初のバージョンであるバージョン1.0.0が公開されたのは2023年7月13日。それに先立ってVardanian氏が公開したブログポストでは、StringZillaの基本的な考え方を解説している。 StringZillaは、長い文字列が対象であっても最初の4文字が合致していれ

                                                                    Python/C/C++向けライブラリ「StringZilla」が登場、SIMD命令を利用して文字列操作を高速化
                                                                  • 【多言語対応】Spring Boot+Java - 動的に言語を切り替る方法 - - RAKUS Developers Blog | ラクス エンジニアブログ

                                                                    はじめに 多言語対応とは さっそく環境準備から message.propertiesを作成する Configを設定する ResourceBundleMessageSourceを継承した独自クラスを作成する Controllerから作成したMultiMessageSourceを呼び出す 実行してみる まとめ はじめに はじめまして、バックエンドエンジニアのryrkssです。 今回、担当する開発業務にて、Javaのフレームワークの中でも有名なSpring FrameworkにあるSpring Bootを使用して、多言語対応しましたのでそのお話をさせていただきたく思います。 多言語対応で調べたときの記事で動的ではない言語対応方法(ユーザの言語設定に左右されない)の記事が多い印象でした。 たしかにサンプルとしてはいいかもしれないんですが、実際のアプリケーションでは動的に言語を切り替えたいはずです。

                                                                      【多言語対応】Spring Boot+Java - 動的に言語を切り替る方法 - - RAKUS Developers Blog | ラクス エンジニアブログ
                                                                    • ソフトウェアエンジニア版 親父の小言 pyspa編

                                                                      ドメインモデルは貧血にするな Keep it simple stupid バリューオブジェクトはイミュータブルにしろ 博打は決して打つな YAGNI 分散トランザクションとか寝言言ってるんじゃねぇ 使わなくなったコードはさっさと消せ コメントも含めてメンテしろ 推測するな、計測しろ そのアラートは必要ない ロールよりプラクティス コードが書けない奴がチームにいることを肯定するためにスクラムという言葉を使うな ソースと一緒にドキュメントもメンテしろ 欲しいのはエンジニア上がりのPM、エンジニア崩れのPMは要らん 分野ごとの最適なアルゴリズム選びはきちんとやれ プロパティをむやみに作るな 狭くて深いモジュールにしろ 英語を勉強しろ 早く寝ろ DB切り替えとかの予定もないのに、最初からインタフェース切ったりするな。本当にそれが有用なら、そういう機構を誰かがすでに用意したり事例があるはずだ。ないな

                                                                        ソフトウェアエンジニア版 親父の小言 pyspa編
                                                                      • Xcode11からja_JPロケールのNumberFormatter出力でnbspが入るようになった - 麦芽を支える技術

                                                                        事の発端 元々以下のように数値を通貨形式の文字列フォーマットに変換する処理のユニットテスト書いてあったんだけど、Xcode11にしてからテストが失敗するようになってしまった。 let target = 1000 XCTAssertEqual(target.yenFormattedString, "1,000円") // "1,000 円" is not equal "1,000円" ちなみに、ここでやっている .yenFormattedString は以下のようなIntのExtension。 extension Int { var yenFormattedString: String { let formatter = NumberFormatter() formatter.locale = Locale(identifier: "ja_JP") formatter.numberStyle

                                                                          Xcode11からja_JPロケールのNumberFormatter出力でnbspが入るようになった - 麦芽を支える技術
                                                                        • 2023年 わたしの Neovim

                                                                          はじめに こんにちは、あろーです。 Neovim をメインのエディタとして使いはじめてから、ちょうど 1 年くらい が経っていました。 ひとつの区切りとして、なんだかちょうど良い感じがしたので現在のわたしの環境についてまとめてみたいと思います。 こんな感じ 設定の方針 厳密に守っているわけではありませんが、以下の方針で設定しています。 設定は基本 Lua で書きます プラグインの実装に使われている言語は問いません(Vim script で実装されているから使わないなどはしない) 常に表示される情報は最小限に留め、できるだけシンプルな画面を維持します 起動速度にはあまりこだわりません。気にならない程度の速度であればよしとしています(沼すぎるので…) わたしの使い方 OS は macOS、または Linux を使います ターミナルは Wezterm です コーディングからドキュメント作成、Gi

                                                                            2023年 わたしの Neovim
                                                                          • Excel CSV形式ファイルにおける今どきUTF-8文字コード問題の傾向と対策

                                                                            環境依存文字を含むデータをCSV形式でやりとりするには 人名や地名の中には、環境依存文字(異字体など)が含まれていることがある。環境依存文字を含むExcelのシートをCSV形式でやりとりしなければならない場合、文字コードにUTF-8を指定するとよい。なお画面の住所録は、「テストデータ・ジェネレータ」によって作成した架空のサンプル用のデータを記事用に修正したものである。 「Microsoft Excel(エクセル)」で作成した表を、CSV形式で保存し、別のアプリケーションに読み込ませることはないだろうか。また、取引先にデータを送る際に、XLSX形式ではなく、CSV形式が要求されることもあるだろう。逆にCSV形式で受け取ったデータをExcelで読み込んで処理したいというケースもあり得る。 このような場合、環境依存文字(機種依存文字)が含まれていると、CSV形式に変換する際に、正しく文字が出力さ

                                                                              Excel CSV形式ファイルにおける今どきUTF-8文字コード問題の傾向と対策
                                                                            • ChatGPTを使って、文字コードの理解と記述の負担を軽減できるのか 「日本語と認識しているUnicodeの範囲」「括弧の検出」「新字体への変換」を調査してみた

                                                                              「『生成AIを使ってこんなもの作ってみました』開発者LT大会」は、急速に発展しているChatGPTや生成AIといったAI技術を使って何かを作ってみた人たちがアイデアや成果を共有する、ログミーTech主催のイベントです。ここでPR TIMES社の土屋氏が登壇。「ChatGPTを使って文字コードを扱う負担を軽減できるか」という調査の内容と結果について紹介します。 Shun氏の自己紹介と、本セッションのアジェンダ Shun氏(以下、Shun):それでは、PR TIMES社の土屋が発表します。私の名前はShunといいます。PR TIMESに勤めていて、ソフトウェアエンジニアをやっています。 本日のアジェンダです。私の発表はどちらかというと、個人開発でChatGPTを使ったものを作って、それで実験をしてみたという内容になっております。 表題にもあるとおり、ChatGPTに文字コードのことを聞いてどん

                                                                                ChatGPTを使って、文字コードの理解と記述の負担を軽減できるのか 「日本語と認識しているUnicodeの範囲」「括弧の検出」「新字体への変換」を調査してみた
                                                                              • 図解!PythonでSeleniumを使ったスクレイピングを徹底解説!(インストール・使い方・Chrome) - ビジPy

                                                                                Seleniumとは Seleniumとは、ブラウザを自動的に操作するライブラリです。主にWEBアプリケーションのテストやWEBスクレイピングに利用されます。 主にWEBスクレイピングでは、JavaScriptが使われているサイトからのデータの取得や、サイトへのログインなどに使われています。 ここではまずスクレイピングの流れを確認し、その中でSeleniumがどのように使われるかを説明します。 スクレイピングの流れ スクレイピングは、大まかに3つのステップに分けることができます。 1つ目はWEBサイトのHTMLなどのデータ取得です。ただし、HTMLには必要な文章のデータだけでなく、タグなどのデータも混じっているので、必要なものだけを抽出する作業が必要になります。 そこで2つ目のデータの抽出が欠かせません。ここでは、複雑な構造のHTMLデータを解析し、必要な情報だけを抽出します。データの抽出

                                                                                  図解!PythonでSeleniumを使ったスクレイピングを徹底解説!(インストール・使い方・Chrome) - ビジPy
                                                                                • MacBookAir2020を買ったのでHomeBrewで色々入れる - ねこの足跡R

                                                                                  MacBookAir2020買いましたヽ(=´▽`=)ノ そしてMacBookAir 2020年版も到着! 商売道具は3年毎に変えないとね(・∀・) 裏側のAppleロゴが光らないのはやっぱり寂しいけど、今のところ満足度は高い。今週は設定祭りだなー。 pic.twitter.com/72e9Tm5TN5— 勝部麻季人 💦👏 (@katsube) 2020年4月20日 1年以上前から買い換えようと何度も店頭に足を運んだのですが、バタフライキーボードが全然しっくり来ない、価格的にもそれならPro買うわといった感じでコスパも今ひとつ。そんなときに突然発表された2020年版がそれらの悩みをすべて解消した神モデルということで迷わず購入。新型コロナが蔓延する情勢不安な中でしたが商売道具をケチってはいけませんw 一体どうしたんだAppleらしくないぞw 顧客の要望を足蹴にし阿鼻叫喚に叩き落とす経営方

                                                                                    MacBookAir2020を買ったのでHomeBrewで色々入れる - ねこの足跡R