見事なまでの「あ、男性でしたか。失礼しました」現象。そもそも自分が男であるか女であるかがその主張に対して重要であるのかつー話。 女性差別はやっぱり本当にあるんだなぁ。 https://t.co/G5flEPxAo9
見事なまでの「あ、男性でしたか。失礼しました」現象。そもそも自分が男であるか女であるかがその主張に対して重要であるのかつー話。 女性差別はやっぱり本当にあるんだなぁ。 https://t.co/G5flEPxAo9
Unicode制御文字のうち、LRO(Left-to-right override, U+202D)とRLO(Right-to-left override, U+202E)は行中でも文字列の方向を変更する。 1行の中に何度もLROとRLOが入ると、カーソルキーが踊って楽しいことになる。 例えば、下のテキストの中でカーソルを動かしたり、文字列を選択しようとしても上手くできないはず。 いをろるはぬにりほちへと わむからよなたねれつそ うてゐえのこおふくけやま あすさせきもゆひめゑみし ※ Edgeは表示が崩れるので、Ctrl + A→Ctrl + Cでメモ帳にコピペで確認可能。 表示上は普通のいろは順にひらがなが並んでいるように見えるが、 実際のデータはまったく違う順序になっている。 ↓通常の
使い心地 Twitterで Lineで ここで使えます https://rawcdn.githack.com/harukaeru/unicode_htmllike/216a8d4706528ce4df847ea1562be542a19b106d/index.html 使い方 HTMLのタグのように書きます。Unicodeにある文字にただ変換してるだけなので、魔法的なこと(タグを組み合わせてすごい文字を作るとか)はできません。 使えるタグや文字はデフォルトで表示してあるタグや文字のみです。他のが欲しい場合はGithubでIssueをたてるとそのうち実装するかもしれません。 豆腐で表示されている文字は、あなたが使っているブラウザやOSでサポートしていません。豆腐が含まれている文字種は使うのを控えることを推奨します。 Display letters one by one のチェックを外すと、一般
yasaka@のんびり @gemisch_yasaka 工学部のおじいちゃん先生が参加した食事会の時。 「昔の映画とか、機械から出てきた紙テープだけ見て大喜びしたりするじゃないですか、あれマジですか?」って質問に 「うん。僕、今でも読めるよ」って返事が来た瞬間、周囲から彼に向ける視線が、伝説の大魔導士を目の当たりにするそれになってた 2019-02-03 15:29:15 yasaka@のんびり @gemisch_yasaka 後日、面白がって質問者の研究室に本物のパンチカード持ってきてくれたのだけど… 機械と人間がこうしてほぼタメ語で話してた時代からすごい速度でここまで来たんだなぁって…(スマホ眺めつつ) 2019-02-03 15:36:22 yasaka@のんびり @gemisch_yasaka どういうわけか一気に通知が来た上、取得ミスも多く各々リプ返すのが不可能なため不義理ながら
Grapheme 関数 目次grapheme_extract — デフォルトの書記素クラスタシーケンスをテキストバッファから取り出す関数。 テキストは UTF-8 でエンコードされている必要がありますgrapheme_stripos — 大文字小文字を区別せず、文字列内で最初にあらわれる場所の (書記素単位の) 位置を見つけるgrapheme_stristr — 大文字小文字を区別せず、haystack 文字列の中で needle が最初に登場した場所以降の部分文字列を返すgrapheme_strlen — 書記素単位で文字列の長さを取得するgrapheme_strpos — 文字列内で最初にあらわれる場所の (書記素単位の) 位置を見つけるgrapheme_strripos — 大文字小文字を区別せず、文字列内で最後にあらわれる場所の (書記素単位の) 位置を見つけるgrapheme_s
【環境】 $ cat /etc/redhat-release CentOS Linux release 7.3.1611 (Core) $ mail -V 12.5 7/5/10 やりたかったのは、diff の結果で差分があった時だけメールを送る事。 実査にmailコマンドでdiffの結果をメールしたら、受信側で添付ファイルになってしまった。 テキストメールのつもりが、メールヘッダを見ると、次のようになっていた。 Content-Type: application/octet-stream diffの結果は何もないはずなのに、見えない何かがある? となると、怪しいのは制御コードが思い付く。 調べてみると、diff対象のテキストファイルの行末にCRが入っている事がある模様で、diffの結果に改行コード(CR:^M)が含まれてしまうようだった。 diff対象のファイルを出力する側は修正できない
2008-01-14 カテゴリ: Client Side タグ: Tips JavaScript トラックバック [追記]404 Blog Not Found:javascript - \uXXXXを使わない理由を受けて追記 dankogaiさんはあまりJavaScriptのリテラルに詳しくないのかな? 404 Blog Not Found:regexp - 全角英数字を半角に var fascii2ascii = (function(){ var cclass = '['+String.fromCharCode(0xff01)+'-'+String.fromCharCode(0xff5e)+']'; var re_fullwidth = new RegExp(cclass, 'g'); return function(s){ return s.replace(re_fullwidth,
概要 入力欄に入力された全角英数字をJavaScriptにて半角にする処理 英数字を半角にする場合 全角英数の文字コードから65248個前が半角英数の文字コードとなっている為、 文字コードから65248引いて変換します。 //10進数の場合 str.replace(/[A-Za-z0-9]/g, function(s) { return String.fromCharCode(s.charCodeAt(0) - 65248); }); //16進数の場合 str.replace(/[A-Za-z0-9]/g, function(s) { return String.fromCharCode(s.charCodeAt(0) - 0xFEE0); });
UTF-16 (UCS/Unicode Transformation Format 16[注釈 1]) とは、UnicodeおよびISO/IEC 10646の、符号化フォームおよび符号化スキーム(文字符号化方式を参照)のひとつである。 UTF-16では、1文字が、16ビットの符号単位が1つまたは2つで符号化される。これが「-16」の名の由来である。基本多言語面(BMP)内の文字は、符号単位1つの16ビットで表される。BMP以外の文字は、符号単位2つの32ビットで表される。なお、UTF-16は2バイトコードだと誤解されることがあるが、このように4バイトのこともあるため間違いである。 Unicodeにおいては、厳密には、文字符号化フォーム(英: Character Encoding Form)の1つの名称であり、かつ、UTF-16符号化形式のための文字符号化スキーム(英: Character
Pythonのソースコードがどうエンコードされるべきか定義するおまじないめいた文である。 ちなみにこの例だとうまくいかない。Cが大文字だからだ。ハマった。 なんなんだ。一体coding: ナントカってなんなんだ。 ちょっと調べてみよう。 PEP 263を読みましょう 調べようと言ってみたが全てはPEP 263に書かれている。さすがPython。 というわけでかいつまんでみる。 そもそもなんで必要なのか ざっくり書くと、 Python 2.1までユニコード文字を表記するにはエスケープシーケンスを使うしかなかった。8-bit文字なら好きなエンコーディングでいいけど限界あるよね。 …ということらしい。実際不便だ。Pythonでの文字コードの話はこの辺が参考になるかもしれない。UTF-8便利。 仕組み デフォルトはASCII エンコーディングについて何も指定がない場合はASCIIとして解釈される。
Shift_JIS(SJIS, cp932) の文字コードで、2byte目が0x5c の \ になっているものの俗称(だめ文字、駄目文字) 0x5cの \ は使用するフォントやロケールによりバックスラッシュまたは¥記号で表示されます。 ダメ文字を含む文字列やパス、ファイル名を処理する場合には文字化け、検索不可など様々な不具合が起きることがあります。 ダメ文字には ー ソ 十 表 など、使用頻度の高いものもあるので cp932を扱う場合には注意が必要です。 また広義には2byte目が 0x7c のパイプ文字 | になっている文字や、2byte目が正規表現などのメタ文字と重なる文字も含む場合もあります。 ダメ文字問題は正規表現をはじめとする様々な言語、システムで制御用のメタ文字として扱われる文字と同じバイト列が、SJISの漢字の2byte目に含まれていることにより起こります。 特に 0x5c
本当はエスケープシーケンスのことを調べていたのだが、その前にASCIIコードについて調べることになってしまった...。文字コードの基本として知っているつもりだったASCIIコードについて、あらためて見直してみると、実は本当の意味をよく分かっていなかったことに気づいた。 ASCIIコード表 ASCIIコードは、7ビット(2進数7桁)の文字コードであり、全部で128のコードが定義されている。 最も基本的な文字コードであり、その他多くの文字コードはこのASCIIコードと互換性を維持している。 00 10 20 30 40 50 60 70 00 NUL DLE SP 0 @ P ` p 01 SOH DC1 ! 1 A Q a q 02 STX DC2 " 2 B R b r 03 ETX DC3 # 3 C S c s 04 EOT DC4 $ 4 D T d t 05 ENQ NAK % 5
最近知ったのだけど、Unicodeには1~12月まで、1日~31日までを一文字で表現する文字が存在している。電報記号というらしい。 知らなかった。電報使ったこと無いし、実際にこういった文字が使われているのかもわからないけど。 以下のコマンドで一覧を出力してみる。 zsh -c "echo {$'\U32C0'..$'\U32CB'}" zsh -c "echo {$'\U33E0'..$'\U33FE'}" blacknon@BS-PUB-UBUNTU-01:~$ zsh -c "echo {$'\U32C0'..$'\U32CB'}" ㋀ ㋁ ㋂ ㋃ ㋄ ㋅ ㋆ ㋇ ㋈ ㋉ ㋊ ㋋ blacknon@BS-PUB-UBUNTU-01:~$ zsh -c "echo {$'\U33E0'..$'\U33FE'}" ㏠ ㏡ ㏢ ㏣ ㏤ ㏥ ㏦ ㏧ ㏨ ㏩ ㏪ ㏫ ㏬ ㏭ ㏮ ㏯ ㏰ ㏱ ㏲
この項目には、一部のコンピュータや閲覧ソフトで表示できない文字(合成用文字・SMP・JIS X 0213で追加された文字・ARIB外字・Unicodeの絵文字)が含まれています(詳細)。 囲み文字(かこみもじ)は、1つまたは複数の文字を、○、あるいは□△◇▽◎などの図形記号で囲った記号である。通常、白抜き記号の中の余白に文字を書くが、●■などの黒い記号に白抜きで文字を書くこともある。 多くの場合は特定の単語の1文字を使用し、該当の単語を表す。 概要[編集] 屋号に使用される囲み文字の例。暖簾に東に丸をつけたヒガシマル醤油の商標。[1] 囲み文字は日本語では古くより用いられ、古くは屋号などとしても用いられた。囲み文字として屋号に用いられた記号は、丸・四角・菱形が多い。また、その屋号を元に商号が決められ、そのまま企業名となっている会社も多い。 現在でも、テレビの番組表や電話帳などでは、領域が狭
出雲大社までヒッチハイク旅したら自己発見できた[出雲大社ヒッチハイク体験記/前編] ふとした思いつきから内省と思索の旅へ。神奈川から出雲大社までのヒッチハイクで、予期せぬ自己発見を経験した4泊5日の記録。 はじめに - 旅の動機 - 10年友達関係が続いて、昨年頭から1年間付き合った恋人と年末に別れた。 失恋の詳細はどうでもいいので省く。付き合…
使用しているWinMergeのバージョンによってはUTF-8のファイルを比較する場合は基本的にS-JISで表示するため、日本語の箇所が文字化けして表示される場合があります。 そういう場合はデフォルトの文字コードを変更する事で解消する事が出来ます。 環境 WinMerge Version 2.14.0.37+-jp-37 文字コードの設定手順 今回はデフォルトコードページをUTF-8に変更する手順をご紹介します。 メニューから「編集」⇒「設定」を選択します。 オプション画面で「コードページ」を選択し、デフォルトコードページで「カスタムコードページ」を選択し、「65001 – Unicode(UTF-8)」を選択して「OK」ボタンを選択します。 補足 上記で指定した「65001」というのは文字コード番号を表します。 一般的に使用されるコードは以下の通りです。 文字コード番号文字コード
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く