タグ

encodingに関するa2ikmのブックマーク (110)

  • Perl の文字コード取り扱い周りのメモ - tashenの日記

    (2010/11/19 追記)後半が切れてしまっていたのを修正 perl の 5.8 以降では内部用のテキスト文字列とバイト文字列が区分けされている。テキスト文字列は文字集合 Unicode で形成されている。バイト文字列は内部用のテキスト文字列以外の文字列を示す。 テキスト文字列は Perl が内部で文字を扱うためのエンコーディングとして作用する。他のエンコーディングに変換するための中間形式としてとらえても良い。 Perl では、ソースコード上の文字列は全てこのテキスト文字列として取り扱う。 (自分の理解では)従って、テキスト文字列でない文字列は、Perlから見れば連続したバイトの並びにしか見えない。length を使ってもバイト数が返るだけで、文字数は計れない。バイト文字列を来の意味での文字列として扱いたい場合、テキスト文字列にデコードしなければならない。これは Encode モジュ

    Perl の文字コード取り扱い周りのメモ - tashenの日記
  • vimエディタで「文字コード、改行コードを変更して保存する。」

    vimエディタで、ファイルの文字コード、改行コードを修正、もしくは変更する時の話。 ファイルの文字コードや、改行コードを変更する時は、 変更したいファイルを開いた状態で、 ・文字コードの変更 :set fileencoding=文字コード :set fenc=文字コード (上のコマンドの短い形式。こちらでも良い。) :set fileencoding=euc-jp (エンコーディングEUC-JPに変更。) :set fileencoding=shift_jis (エンコーディングSHIFT_JISに変更。) :set fileencoding=utf-8 (エンコーディングUTF-8に変更。) ・ファイルフォーマットの種類の変更 :set fileformat=ファイルフォーマットの種類 :set ff=ファイルフォーマットの種類 (上のコマンドの短い形式。こちらでも良い。) :set f

    vimエディタで「文字コード、改行コードを変更して保存する。」
    a2ikm
    a2ikm 2010/11/18
    いつも忘れる
  • 文字コードは何を使うべきか – 日曜研究室

    そりゃあ、UTF-8一択だろ。と少なくとも5年くらい前から思ってます。 使う場所としてはWebアプリ等のプログラムソース、永続化データ、クライアントに送出するファイル(html, css, js等)を想定して書きます。 日語を表現する場合、一般的にはShift_JIS、EUC-JP、UTF-8の3つの選択肢が考えられます。 どれもメリットもあればデメリットもありますが、偉大な先人たちが作ったライブラリでエンコード・デコードをやってる身(文字コード実装の詳細に踏み込まない立場)としてはそれぞれこんな感じかなと思います。 Shift_JIS ・メリット 消費バイト数が比較的少ない。 国内に限れば、だいたいどのガラケーでも読める。 ・デメリット 亜種が多いので使いようによっては微妙に文字化けする。 エンコードデータに制御文字を含む場合が多いので、それを想定してない環境(外国人が作ったプログラム

  • Ruby On Rails ピチカート街道 - rubyでURLエンコード -

    2024.02 « - - - - - 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 - - - - - - » 2024.04 基的なところを押さえておきたい、という訳で、ruby で URL Encodeをする方法を押さえておきたいと思い立ちました。 ちなみに HTML Encode の方法はこちらから。 でも、調べてみるとどうもいろいろなややこしいことが発覚して、ブルーなハワイ気分になりました。 結論からいうと、 require 'cgi' CGI.escape('URLエンコードしたい文字') なのです。 文字コードにより URL エンコード結果も変わってきますから、その場合は、 require 'cgi' CGI.escape('URLエンコードしたい文字'

  • Unicode対応 文字コード表

    �$B!!�(BUnicode�$BBP1~$N�(B JIS X 0201 �$B$N�(BJIS�$B%m!<%^;z$H�(BJIS�$B%+%J$NJ8;z%3!<%II=$G$9!#�(B �$B!!�(B�$BJ8;z%3!<%I$K$D$$$F�(B�$B$N%Z!<%8$d!"�(B�$BJ8;z%3!<%I0lMw$K$D$$$F�(B�$B$N@bL@$b$"$j$^$9!#�(B JIS�$B%m!<%^;z!'�(BASCII�$B!&J8;z%3!<%II=�(B JIS SJIS EUC UTF-8 UTF-16 �$B;z�(B 20 20 20 20 0020 21 21 21 21 0021 ! 22 22 22 22 0022 " 23 23 23 23 0023 # 24 24 24 24 0024 $ 25 25 25 25 0025 % 26 26

  • ウノウラボ Unoh Labs: 文字コードと携帯絵文字

    ウノウでは特に最近、積極的にエンジニアを採用しています。 ご興味のある方はFind Job !から、ぜひご応募ください!! 今年は早くも花粉が舞っているようですね。花粉症にはなりたくないなぁと毎年おびえるyukiです。 さて今回は、社内の勉強回で発表した「文字コードと携帯絵文字」のスライドを公開したいと思います。文字コードとは何か、とか、文字集合とは何か、というところから、各キャリアの対応状況や、最近Googleの提唱している「emoji4unicode」について、基礎の部分をさらっと触れている感じです。もしよろしければご覧下さい。 文字コードと携帯絵文字

  • [R3]miniturbo.org - 携帯電話での文字コード対応表 まとめ#extended

    このリストを見る限り、最近の機種は殆どが対応しているようです。SO506iCがEUC-JPに対応しているのは意外でした。 各社の仕様書を見比べると、Shift JISは全社とも対応していて、DoCoMoのXHTML対応機種に限りUTF-8にも対応していることが記載されていました。また、SoftBankの携帯電話はメール及びウェブの文字コードを手動選択できるようです。各社の仕様書を以下にリンクいたしましたので、ご覧ください。 iモード対応HTMLの概要 iモード対応XHTMLの概要 EZWeb サーバ設定・文字コード指定 SoftBank Developers Support Site なお、検証への誘導をしていただいた真琴さんと、多くの機種を検証していただいたreaさん、サンプルを怪しみながらも協力してくれた僕の友人、それからわざわざコメントorトラックバックしていただいた皆々様方に深く感

    a2ikm
    a2ikm 2010/10/27
    古めの機種だけど、Shift_JISもUTF8-もEUC-JPも大丈夫
  • ファイルのエンコーディング、改行コードを変更して、ファイルを保存する。 — 名無しのvim使い

    概要 vimエディタでファイルのエンコーディング、改行コードを変更して保存する方法を説明します。 この機能は、他の一般エディタの「保存時に文字コード、改行コードを指定する機能」にあたります。 ファイルの文字コードを変更して保存する vimエディタでファイルの文字コードを変更するには、 「:set fenc={文字コード}」というコマンドを実行します。 " ファイルの文字コードを変更する :set fenc={文字コード} " 文字コードeuc-jpを指定。 :set fenc=euc-jp " 文字コードshift_jisを指定。 :set fenc=shift_jis " 文字コードutf-8を指定。 :set fenc=utf-8 文字コードを変更した直後はファイル保存前の状態なので、 文字コードを変更して保存するには、次のように2つのコマンドを実行することになります。 " ファイルの

  • vimエディタで「形式を指定してファイルを再読込する」

    vimエディタでテキストファイルを開いた時に、 ファイルのエンコーディングや改行を正しく解釈できないことがあります。 そのような場合は、ファイルの形式を指定して、ファイルを開き直すことになるでしょう。 他のエディタの場合ですと、大抵、メニューに「形式を指定して開き直す」項目が用意されていますね。 GUIvimはともかく、CUIvimにはメニューはありませんので、そのやり方を覚えておく必要があります。 vimエディタでは「++」を使用して「形式を指定して開き直す」ことができます。 以下、「++」の使用例です。 ファイルのエンコーディングを指定して開き直す。 :e ++enc=指定したいエンコーディング :e ++enc=euc-jp (エンコーディングEUC-JPを指定して開き直す。) :e ++enc=shift_jis (エンコーディングSHIFT_JISを指定して開き直す。) :e

    vimエディタで「形式を指定してファイルを再読込する」
  • 旧・Macの手書き説明書 - FC2 BLOG パスワード認証

    ブログ パスワード認証 閲覧するには管理人が設定した パスワードの入力が必要です。 管理人からのメッセージ https://mac-tegaki.comへ移転中 閲覧パスワード Copyright © since 1999 FC2 inc. All Rights Reserved.

  • moji 日本語の文字種判定、文字種変換(半角→全角、ひらがな→カタカナなど)を行います。

    Moji モジュール 日語の文字種判定、文字種変換(半角→全角、ひらがな→カタカナなど)を行います。 インストール: 以下のコマンドを実行してください。 $ sudo gem install moji 使い方: Ruby 1.8: $KCODE を指定してから require "moji" してください。 Moji モジュールの関数に渡す文字列の文字コードは $KCODE と一致させてください。 Ruby 1.9: どの文字コードの文字列を渡しても大丈夫ですが、 String#encoding が正しく設定されている 必要があります。正規表現を返す関数( Moji.kata など)は Encoding.default_internal (設定されてない場合はUTF-8)用の正規表現を返します。その他のエンコーディング用の正規表現は Moji.kata(Encoding::SJIS) など

  • Rails3 で ActiveRecord にて取得した UTF-8 の日本語を view に表示する - nedate’s blog

    ActiveRecord にて取得した UTF-8 の日語の情報を view で表示する方法です。 たとえば、Controller を下記のように記述します。 # coding: utf-8 class UserController < ApplicationController def index User.create({ :name => 'てすと', }) @user = User.find(:first) end end そして、view を下記のように記述します。 <h1>日語表示のテスト</h1> <%= @user.name %> すると、下記のようなエラーが出て日語を表示することが出来ません。 incompatible character encodings: UTF-8 and ASCII-8BIこれは、日語を ActiveRecord 上では ASCII-8B

    Rails3 で ActiveRecord にて取得した UTF-8 の日本語を view に表示する - nedate’s blog
  • iPadのブラウザで文字コードを選択「文字コード選択Webユーティリティ」 | クリエイティブ | マイコミジャーナル

    Unit Kayは、iPadでWebブラウザ上の文字コードを選択できるユーティリティアプリ「文字コード選択Webユーティリティ for iPad」をリリースした。iPhone/iPod touch版のアプリもリリース。価格は無料。 「文字コード選択Webユーティリティ for iPad」 同アプリは、Web閲覧時に文字化けで読むことのできないページがある時に、文字コードを変更して文字化けを解消することのできるユーティリティアプリ。対応コードは22種類。 Safari等のブラウザから起動することができ、Webページを全画面表示可能。また、ステータスバーやツールバーがないので、画面いっぱいにWebページを表示できるほか、縦画面、横画面にも対応。 なお、Webページによっては指定した文字コードを表示できない場合もあるとのこと。 価格は無料でダウンロードはAppStoreより。また、iPhone

  • Unicodeエスケープシーケンスと文字参照とエンコーディング - (゚∀゚)o彡 sasata299's blog

    2010年06月02日09:28 Ruby Unicodeエスケープシーケンスと文字参照とエンコーディング 日語って色んな場面で化けますよね。エンジニアたるものそれをきちんとした表示にしなければ気持ち悪くて夜も眠れませんよね。わかります!わかりますよ!>< ・・というわけで今回はときどき遭遇する "\\u30c6\\u30b9\\u30c8" みたいなデータ(何て書いたら検索する人が探しやすいだろうか。。\u から始まる文字化け?)をいい感じの表示(人間が読める形)に変換してみたいと思います。 色々と調べてみると、これは Unicodeエスケープシーケンス というそうです。 Unicode 文字列リテラル、正規表現、識別子において Unicode エスケープシーケンスを使用することができます。エスケープシーケンスは ASCII 文字 6 文字からなります。それは \u と 4 桁の 16

  • 第32回 Encode:日本語だけ扱えればよいのではなく | gihyo.jp

    一般的には推奨されないencodingプラグマ 前回取り上げたencodingプラグマは、簡単なjperl用のスクリプトを移植したい場合には便利ですが、perlunifaqというPerl付属のマニュアルにははっきり「Don't use it.」と書いてあるくらい、一般的には使えないプラグマと認識されています。 前回も見たように、encodingプラグマが対応しているのは、ソースコードに埋め込まれている文字列やそれに類する正規表現、そして標準入力からのデータを指定された文字コードからPerlの内部表現に変換し、標準出力へ出力する際には内部表現を指定された文字コードに変換することだけです。ほかのファイル入出力部分や、コマンドラインから受け取った引数、標準エラー出力などの変換は行わないので、ちょっと凝ったことをしようと思うと、結局「外から入ってきたものはデコード、外に出すものはエンコード」という

    第32回 Encode:日本語だけ扱えればよいのではなく | gihyo.jp
  • MacOSのJDK6環境はデフォルトでShift JIS - Hello, world! - s21g

    嫌がらせとしか思えないのですが、MacOSのJDK6は、デフォルトのエンコーディングがSJISになっています。JDK5ではUTF8だったのに、なぜ... とりあえず、デフォルトでUTF8にしたい場合は、~/.zshrc あたりで

  • TokyoRubyKaigi03 - Naruse, Naruse Yui tokyorubykaigi on USTREAM. Conference

    Not rated yet. You must be logged in to rate this video.

  • 開発中の PHP 6、UTF-16 化に失敗。開発ブランチも 5.3 系に巻き戻し | スラド

    PHP の次期メジャーバージョンと見られている PHP6 では、内部的には文字列をすべて UTF-16 で処理するという方針が決定していたのだが、これが頓挫した模様 (マイコミジャーナルの記事) 。 PHP 開発者である Johannes Schlüter 氏による 2010/3/12 付けのブログ記事、"Future of PHP 6" によれば、数カ月前から PHP のコア開発者の多くから「PHP エンジン内部を Unicode 化するというアプローチは正しくないのでは、最初からやり直したほうがよいのでは」という議論が行われていたらしい。 「処理系内部ではすべての文字を Unicode で処理する」というアプローチは JavaRubyPythonPerl などですでに採用されているのだが、PHP の開発者らの結論は「プログラムにおいてすべての入出力時に変換処理を行うのはパフォ

  • UTF-8単位で1文字とか - yasuhisa's blog

    Rubyならeach_charでいいんでしょうが、C++でそれと同じようなことをしようと思ったらよく分からなかったので。WEB+DB PRESS Vol.53のp108付近(検索エンジンのところ)のことをやりたかった。 キモは (byte & 0xC0) == 0x80 の部分で まずUTF-8の符号方式では、2バイトめ以降は先頭2ビットが10で始まるという事実を利用し、まず各バイトがUTF-8の先頭かどうかを判定し((buf[i] & 0xC0) == 0x80)、その場合はそれらがタームであるとしparsedに追加をしていきます。 と説明がされている。 ゆとりなおいらにはビット演算が色々分かってないので、その辺から勉強しないといけない。0xC0というのは11000000を16進数で書いたもの。"&"と"&&"は全然違って、"&"はビット積となる。例えば、11100011と1100000

    UTF-8単位で1文字とか - yasuhisa's blog
  • 2010-03-04

    2010-03-04 Rubyとマルチバイト文字列 Ruby Ruby1.9に乗り変えようとしたら、案の定マルチバイト文字列の付近ではまっているのでメモ。初めてのRubyとか見つつ。 Ruby1.8 文字列は単なるバイト列 $KCODE対応しているメソッドは$KCODEの値によって振舞いを変えることがある String#inspectとか 正規表現… 2010-03-04 scanのブロックの引数 Ruby Ruby1.8からRuby1.9に変えてからGitHub - iwadon/text-hatena: A Ruby library for Hatena notationが動かなくなったので原因を調べてた。Ruby1.9だと下のようなコードはsyntax errorで死ぬんだけど、1.8だと通る。 l.scan(/([^\|]+)\|/) do |$_, *| if sub!…

    2010-03-04