タグ

unicodeに関するsatzzのブックマーク (3)

  • UCS(ISO10646)とUnicodeの現状

    《愚者の後知恵》今は解散した電子ライブラリーコンソーシアムの機関誌のために連載していた「電子化文書規格シリーズ」の第1 回。 独立した全文データベースであれ,ネットワークを経由してアクセスするデータベースであれ,電子化されたテキストの問題を考えるとき,テキストを電子化する際用いられる文字コードを避けて通ることはできない.中でも,我々が電子ライブラリーという言葉で漠然と考えている学術文書や各国各分野の古典的な文書のアーカイブを対象とすると,文字コードの問題は,さらなる広がりを見せてくる. 今号から文字コードを中心に,電子ライブラリーの関係者を対象として,電子化文書の規格に係わる様々なトピックについての解説を試みる.対象読者の限定は難しいけれど,電子化テキストについての全くの素人ではないが情報規格の専門家でもないというレベルを想定する.すなわち,日ごろからコンピューターを通して様々な形で電子

  • UCS と Unicode

    UCS ( Universal Multiple-Octet Coded Character Set ) は全ての言語の 文字を一つの ( 統一された ) コードに割り当てるものです。 コードテーブルは 0 〜 0x7FFFFFFF と、約21億文字分 有ります。 1文字あたり4バイト使用するため UCS-4 とも呼ばれます。 Unicode は UCS の 0 〜 0x10FFFF ( 約 111 万文字 ) の部分をいいます。 使います、と書きましたが実際は UCS と Unicode は策定しているグループが異なります。 UCS を策定しているグループが下位部分を採用したことから互換性が発生し、 サブセット(部分集合)レベルでは同一とみなせるのが現状です。 UCS-4 の範囲では UCS-4 ( UTF-32 とも呼ばれます ) と UTF-8 の2種類のコーディ

  • 言葉は何を乗せているのか : 404 Blog Not Found

    2008年11月11日21:30 カテゴリValue 2.0Logos 言葉は何を乗せているのか 正直、「日語が亡びるとき」の読了感はこれとそれほどかけ離れていない。 2008-11-11 - 【海難記】 Wrecked on the Sea ようするにこのは柄谷=岩井的な言語=貨幣観と『批評空間』的な文学史観にもとづいた、柄谷行人『近代文学の終り』のたんなる文学少女バージョンなのである。 正直、彼女が愛してやまない漱石は、私は好んで読んだためしがない。同書を通じて「ああ、こういう読み方もあるのか」と感心はしたが、だからといって漱石を「読まなきゃ」という義務感は感じても「もっと読みたい」という欲求は全くおきなかった。鴎外に至っては、いくらいい文章を書いたところでその罪の大きさを拭えるものではないとすら感じている。 と同時に、たとえば吾輩ハデアルを複製するのに充分なソフトウェア・インフ

    言葉は何を乗せているのか : 404 Blog Not Found
  • 1