GMO プライベート DMP で ビッグデータ解析をするために アプリクラウドで Apache Spark の検証をしてみたTetsuo Yamabe
GMO プライベート DMP で ビッグデータ解析をするために アプリクラウドで Apache Spark の検証をしてみたTetsuo Yamabe
先日リリースされたPyCharm4には、データ分析者にも嬉しい機能が追加されています。 NumPy Array Viewer IPython notebook Support NumPy Array Viewer NumPyのArrayの状態を可視化してくれるツールです。 import numpy as np test_array = np.arange(25).reshape(5, 5) Debug Consoleから「View as Array」を選択すると、Viewerを表示できます。 簡単に中身を確認するには便利そうです。 大きな行列を表示させるとこんな感じ。。 IPython notebook Support IPython notebookはWebブラウザでPythonが実行できる素敵な環境ですが、PyCharm4がnotebookをサポートしました。 Demo.ipynb(n
ファイルシステムを作成すると、ファイルシステム自体の管理領域などのため、ファイルシステムを作成するデバイス・ボリュームの容量を100%使えるようにはならない。 では何パーセントが減ってしまうのか。10%あれば大丈夫なのか、3%程度でもよいのか、厳密には決まらないのか、そんな疑問・不安を取り除くために検証および論理的な裏取りを行った。 検証環境は CentOS 6.4 (x86_64) で、ファイルシステムは ext4 である。なお、ブロックサイズは 4KB を前提にする。CentOS 7 (RHEL 7) でも考え方は同じだが、計算の元になる基礎値に差があるため注意が必要(「その他」にて触れる)。 検証結果 128M, 256M, 512M, 1024M, 1.5G, 2G, ・・・ と20GまでのLVを作成し、実際にファイルシステムを作成。マウントした際の df -k の Availab
お金の話です。 AWSの。 一般的なアプリのサービスの場合、 サーバサイドのメインコストは下記の3つです。 RDS固定費 EC2固定費 S3固定費 転送料金 使っていれば大物コストになりうるのはRedshiftやDynamo、CloudSearchあたりだと思いますが、 まぁ一旦ここは置いておきましょう。 特にRoomClipのような画像中心のサイトの場合は、 転送料金がバケモノ化していくので要注意でございます。 よくAWSの料金体系は複雑と言われます。 確かにそうなのですが、 複雑化している最大の要因は転送料金にあるんじゃないでしょうか。 もっと突っ込んで言えば、「S3の転送量が把握できない」ということが大きいのではないでしょうか? 今日はその辺について、僕が荒く把握するときの計算方法を記載してみます。 転送料金以外について、まず整理してみます。 これは実はとてもシンプルで、 RDSもE
#hbstudy11でid:marqsさんがMaatkitに関する発表をしていて,僕も仕事でちょこちょこ使っていたので ダイアリーあたりに書きますね と云ったきり,書く書く詐欺になっていたので,さすがに書こうと思います. 割とみなさん知っているツールだと思うのですが,ウェブ上で日本語の情報がなかなか見つからないので,何かのお役に立てればと思います.というか英語読めってことなのかもしれませんが. Mattkit 公式 MySQL Tools and Management Software to Perform System Tasks by Percona Maatkitは「実践ハイパフォーマンスMySQL」の著者であるBaron Scheartzによって作り始められた,MySQLやPostgreSQLのようなオープンソースのデータベースのための高品質なコマンドラインツールです. 実践ハイパ
Pentaho Community Edition can now be downloaded from https://www.hitachivantara.com/en-us/products/pentaho-platform/data-integration-analytics/pentaho-community-edition.html Join the Community at https://community.hitachivantara.com/communities/community-pentaho-home?CommunityKey=e0eaa1d8-5ecc-4721-a6a7-75d4e890ee0 Pentaho couples data integration with business analytics in a modern platform to ea
shimookaです。 皆さんはPHPでデータの暗号化・復号をする必要に迫られた場合、どのようにしているでしょうか?今回は、PHPで利用可能なモジュールやパッケージとそれらのサンプルを3つほど挙げてみました。 mcrypt拡張モジュールを使った暗号化 libmcryptを利用したPHP拡張モジュールです。DES、3DES、Blowfish、RIJNDAEL(ラインダール:AES暗号とも呼ばれる)、Blowfishなどのブロック暗号をサポートしています。利用可能な暗号モードはCBC、OFB、CFB、ECBです。 PHPで利用するには、libmcryptをインストールし、configureオプションに「--with-mcrypt」を付ける必要があります。また、PHP5以降、libmcrypt 2.5.6以降が必要です。 以下は、SSHやファイル暗号化ソフトウェアなどに広く利用されているBlow
⋮ ⋮ 56 448 Source port (16 bits) Identifies the sending port.[10] Destination port (16 bits) Identifies the receiving port.[10] Sequence number (32 bits) Has a dual role: If the SYN flag is set (1), then this is the initial sequence number. The sequence number of the actual first data byte and the acknowledged number in the corresponding ACK are then this sequence number plus 1. If the SYN flag is
受信したパケットに対して即座に ACK を返すのではなく,新しいパケットが届くか,一定時間待ってそれでもパケットが届かなかった(遅延ACKタイマが expire した)場合だけ ACK を返す. 遅延ACKの有効化=ACK数の減少なので,遅延ACKを有効にするとウィンドウサイズの増加が遅くなる.そこで Linux ではスロースタートフェーズでは遅延ACKを無効化する QuickACK を導入している. デフォルトで有効なわけじゃなくて,setsockopt(TCP_QUICKACK) しないと activate されない? Linux の実装. データ構造 include/linux/tcp.h: struct tcp_opt { : /* Delayed ACK control data */ struct { __u8 pending; /* ACK is pending */ __u
機械設計の基礎知識から、3D CADによるモデリングやCAE解析、3Dプリンタ活用といった実践スキルまでをカバーする、メカ設計技術者のスキル向上を支援する情報フォーラム
メディア関係者向けお問い合わせ先 メールでのお問い合わせ: pr-jp@google.com メディア関係者以外からのお問い合わせにはお答えいたしかねます。 その他すべてのお問い合わせにつきましては、ヘルプセンターをご覧ください。
BitComet のDHTネットワーク What is DHT Network? DHT ネットワークとは何ですか? DHT(Distributed Hash Table) is method of a distributed storage for <key,value> pairs. There is no center server in DHT Network, every client take charge of a small range of routing, a small set of data storage, so that in the whole DHT network, data can be found, read and write. The new version of BitComet can connect to Tracker and DHT ne
An official website of the United States government Here's how you know The .gov means it's official. Federal government websites often end in .gov or .mil. Before sharing sensitive information, make sure you're on a federal government site. The site is secure. The https:// ensures that you are connecting to the official website and that any information you provide is encrypted and transmitted sec
What is Memcached? Free & open source, high-performance, distributed memory object caching system, generic in nature, but intended for use in speeding up dynamic web applications by alleviating database load. Memcached is an in-memory key-value store for small chunks of arbitrary data (strings, objects) from results of database calls, API calls, or page rendering. Memcached is simple yet powerful.
日本語が化けて大変苦労したのでメモ。結論として、XML(またはHTML)を解析する前にunicode関数に通しておく、ということで良いのかな?相変わらず文字コード関連はよく分からない。 from urllib import urlopen from lxml import etree html = urlopen("http://b.hatena.ne.jp") charset = html.headers.getparam('charset') html_data = unicode(html.read(),charset) et = etree.fromstring(html_data, parser=etree.HTMLParser()) title_element = et.xpath("./head/title")[0] title = title_element.text.e
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く