[B! Tips][linux] sawarabi0130のブックマーク

大きなテキストファイルをawkで処理するときにcatで投げ込むと速い理由 - ablog

以下、長々と書いてますが、結論は ”私の環境で”大きなテキストファイルをawkで処理するときにcatで投げ込むと速い理由 - ablogに書いてますはじめに awk file より cat file|awk のほうが速いという以下のブログエントリが興味深いので調べてみました。ちなみに cat file|awk が速くなる環境は稀で、巷では awk file のほうが速い環境のほうが多いようで、どちらが速いかは環境依存です。 [root@localhost sample]# cat command1 awk '$5 ~ /((26|27|28|29|30)\/Jun|(01|02|03)\/Jul)/{ print }' sample.txt > result1.txt （中略） [root@localhost sample]# time sh command1 real 0m53.92

sawarabi0130 2015/07/29

リンク

大きなテキストファイルをawkで処理するときにcatで投げ込むのと、ファイル読み込みするのどっちが速いか比較 - カメニッキ

追記が増えたので整理経緯 2.5GBのテキストファイルを加工する必要があり、①vimで開いて加工→vim死亡②sublime textで開いて加工→sublime text死亡となったため、awkを用いて以下の様なコマンドを実行した。 $ cat sample.txt | awk '$5 ~ /((26|27|28|29|30)\/Jun|(01|02|03)\/Jul)/{ print }' > result.txt すると「catいらなくね？」と指摘さらにMATSUMOTO, Ryosuke (@matsumotory) | Twitter　＜　「キャッシュに入れて高速化してるんかと思った」とコメントをもらいました。ので、どっちが速いかの検証です。注意加工の目的はログファイルからある期間だけの行を抜き取りたい正規表現がいけてないのは気にしない比較 awkにファイル指定す

sawarabi0130 2015/07/23

linux
tips

リンク

Linuxサーバに搭載されているCPUコア数の確認 - 元RX-7乗りの適当な日々

この前、若手に聞かれたので、ここにも書いておく。好みでは有るが、可能な限り数字のみで標準出力に出せるようにしておくと、スクリプトの中などで並列実行数を動的に定義しやすい。ちなみに下記の前提は、CentOS 6.6 & 56コア(！)のサーバで確認している。 nproc # nproc 56一番簡単なやつ。 getconf # getconf _NPROCESSORS_ONLN 56getconfでも拾える。 /proc/cpuinfo # cat /proc/cpuinfo | grep -c "processor" 56皆さん、ご存知の通り、 /proc/cpuinfo は多くのCPU情報を取得することが出来る。余談だけど、 /proc/cpuinfo に含まれる"physical id"はどの物理ソケットか、とか、"core id"を見ると物理コア(HT関連などで論理コアの紐付き

sawarabi0130 2015/07/14

Linux
Tips

リンク

cdの引数を絶対パスにしてコマンドヒストリに残す - ももいろテクノロジー

cdの引数が相対パスのままコマンドヒストリに残って便利な例が思いつかないので、絶対パスでコマンドヒストリに残すようにする。具体的には、以下のシェル関数を.bashrcに書く。 if [[ -n "$PS1" ]]; then cd() { command cd "$@" local s=$? if [[ ($s -eq 0) && (${#FUNCNAME[*]} -eq 1) ]]; then history -s cd $(printf "%q" "$PWD") fi return $s } fi いくつかの重要なポイントを以下に記す。 cdの定義を上書きしているが、このような場合中で普通にcdを呼ぶと再帰してしまうためcommand組み込みコマンドを使う。 "$@"の代わりに"$1"を使うことはできない。cdを引数なしで呼んだときホームディレクトリに移動しなくなってしまう。 cdの

sawarabi0130 2014/12/11

Linux
tips

リンク

IO負荷の高いプロセスを特定する方法 - weblog of key_amb

カーネルの I/O Accounting 機能を利用する Linuxでカーネルのバージョンが 2.6.20 以降であれば、IO Accounting機能を使うとよい。これが有効になっていれば、プロセス毎のI/O統計情報が /proc/${pid}/io に出力される。 …が、全プロセスについて、これを自前で分析するのは疲れるので、pidstat や dstat のようなツールを使うのが楽。参考 IO Accounting 機能で I/O 負荷の高いプロセスを特定 :: drk7jp dstatの万能感がハンパない - (ひ)メモ iodump 2.6.19 以前のカーネルではどうすればいいか。例えば、iodump というツールがある。これは以前 Maatkit に含まれていた Perl スクリプトである。使い方としては、以下の通り。 # download iodump wget

sawarabi0130 2014/12/07

Linux
Tips

リンク

立つハッカー、シェルを濁さず - Qiita

おことわりこのTipsは不作法だとして異論が出るかもしれないが、私自身がよくやるのでここで公開してみる。それは一体何かというと…… コマンドヒストリーが残るのイヤだ! と思うことってよくないだろうか? 開発環境で、後に再利用することは到底ありえないくらい長ーいワンライナーを書いたり、あるいは rm -rf * みたいなキケンなコマンドを実行したりして、ログアウト後にそういうのを残したくない、と思うこと。そんなアナタにオススメのTipsだと思う。次のコマンドを実行すればOK

sawarabi0130 2014/09/23

リンク

ウェブリブログ：サービスは終了しました。

「ウェブリブログ」は 2023年1月31日をもちましてサービス提供を終了いたしました。 2004年3月のサービス開始より19年近くもの間、沢山の皆さまにご愛用いただきましたことを心よりお礼申し上げます。今後とも、BIGLOBEをご愛顧賜りますよう、よろしくお願い申し上げます。 ※引っ越し先ブログへのリダイレクトサービスは2024年1月31日で終了いたしました。 BIGLOBEのサービス一覧

sawarabi0130 2014/09/23

Linux
tips

リンク

統計屋のためのAWK入門 - あんちべ！

はじめに本稿はAWKという言語を用いて、ごく簡単にデータ分析用の前処理*1をするための解説記事です。 AWKは短いコマンドを記述するだけで多様なデータ処理を可能にします。特にデータの抽出に関して恐るべき簡易さを提供します。具体的には、input.txtというファイルの中から "fail"という文字列を含む行を抽出したければ次のように書くだけです。 awk /fail/ input.txt つまり、スラッシュ記号で文字列を指定するだけでその文字列を含む行を抽出できるのです。大変簡単ですね！また、awkはLinuxやMacには標準で入っており、 Windowsでもawk.exeを一つ用意するだけなので、面倒なインストール作業や環境構築は不要で誰でも即座に使えるため、自分で書いた処理を他人に渡したり*2各サーバに仕込むなども簡単に出来ます。複雑な処理をする場合はPythonや

sawarabi0130 2014/09/21

リンク

サーバをメンテする時に便利な Linux コマンド 3つ - bekkou68 の日記

はじめにサーバを運用したり環境を構築したりしていて「あれ。あのプロセスで吐いてるログどこだっけ・・」など困るときがあります。そんなときに頼りになるかもしれないコマンドを 3つご紹介します。 @madeth 師匠に教えていただきました。 1. proc でプロセスが使っているファイルを見る困ったことプロセスの吐くログのパスがどうしても分からない・・。解決法 (編集 2014/09/10) 知りたいプロセスの ID を調べます。 $ ps aux | grep unicorn deploy 3335 xxx xxx xxx xxx X XX 15:14 0:07 unicorn master -c /var/www/myproject/unicorn/staging.rb -E staging -D プロセスID (この場合は 3335) をもとに root 権限でファイルディスクリ

sawarabi0130 2014/07/06

Linux
tips

リンク

chmodやchownのreferenceオプションを知った時は目から鱗だった話

人間とウェブの未来（旧）「ウェブの歴史は人類の歴史の繰り返し」という観点から色々勉強しています。2014年までの人間とウェブの未来の旧ブログです。元々ホスティング会社で働いていたので、その特性上ownerやpermissionを色々と弄る事が多く、数年前の社会人時代にchmodやchownをもっと楽に使えないかなぁと調べた時に目から鱗だったのがchmodやchownのreferenceオプションでした。今回は単にreferenceオプション楽ですよね、という記事なのでご存知の方は退屈な記事だと思いますが、まわりに聞いてみた所意外と知られていなかったりしたので、ブログエントリにしておこうと思います。 referenceオプションを使うと、任意のファイルを指定することで、変更対象のownerやpermissionを指定したファイルと同じ設定にすることができます。例えば、/bin/pin

sawarabi0130 2014/06/29

リンク

cron周りのベストプラクティス読んだ - $shibayu36->blog;

WEB+DBのPerl Hackers Hubで書かれていた「cron周りのベストプラクティス」を読んだ。かなり参考になった。経緯としては読みたいって呟いたら感想よろしくと言われたので慌てて読んだ。 @shiba_yu36 「読んだ」なら言ってもいい— songmu (@songmu) 2014年2月24日 @shiba_yu36 マジに謝られても…— songmu (@songmu) 2014年2月24日 @shiba_yu36 マジになって感想エントリを書いてください。— songmu (@songmu) 2014年2月24日特に参考になったこと batch.pl batch.plは非常に良いと思った。というのもcronとかのスクリプトで非常に簡単な事をやっている場合は適当にplファイルを作っちゃって登録するんだけど、得てしてそういうのはテストが無くてバグってて、しかもcronのロ

sawarabi0130 2014/02/26

リンク

installコマンドでコマンド数を減らす - @znz blog

mkdir とか touch とか chown とか chmod とか個別に実行しなくても install コマンドだけでまとめて出来るという話です。問題例 Dockerfile の RUN などが典型的な例ですが、他でも例えば mkdir -p /home/foo/.ssh; chown foo /home/foo/.ssh; chmod 0700 /home/foo/.ssh のようなことをすることがあると思います。特に Dockerfile の場合は RUN ごとにイメージがたまっていくこともあって、 ; や && でつなげて単独の RUN にまとめて書くことも多いと思います。 install でディレクトリを作るたとえば mkdir -p /home/foo/.ssh chown foo /home/foo/.ssh chgrp users /home/foo/.ssh ch

sawarabi0130 2014/02/15

リンク

コンソールから切れたプロセスを標準出力につなげなおす - 絶品ゆどうふのタレ

不慣れな環境を不意にいじった時にあるあるネタ。とりあえずーとか言って勢いで書いたsetupスクリプトを実行してみたら意外と時間かかって、ちょっと目を離した隙にsshの接続が切れちゃいました！。。。ありますよね。ほんとよくありますよね。そうなる予感はあったんだなんて後の祭りです。ふとした油断から、screenもnohupすらも使わずにやってしまって、こんなことに。 shellがHUPしなかったからプロセスは生きてるものの、ログが見れないから進行状況がわからない。うまく行ってるのかどうかモヤモヤした気持ちのまま、プロセスが終わるのをじっと待つ。。。まぁ実に切ないです。こんな時、いつも思うこと。このプロセスの出力、もっかいstdoutに繋げられたらいいのに。。。はい。というわけでつなげましょう。長い前座ですみません。切り離したプロセスを用意 #!/bin/bash wh

sawarabi0130 2014/02/06

リンク

うっかりnohup無しで長時間かかるコマンドを実行したときに後から終了しないようにする - Glide Note

いつまで経っても終わらないから帰れない… 途中で終了してしまうと困るので、ログアウトしても終了しないように。作業の流れ Ctrl+Zでコマンドの中断 bgでバックグラウンドに回す jobsでジョブの確認 disownでログアウトしても実行されるようにする実際のコマンドだと

sawarabi0130 2013/09/29

Linux
Tips

リンク

Linux/Mac/Windowsでハードウェア構成に関する情報を調べる - 元RX-7乗りの適当な日々

サーバ/クライアントPC問わず、今使っているマシンのハードウェア構成がどのようなものかをOS上で確認したくなることもあるでしょう。そんな時にお手軽に調べられる方法を、たまーにググったりするので、Linux/Mac OS X/Windowsの3つのOSの場合の調べ方をここに残しておきます。 Linux Linuxでは、dmidecodeコマンドを使います。 BIOSの情報とか、マシンの各種システム情報(シリアルナンバー等の各種メタ情報、CPU、メモリ、その他デバイス情報とか)が取得できます。 CentOS/RHELとかだと"kernel-utils"パッケージがインストールされていれば使えます。ちょっと長いですが、以下のような感じです。 # dmidecode # dmidecode 2.11 SMBIOS 2.7 present. 87 structures occupying 399

sawarabi0130 2013/06/14

リンク

意外と知られていない diff に関する機能 - 永遠に未完成

Vim Advent Calendar 2012 の 147 日目の記事です。 137 日目の tyru さんの記事で、Vim の diff 機能について紹介がありました。この記事ではもう少し細かい diff の機能について紹介したいと思います。 :diffthis 比較したい対象がファイルではない場合、例えば、外部からデータを無名バッファにコピーしてきた場合に、それらのバッファの diff を表示したいことがあります。この場合は、:diffsplit は使えません。こういう場合は :diffthis を使います。diff を適用したいバッファでそれぞれ :diffthis をすると、実行したバッファ同士の差分を見ることができます。これを利用した設定に、help で紹介されている :DiffOrig があります。(:help :DiffOrig) これは現在編集中のファイルと、最後に保

sawarabi0130 2013/04/26

linux
tips

リンク

若者が知らない最強のLinuxコマンドTips - すがブロ

タイトルは釣りぽよ〜今日ここで書くのはわりかし最近知ったことだったりするのが多いんですが、せっかくなので書いておこうかなぁと思った次第です。Linuxって書いてるけど、普通にMacでも使えるハズです。知ってる人にとってはアタリマエのことですけどね……。ファイルサイズの桁でかすぎてがわからん ls とか duあたりで使える話ですね。ファイルサイズが大きすぎてパッと見わからないよっていうことってあるじゃないですか。ありますよね。いやある。そんな時は -h オプションを使いましょう。 $ ls -l /var/log/nginx/access.log -rw-r--r-- 1 root root 1897381 8月 26 02:50 2012 /var/log/nginx/access.log $ ls -lh /var/log/nginx/access.log -rw-r--r--

sawarabi0130 2012/08/28

linux
TIPS

リンク

tarコマンドを負荷制御（bwlimit指定）して実行する方法

cstream - direct data streams, with bandwidth limiting, FIFO, audio, duplication and extended reporting support. ざっくり言うとデータストリームの制御とかできるよ！っていうコマンドっぽいです。オーディオアプリケーションのデータレートのエミュレーションとかで利用されているそうです。オプションではcstreamコマンドの-tを使うのですが、以下がmanでの内容になります。 -t num Limit the throughput of the data stream to num bytes/second. Limiting is done at the input side, you can rely on cstream not accepting more than thi

sawarabi0130 2012/08/15

linux
tips

リンク

xargs を使ってカジュアルに並列処理 - たごもりすメモ

シェルからでも重い処理というのはちょこちょこあって、例えば超デカいログファイルを移動して圧縮したりというお仕事は世界中のあらゆる場所で毎日行われていたりする。コマンドラインからでも大量の圧縮済みログファイルをいっぺんに展開したい、とか。あるディレクトリ以下に存在するたくさんのファイルを(圧縮済みのものを除いて)全部 bzip2 圧縮したい！と思ったら、とりあえずさくっと次のようにコマンドラインで叩けばいい。 $ find . -not -name '*.bz2' | xargs bzip2 これで、まあそんなに問題なく効率的にbzip2圧縮ができる。だがしかし。最近は複数コアのCPUが普通に転がってるし、あまつさえHyperThreadingが有効になってたりしてOSから見える論理CPU数がハンパない。普通に8とかある。その一方で複数コアを使用してくれるコマンドというのはあんまりなくて

sawarabi0130 2011/05/14

リンク

Linuxのサーバをリモートから強制的にOSリブートする - 元RX-7乗りの適当な日々

先日、諸々の都合で遠隔にあるテスト環境のサーバ(Linux)のカーネルパラメータを弄っていたのですが、ちょっと設定(メモリまわり)がイキすぎてしまいｗ、コマンド実行というかforkできなくなってしまった(Cannot allocate memory...)。んで、shutdownコマンドも実行できなくなったので、直そうと思ったのですが、色々弄った＆時間がなかったこともあり、一旦OSを再起動しちゃいたいな、と(汗が、遠隔にあるサーバなので、物理的な電源スイッチON/OFFができない(厳密には出来る環境ではあったのですが、このサーバはそこに入ってなかったｗ)。ので、SysRqキーを送ることにした。やり方少し無理矢理感はありますが、 # echo b > /proc/sysrq-triggerを実行すると、強制的にリブートがかかります。ただし、ファイルシステムのsyncとかumount

sawarabi0130 2011/04/26

リンク

はてなブックマーク

タグ

関連タグで絞り込む (16)

Tipsとlinuxに関するsawarabi0130のブックマーク (21)

お知らせ

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

今週のはてなブックマーク数ランキング（2024年5月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス