[B! csv] U1and0のブックマーク

Big Data file formats

Apache Spark supports many different data formats, such as the ubiquitous CSV format and the friendly web format JSON. Common formats used mainly for big data analysis are Apache Parquet and Apache Avro. In this post, we will look at the properties of these 4 formats — CSV, JSON, Parquet, and Avro using Apache Spark. CSV CSV files (comma-separated values) are usually used to exchange tabular data

U1and0 2020/01/10

JSONのデメリットが浮き彫りになる。webで扱いやすいことくらいしかメリットないのでは。可視性、読み書き込み速度、容量がCSVにかなわない。

リンク

pandasのcrosstabでクロス集計（カテゴリ毎の出現回数・頻度を算出） | note.nkmk.me

pandas.crosstab()関数を使うとクロス集計分析ができる。カテゴリデータ（カテゴリカルデータ、質的データ）のカテゴリごとのサンプル数（出現回数・頻度）の算出などが可能。 pandas.crosstab — pandas 0.22.0 documentation 出現回数ではなく、カテゴリごとの平均値などを算出したい場合はピボットテーブルpandas.pivot_table()を使う。以下の記事を参照。関連記事: pandasのピボットテーブルでカテゴリ毎の統計量などを算出ここでは、 pandas.crosstab()関数の基本的な使い方カテゴリごとの小計・総計を算出: 引数margins 全体・行ごと・列ごとに規格化（正規化）: 引数normalize について説明する。例としてタイタニックの生存情報のデータを使用する。Kaggleの問題からダウンロードできる。 im

U1and0 2019/01/15

第一引数indexに結果の行見出しとなるpandas.DataFrameの列（= pandas.Series）、第二引数columnsに結果の列見出しとなるpandas.DataFrameの列（= pandas.Series）を指定する。 pandas.pivot_table()と異なり、pandas.DataFrameオブジェクトとその列名で

リンク

jQueryで外部CSVファイルをロードする

外部CSVファイルからデータを取得して、javascriptで操作したい場合がある。そんなときには、jQueryとjquery.csv.jsを使うのが最も簡単である。ところが、この方法を紹介しているサイトがいくつかあるのに、紹介されているコードを実行しても動作しなかった。これは、jquery.csv.jsのバージョンアップや開発環境の変化のためである。そこで、現在の時点（2023-04-13）で動作するコードを紹介する。 jquery.csv.jp の環境変化まず、jquery.csv.jpに起きた変化を上げる。他サイトのコードが動作しなかった原因である。 $.csv()(data) は使えない jquery.csv.jsの現在のバージョンは1.0.21である。バージョンアップのため、他サイトで紹介されている

U1and0 2018/10/27

jquery
csv

リンク

Bitcoinchartsでbitcoinの過去の取引履歴を取得し可視化する - yag's blog

今回はbitcoinの取引所での取引履歴のデータを取得してみます。前回bitFlyer LightningのAPIを使えるパッケージを作った時のように、各取引所が公開しているデータや提供しているAPI等がありますが、今回はBitcoinchartsから取得してみます。Bitcoinchartsは各取引所の各通貨のデータを収集、可視化しているウェブサイトで、そこで利用しているデータも公開しています。 Bitcoincharts データ取得 WebAPIから取得する 1つ目の方法として、URLを叩いてWebAPIから取得する方法があります。データを取得するには、以下のURLにアクセスするだけです。SYMBOLの所には取得したい取引所&通貨の情報を指定します。取得対象とするデータの開始日をあわらすstart=UNIXTIMEは必須ではありません。 http://api.bitcoinchart

U1and0 2018/08/12

”

リンク

pandasでCSV/TSVファイル読み込み（read_csv, read_table） | note.nkmk.me

pandasでCSVファイルやTSVファイルをDataFrameとして読み込むにはread_csv()を使う。 pandas.read_csv — pandas 2.0.3 documentation IO tools (text, CSV, HDF5, …) - CSV & text files — pandas 2.0.3 documentation CSVファイルへの書き込み・追記については以下の記事を参照。関連記事: pandasでCSVファイルの書き込み・追記（to_csv） pandasでのExcel, JSON, pickleファイルの読み書き（入出力）については以下の記事を参照。関連記事: pandasでExcelファイル（xlsx, xls）の読み込み（read_excel）関連記事: pandasでExcelファイル（xlsx, xls）の書き込み（to_exce

U1and0 2018/06/24

“header=Noneとするとpandasが勝手に列名を割り当ててくれる。 df_none = pd.read_csv('data/src/sample.csv', header=None) print(df_none) # 0 1 2 3 # 0 11 12 13 14 # 1 21 22 23 24 # 2 31 32 33 34 source: pandas_csv_tsv.py names=('A', 'B', 'C', 'D')のように任意の値を列名と

リンク

View tabular file such as CSV from command line

Ask questions, find answers and collaborate at work with Stack Overflow for Teams. Explore Teams Collectives™ on Stack Overflow Find centralized, trusted content and collaborate around the techno logies you use most. Learn more about Collectives

U1and0 2018/05/12

column -s, -t < data.csv | less またはnode.jsでnpm i -g tty-tableつかって　cat data.csv | tty-table

リンク

『Python　§４０　：　pandasのデータ読み書きはpickleを使うと激速だった！』

前回、pickleというオブジェクトを保存する方法を紹介しました。ひょっとして、このpickleを使うとpandasモジュールを使ったデータ処理結果を保存しておいたり、再度読み出すことが速くなるのではないかと思い、リードライトする速度を測ることにしました。まずは150万行程度のcsvファイルを以下コードで生成します。 def file_write_test(): xy=[] x=np.linspace(-np.pi,np.pi,1500000) for r in x: y=np.sin(r) xy.append([r,y]) wfilename='csv_write.dat' csv_write(wfilename,xy,dialect='comma') return xy

U1and0 2016/11/21

時間計測:CSVモジュールでの書き込み時間: 13.190569166113692 [sec]時間計測:pickleモジュールでの書き込み時間: 0.09422977217429818 [sec] 時間計測:pickleモジュールでの読み込み時間: 0.024253395266534028 [sec]

リンク

https://qiita.com/yudsuzuk/items/a13236a415f238da857e

U1and0 2016/11/11

リンク

pandasで様々な日付フォーマットを取り扱う - Qiita

新生活応援期間中とのことですので，"pandas"の使い方，特に日付フォーマットについて取り上げたいと思います．「Pythonはデータ分析に強い」という評判がありますが，これは以下のような「定番」パッケージによって実現されています． "pandas" for representing and analyzing data "NumPy" for basic numeriacal computation "SciPy" for scientific computation including statistics "StatsModels" for regression and other statistical analysis "matplotlib" for visualization （以上，"Think Stats" より引用．） pandas は，Seriesオブジェクト(１次元

U1and0 2016/09/18

f3 = '%Y年%m月%d日' my_parser = lambda date: pd.datetime.strptime(date, f3) df3 = pd.read_csv('./pandas_date_ex/example3.csv', index_col=0, parse_dates=0, date_parser=my_parser) ? or ?pd.to_datetime(date, format=f3)

リンク

pandasでread_csv時にUnicodeDecodeErrorが起きた時の対処 (pd.read_table()) - Qiita

pandasでread_csv時にUnicodeDecodeErrorが起きた時の対処 (pd.read_table())Pythonpandas

U1and0 2016/09/11

日本語csv開く方法

リンク

pandas でメモリに乗らない大容量ファイルを上手に扱う - StatsFragments

概要分析のためにデータ集めしていると、たまにマジか！? と思うサイズの CSV に出くわすことがある。なぜこんなに育つまで放っておいたのか、、、？このエントリでは普通には開けないサイズの CSV を pandas を使ってうまいこと処理する方法をまとめたい。サンプルデータたまには実データ使おう、ということで WorldBankから GDPデータを落とす。以下のページ右上の "DOWNLOAD DATA" ボタンで CSV を選択し、ローカルに zip を保存する。解凍した "ny.gdp.mktp.cd_Indicator_en_csv_v2.csv" ファイルをサンプルとして使う。 http://data.worldbank.org/indicator/NY.GDP.MKTP.CD?page=1 補足 pandas の Remote Data Access で WorldBan

U1and0 2016/07/26

サンプルデータではヘッダが 3行目から始まるため、冒頭の 2行を skiprows オプションで読み飛ばす。df = pd.read_csv(fname, skiprows=[0, 1])

リンク

csvファイルのヘッダーを確認 | rakkyooの備忘録

U1and0 2016/04/02

csv
cmd

リンク

csv モジュールメモ - 銀月の符号

ひさしぶりに csv モジュールを使ったのだけれど、うろおぼえで十数分無駄にしたので、簡単にメモしてみる。 csv モジュールとは CSV のようなテキストからデータを読み出したり、書き出したりできる便利モジュール。 CSV って簡単そうに見えるけど、 'a,b,c'.split(',') とかやってしまうのはあまりに無防備。カンマ自身はどのように表現されているのか、など考えるべきことがいくつかある。こういった些細なつまづきをしないために、このモジュールがある。なお、 csv という名前だけれども、 CSV の「ような」テキストが処理対象なのでタブ区切り、スペース区切りらのテキストにも対応可能。読むときの小ネタ CSV の 1 行目がデータでなく各列の説明、見出しになっていることはよくある。 id,name 0,fgshun 1,shunこれを事前に取り出しておくには next を使う

U1and0 2016/03/22

csv.DictReader を使う。本来、取り出したデータをインデックスアクセスではなく列名アクセスできるようにしてくれる（リストではなく辞書でデータをあつかう）ものだが、 1 行目のデータを列名として解釈してくれるという

csv
python

リンク

[python] csvモジュールのDictWriter使用時にヘッダーを挿入したい

pythonのcsvモジュールのDictReader,DictWriterは便利で、よく使っている。直感的に値操作できるので、とかく原始的である、csv利用場面に少しの安らぎをもたらす。文字コードに悩まされる場面が多いと思うが、それはどこでも付き物かな。そんな頼もしい輩、DictWriterを使用した時、期待を裏切られた。単にfilednamesと書き込む辞書データを渡しただけでは、ヘッダーが挿入さないという。かつ、方法もドキュメントではぱっと見、明示されていない。なのでメモ。 import csv FILEDNAMES = ("a","i","u","e","o") HEADER = dict([ (val,val) for val in FILEDNAMES ]) rows = [ {"a":"あ","i":"い","u":"う","e":"え","o":"お"}, {"a"

U1and0 2016/03/17

改行邪魔なときはcsv.DictWriterクラスのオプションに lineterminator='\n'

python
csv

リンク

はてなブックマーク

タグ

関連タグで絞り込む (20)

csvに関するU1and0のブックマーク (14)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス