タグ

csvに関するU1and0のブックマーク (14)

  • Big Data file formats

    Apache Spark supports many different data formats, such as the ubiquitous CSV format and the friendly web format JSON. Common formats used mainly for big data analysis are Apache Parquet and Apache Avro. In this post, we will look at the properties of these 4 formats — CSV, JSON, Parquet, and Avro using Apache Spark. CSV CSV files (comma-separated values) are usually used to exchange tabular data

    Big Data file formats
    U1and0
    U1and0 2020/01/10
    JSONのデメリットが浮き彫りになる。webで扱いやすいことくらいしかメリットないのでは。可視性、読み書き込み速度、容量がCSVにかなわない。
  • pandasのcrosstabでクロス集計(カテゴリ毎の出現回数・頻度を算出) | note.nkmk.me

    pandas.crosstab()関数を使うとクロス集計分析ができる。 カテゴリデータ(カテゴリカルデータ、質的データ)のカテゴリごとのサンプル数(出現回数・頻度)の算出などが可能。 pandas.crosstab — pandas 0.22.0 documentation 出現回数ではなく、カテゴリごとの平均値などを算出したい場合はピボットテーブルpandas.pivot_table()を使う。以下の記事を参照。 関連記事: pandasのピボットテーブルでカテゴリ毎の統計量などを算出 ここでは、 pandas.crosstab()関数の基的な使い方 カテゴリごとの小計・総計を算出: 引数margins 全体・行ごと・列ごとに規格化(正規化): 引数normalize について説明する。 例としてタイタニックの生存情報のデータを使用する。Kaggleの問題からダウンロードできる。 im

    pandasのcrosstabでクロス集計(カテゴリ毎の出現回数・頻度を算出) | note.nkmk.me
    U1and0
    U1and0 2019/01/15
    第一引数indexに結果の行見出しとなるpandas.DataFrameの列(= pandas.Series)、第二引数columnsに結果の列見出しとなるpandas.DataFrameの列(= pandas.Series)を指定する。 pandas.pivot_table()と異なり、pandas.DataFrameオブジェクトとその列名で
  • jQueryで外部CSVファイルをロードする

    外部CSVファイルからデータを取得して、javascriptで操作したい場合がある。そんなときには、jQueryとjquery.csv.jsを使うのが最も簡単である。 ところが、この方法を紹介しているサイトがいくつかあるのに、紹介されているコードを実行しても動作しなかった。これは、jquery.csv.jsのバージョンアップや開発環境の変化のためである。そこで、現在の時点(2023-04-13)で動作するコードを紹介する。 jquery.csv.jp の環境変化 まず、jquery.csv.jpに起きた変化を上げる。他サイトのコードが動作しなかった原因である。 $.csv()(data) は使えない jquery.csv.jsの現在のバージョンは1.0.21である。バージョンアップのため、他サイトで紹介されている

    jQueryで外部CSVファイルをロードする
  • Bitcoinchartsでbitcoinの過去の取引履歴を取得し可視化する - yag's blog

    今回はbitcoinの取引所での取引履歴のデータを取得してみます。 前回bitFlyer LightningのAPIを使えるパッケージを作った時のように、各取引所が公開しているデータや提供しているAPI等がありますが、今回はBitcoinchartsから取得してみます。Bitcoinchartsは各取引所の各通貨のデータを収集、可視化しているウェブサイトで、そこで利用しているデータも公開しています。 Bitcoincharts データ取得 WebAPIから取得する 1つ目の方法として、URLを叩いてWebAPIから取得する方法があります。データを取得するには、以下のURLにアクセスするだけです。SYMBOLの所には取得したい取引所&通貨の情報を指定します。取得対象とするデータの開始日をあわらすstart=UNIXTIMEは必須ではありません。 http://api.bitcoinchart

    Bitcoinchartsでbitcoinの過去の取引履歴を取得し可視化する - yag's blog
  • pandasでCSV/TSVファイル読み込み(read_csv, read_table) | note.nkmk.me

    pandasでCSVファイルやTSVファイルをDataFrameとして読み込むにはread_csv()を使う。 pandas.read_csv — pandas 2.0.3 documentation IO tools (text, CSV, HDF5, …) - CSV & text files — pandas 2.0.3 documentation CSVファイルへの書き込み・追記については以下の記事を参照。 関連記事: pandasでCSVファイルの書き込み・追記(to_csv) pandasでのExcel, JSON, pickleファイルの読み書き(入出力)については以下の記事を参照。 関連記事: pandasでExcelファイル(xlsx, xls)の読み込み(read_excel) 関連記事: pandasでExcelファイル(xlsx, xls)の書き込み(to_exce

    pandasでCSV/TSVファイル読み込み(read_csv, read_table) | note.nkmk.me
    U1and0
    U1and0 2018/06/24
    “header=Noneとするとpandasが勝手に列名を割り当ててくれる。 df_none = pd.read_csv('data/src/sample.csv', header=None) print(df_none) # 0 1 2 3 # 0 11 12 13 14 # 1 21 22 23 24 # 2 31 32 33 34 source: pandas_csv_tsv.py names=('A', 'B', 'C', 'D')のように任意の値を列名と
  • View tabular file such as CSV from command line

    Ask questions, find answers and collaborate at work with Stack Overflow for Teams. Explore Teams Collectives™ on Stack Overflow Find centralized, trusted content and collaborate around the technologies you use most. Learn more about Collectives

    View tabular file such as CSV from command line
    U1and0
    U1and0 2018/05/12
    column -s, -t < data.csv | less またはnode.jsでnpm i -g tty-tableつかって cat data.csv | tty-table
  • 『Python §40 : pandasのデータ読み書きはpickleを使うと激速だった!』

    前回、pickleというオブジェクトを保存する方法を紹介しました。ひょっとして、このpickleを使うとpandasモジュールを使ったデータ処理結果を保存しておいたり、再度読み出すことが速くなるのではないかと思い、リードライトする速度を測ることにしました。 まずは150万行程度のcsvファイルを以下コードで生成します。 def file_write_test(): xy=[] x=np.linspace(-np.pi,np.pi,1500000) for r in x: y=np.sin(r) xy.append([r,y]) wfilename='csv_write.dat' csv_write(wfilename,xy,dialect='comma') return xy

    『Python §40 : pandasのデータ読み書きはpickleを使うと激速だった!』
    U1and0
    U1and0 2016/11/21
    時間計測:CSVモジュールでの書き込み時間: 13.190569166113692 [sec]時間計測:pickleモジュールでの書き込み時間: 0.09422977217429818 [sec] 時間計測:pickleモジュールでの読み込み時間: 0.024253395266534028 [sec]
  • https://qiita.com/yudsuzuk/items/a13236a415f238da857e

  • pandasで様々な日付フォーマットを取り扱う - Qiita

    新生活応援期間中とのことですので,"pandas"の使い方,特に日付フォーマットについて取り上げたいと思います.「Pythonデータ分析に強い」という評判がありますが,これは以下のような「定番」パッケージによって実現されています. "pandas" for representing and analyzing data "NumPy" for basic numeriacal computation "SciPy" for scientific computation including statistics "StatsModels" for regression and other statistical analysis "matplotlib" for visualization (以上,"Think Stats" より引用.) pandas は,Seriesオブジェクト(1次元

    pandasで様々な日付フォーマットを取り扱う - Qiita
    U1and0
    U1and0 2016/09/18
    f3 = '%Y年%m月%d日' my_parser = lambda date: pd.datetime.strptime(date, f3) df3 = pd.read_csv('./pandas_date_ex/example3.csv', index_col=0, parse_dates=0, date_parser=my_parser) ? or ?pd.to_datetime(date, format=f3)
  • pandasでread_csv時にUnicodeDecodeErrorが起きた時の対処 (pd.read_table()) - Qiita

    pandasでread_csv時にUnicodeDecodeErrorが起きた時の対処 (pd.read_table())Pythonpandas

    pandasでread_csv時にUnicodeDecodeErrorが起きた時の対処 (pd.read_table()) - Qiita
    U1and0
    U1and0 2016/09/11
    日本語csv開く方法
  • pandas でメモリに乗らない 大容量ファイルを上手に扱う - StatsFragments

    概要 分析のためにデータ集めしていると、たまに マジか!? と思うサイズの CSV に出くわすことがある。なぜこんなに育つまで放っておいたのか、、、? このエントリでは普通には開けないサイズの CSV を pandas を使ってうまいこと処理する方法をまとめたい。 サンプルデータ たまには実データ使おう、ということで WorldBankから GDPデータを落とす。以下のページ右上の "DOWNLOAD DATA" ボタンで CSV を選択し、ローカルに zip を保存する。解凍した "ny.gdp.mktp.cd_Indicator_en_csv_v2.csv" ファイルをサンプルとして使う。 http://data.worldbank.org/indicator/NY.GDP.MKTP.CD?page=1 補足 pandas の Remote Data Access で WorldBan

    pandas でメモリに乗らない 大容量ファイルを上手に扱う - StatsFragments
    U1and0
    U1and0 2016/07/26
    サンプルデータではヘッダが 3行目から始まるため、冒頭の 2行を skiprows オプションで読み飛ばす。df = pd.read_csv(fname, skiprows=[0, 1])
  • csvファイルのヘッダーを確認 | rakkyooの備忘録

    U1and0
    U1and0 2016/04/02
  • csv モジュールメモ - 銀月の符号

    ひさしぶりに csv モジュールを使ったのだけれど、うろおぼえで十数分無駄にしたので、簡単にメモしてみる。 csv モジュールとは CSV のようなテキストからデータを読み出したり、書き出したりできる便利モジュール。 CSV って簡単そうに見えるけど、 'a,b,c'.split(',') とかやってしまうのはあまりに無防備。カンマ自身はどのように表現されているのか、など考えるべきことがいくつかある。こういった些細なつまづきをしないために、このモジュールがある。 なお、 csv という名前だけれども、 CSV の「ような」テキストが処理対象なのでタブ区切り、スペース区切りらのテキストにも対応可能。 読むときの小ネタ CSV の 1 行目がデータでなく各列の説明、見出しになっていることはよくある。 id,name 0,fgshun 1,shunこれを事前に取り出しておくには next を使う

    csv モジュールメモ - 銀月の符号
    U1and0
    U1and0 2016/03/22
    csv.DictReader を使う。本来、取り出したデータをインデックスアクセスではなく列名アクセスできるようにしてくれる(リストではなく辞書でデータをあつかう)ものだが、 1 行目のデータを列名として解釈してくれるという
  • [python] csvモジュールのDictWriter使用時にヘッダーを挿入したい

    pythoncsvモジュールのDictReader,DictWriterは便利で、よく使っている。 直感的に値操作できるので、とかく原始的である、csv利用場面に少しの安らぎをもたらす。 文字コードに悩まされる場面が多いと思うが、それはどこでも付き物かな。 そんな頼もしい輩、DictWriterを使用した時、期待を裏切られた。 単にfilednamesと書き込む辞書データを渡しただけでは、ヘッダーが挿入さないという。 かつ、方法もドキュメントではぱっと見、明示されていない。なのでメモ。 import csv FILEDNAMES = ("a","i","u","e","o") HEADER = dict([ (val,val) for val in FILEDNAMES ]) rows = [ {"a":"あ","i":"い","u":"う","e":"え","o":"お"}, {"a"

    U1and0
    U1and0 2016/03/17
    改行邪魔なときはcsv.DictWriterクラスのオプションに lineterminator='\n'
  • 1