「hadoop」を検索 - はてなブックマーク

1 - 40 件 / 759件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

hadoopの検索結果1 - 40 件 / 759件

データベースを遅くするための８つの方法
- 1261 users
- zenn.dev/koduki
- テクノロジー
- 2020/11/15
はじめに Twitterのタイムラインを見ていたらバッチ系のプログラムで逐次コミットをやめて一括コミットにしたら爆速になったというのを見ました。当たり前でしょ、と思ったけど確かに知らなければ分からないよね、と思って主に初心者向けにRDBを扱うときの注意点をまとめてみました。プログラミングテクニック的なところからテーブル設計くらいの範疇でDBチューニングとかは入ってないです。自分の経験的にOracleをベースに書いていますが、他のRDBでも特に変わらないレベルの粒度だと思います。大量の逐次コミットをするバッチアプリケーションでDBにデータをインサートすると言うのはかなり一般的な処理です。しかしデータ量が少ない時はともかく大量のインサートを逐次コミットで処理するとめちゃくちゃ遅くなります。数倍から十数倍遅くなることもあるので、10分程度のバッチが１時間越えに化けることもザラにあるので原
- DB
- データベース
- あとで読む
- database
- パフォーマンス
- RDB
- performance
- 開発
- oracle
- 設計
Log4jの深刻な脆弱性CVE-2021-44228についてまとめてみた - piyolog
- 835 users
- piyolog.hatenadiary.jp
- テクノロジー
- 2021/12/13
2021年12月10日、Javaベースのログ出力ライブラリ「Apache Log4j」の2.x系バージョン（以降はLog4j2と記載）で確認された深刻な脆弱性を修正したバージョンが公開されました。セキュリティ関係組織では過去話題になったHeartbleedやShellshockと同レベルの脆弱性とも評価しています。ここでは関連する情報をまとめます。１．何が起きたの？ Javaベースのログ出力ライブラリLog4j2で深刻な脆弱性（CVE-2021-44228）を修正したバージョンが公開された。その後も修正が不完全であったことなどを理由に2件の脆弱性が修正された。広く利用されているライブラリであるため影響を受ける対象が多く存在するとみられ、攻撃が容易であることから2014年のHeartbleed、Shellshock以来の危険性があるとみる向きもあり、The Apache Software
- java
- security
- セキュリティ
- log4j
- あとで読む
- apache
- 脆弱性
- vulnerability
- log
- CVE
【2020年】AWS全サービスまとめ | DevelopersIO
- 760 users
- dev.classmethod.jp
- テクノロジー
- 2020/01/07
このエントリは、2018年、2019年に公開したAWS全サービスまとめの2020年版です。これまではいくつかに分割して公開していましたが、1エントリにまとめてほしいという要望をもらっていたため、今年は1エントリに集約してみました。こんにちは。サービスグループの武田です。このエントリは、2018年、2019年に公開した AWS全サービスまとめの2020年版です。これまではいくつかに分割して公開していましたが、1エントリにまとめてほしいという要望をもらっていたため、今年は1エントリに集約してみました。どちらがいいのか正直わからないので、フィードバックなどあれば参考にさせていただきます。 2020-01-08 リクエストがあったためAmazon Mechanical Turkを追加。 2018年まとめ【2018年】AWS全サービスまとめその1（コンピューティング、ストレージ、データベー
- aws
- あとで読む
- amazon
- まとめ
- サービス
- Amazon Web Services
- Developers
- 機械学習
- techfeed
- IoT
日本人CTOがシリコンバレーで25歳で起業し、660億円で買収されるまでの道のり
- 690 users
- techblitz.com
- テクノロジー
- 2021/03/30
大学時代に日本屈指の技術系スタートアップCTOを経験。25歳で日本から飛び出して、シリコンバレーで起業した ――まず太田さんがシリコンバレーで起業するまでの経緯を聞かせてください。高校生の時に初めて携帯電話を買ってもらいました。その携帯がiアプリといって、Javaのプログラムが動作する端末でした。そこで近くの書店でプログラミングの本を買って、簡単なシューティングゲームを作りました。すると、それが40万件以上ダウンロードされたんです。塾の帰りなど、隣にいる人が自分の作ったゲームをプレイしているのを見て驚きました。それが最初のコンピュータ、インターネットの原体験で、そこからプログラミングにのめり込んでいきました。太田一樹（Treasure Data 共同創業者取締役） 1985年生まれ。東京大学大学院情報理工学研究科修士課程修了。学部課程在学中の2006年、自然言語処理と検索エンジン
- 起業
- あとで読む
- CTO
- ビジネス
- 投資
- 企業
- startup
- business
- hadoop
- IT
DX意味わからん。「IT革命」と何が違うの？という話｜広木大地（日本CTO協会理事/レクター取締役）
- 579 users
- note.com/hirokidaichi
- テクノロジー
- 2020/12/24
はじめにこの記事は、Engineering Manager Advent Calendar 2020の24日目の記事す。職種を越えた働き方を模索するWeb Engineerのtrebyさんと、技術を突き詰めたいiOS Developerのbanjunさんの二人のパーソナリティをつとめるpodcast「きのこるエフエム」でお話してきた今話題のキーワードDXについてのお話を再編して記事にしたものです。実際のpodcastについては以下からどうぞ。いつの間にか"DX"がデジタルトランスフォーメーションにとられてた。trebyさん(以下敬称略) これは、我々のマイブームというか、最近、「DXっていいよね？」っていうふうに私が謎掛けをしますと、banjunさんが、「DX、わからん!」というふうに返すんです。 banjunさん(以下敬称略) 「DXって何ですか？何がいいんですか？」っていう話です
- DX
- あとで読む
- IT
- AI
- CTO
- 考え方
- 仕事
- 企業
- ビジネス
- 日本
「まさに逆転の発想だ！」福岡県宇美町が新型コロナウイルスワクチン接種会場で動きの遅い高齢者のために導入した方法が画期的で全国で広まって欲しい！
- 564 users
- togetter.com
- 世の中
- 2021/05/16
知念実希人　物語り @MIKITO_777 やはり、1日100万回の接種を何とか達成しないといけませんね。現在は30万回強。まだまだ、大規模接種会場やかかりつけ医での接種が十分に始まっていない状態なので、目標は十分に達成可能だと思います。頑張りましょう！ a.msn.com/01/ja-jp/BB1gM… 2021-05-16 20:22:01
- COVID-19
- 医療
- あとで読む
- ワクチン
- togetter
- 行政
- 福岡
- コロナ
- 仕事術
- medical
データサイエンス教育用の講義資料1000ページ、教員向けに無償公開　NVIDIAと滋賀大が連携
- 514 users
- www.itmedia.co.jp
- テクノロジー
- 2022/09/08
NVIDIAと滋賀大学は9月8日、データサイエンス教育用の講義資料「DLI データサイエンス教育キット」の日本語版の無償提供を始めた。同資料はNVIDIAのデジタルスキル育成プログラム「Deep Learning Institute」（DLI）の講義資料で、滋賀大学が日本語に翻訳したもの。教育機関の教員向けに提供する。利用にはNVIDIAの開発者アカウントが必要。講義資料では「データサイエンスとRAPIDSの入門」「データ収集と前処理（ETL）」「データセットにおけるデータ倫理とバイアス」「データ統合と分析」「データビジュアライゼーション」「Hadoop、Hive、SparkとHBaseによるスケールと分散コンピューティング」「機械学習（分類）」「機械学習（クラスタリング、次元削減）」「ニューラルネットワーク」などの分野を取り上げる。資料の元になった「DLI データサイエンス教育キット
初めての技術選定を頼まれた時に大事だったのは俯瞰的・相対的な考え方だった - MonotaRO Tech Blog
- 467 users
- tech-blog.monotaro.com
- テクノロジー
- 2021/06/03
背景お題技術の差別化差別化から分かること情報資産からToBeを考える俯瞰的・相対的な技術選定これまでの話から学んだこと最後にはじめまして、MonotaROでデータエンジニアをやっています、芝本です。エンジニアのみなさん、技術を使って何か作ってみるのって楽しいですよね。私は、公私ともに日々物作りに励んでいます。プライベートだと、最近はマイクロフロントエンドについて学んでいます。技術を使うためには、技術を学ばなければいけません。プライベートにおいては、好奇心に従って自由に学びますよね。とりあえずgit cloneして動かしてみたり、書籍を購入して読んでみたりします。というようにプライベートでは主に次のような選択肢があると思います。書籍を読んで好きなものを選ぶ実際に手を動かしてみて好きなものを選ぶ人に教えてもらって好きなものを選ぶ基本的にプライベートの場合は何
バッチ処理について考える - Qiita
- 450 users
- qiita.com/koduki
- テクノロジー
- 2020/01/11
TL;DR ひとくちにバッチといっても色々ある夜間バッチをもう作るなオンラインバッチはSQL以前にDB設計がんばれはじめに Twitterのタイムラインで以下のようなツイートが回ってきました。バッチ処理をみんな舐めてかかったり、ショボイとか思ってる人多い印象なんだけれども、数十万～数千万件規模のデータを処理したことあるのかな。テンプレ通りのコードじゃ動かないよ？ネットに本にも答え載ってないよ？低レイヤも意識しないと動かないよ？ 2020年1月10日ツイートされたわだっしーさんの意図がどこにあるかは確認してないですが、極限の世界でテンプレート的な処理では対応出来ないのはあるよな、と思いつつもある程度はバッチの作法としての書き方があると思っています。このツイートとその関連ツイートを読みながら、そういえばバッチ処理に関して書いてある記事はあまり見ないなぁ、とおもったので他のネットや本
AWSでの法令に則ったログ設計及び実装/分析 - Adwaysエンジニアブログ
- 429 users
- blog.engineer.adways.net
- テクノロジー
- 2023/10/20
エージェンシー事業でリードアプリケーションエンジニアを行なっている大窄直樹 (おおさこ)です. AWSのログ, サーバーのログってたくさん種類があって難しいですよね... 同じようなログがたくさんあるので, 何を取れば良いのかとかどのくらいの期間保持すれば良いのかとかまたその後の, ログの実装や, 分析方法する方法も難しいですよね... 今回AWSに構築した商用アプリケーションのログを整備する機会があったので, このことについて書こうかなと思います. 概要本題に入る前の準備今回ログ実装するアーキテクチャログに関する法令ログの取得箇所設計保管するログの決定インフラのログ OSのログアプリケーションのログログの保管保管場所について保管期間についてバケット構造アプリケーション, OSのログの転送実装アプリケーション, OSのログをfluentbitを用いてS3
- aws
- ログ
- あとで読む
- 設計
- log
- logging
- 法律
- architecture
- security
- 設定
エンジニアの勉強と技術力と育児 | 外道父の匠
- 412 users
- blog.father.gedow.net
- テクノロジー
- 2022/12/27
仕事力と技術力と不安に関する雑文 | YuheiNakasaka’s Diary を読んで、自分も勉強とは技術力とはなんぞやと考えてみたくなったのでポエムです。詰まるところ人それぞれではあるものの、考えることは少なからず良い方向に向かう、そう願いたいものです。勉強とは世の中にある意見として、エンジニアは生涯勉強だとか、強々エンジニアになるための勉強だとか、色んなモノを見かけます。そういう勉強に対する意見ってたいていネガティブな印象の内容が多く、なんだか迷走しているなぁという感想を持つことが多いです。良い子ちゃん視点では、学ぶこと、その全てには意義がある、と言いたいところですが、こと仕事においては無駄な学びもあるし、将来無駄になる学びもあります。また、自発的かどうかでその効果は天地の差があるので、他人に向かってこれくらいやるべきとか言うことの意味は薄く、突き詰めると自己責任の範囲の話
- エンジニア
- あとで読む
- 勉強
- 育児
- 仕事
- 技術
- 学習
- 人生
- 考え方
- life
Twitter での 2年 · eed3si9n
- 407 users
- eed3si9n.com
- テクノロジー
- 2022/11/21
2022-11-20 僕は Twitter社の Build/Bazel Migration チームでスタッフ・エンジニアとして勤務していた。信じられないような 2年の後、2022年11月17日をもって退職した (企業買収後のレイオフでも任意でもあんまり関係無いが、僕は任意退職希望のオファーを取った)。Twitter社は、切磋琢磨、多様性、そして Flock を構成する全ての人に対して溢れ出る優しさというかなり特別な文化を持った職場だった。これを間近で経験して、その一員となる機会を得たことに感謝している。(Flock は「鳥の群れ」の意で、社内での Twitter社の通称) 以下は過去2年の簡単な振り返りだ。尚本稿での情報は、既に公開されているトークやデータに基づいている。買収後、うちのチームだけでも 10名以上のメンバーが Twitter社を抜けたので、在籍・元含め LinkedIn プロ
【2021年】AWS全サービスまとめ | DevelopersIO
- 407 users
- dev.classmethod.jp
- テクノロジー
- 2021/01/06
こんにちは。サービスグループの武田です。このエントリは、2018年から公開しているAWS全サービスまとめの2021年版です。こんにちは。サービスグループの武田です。このエントリは、2018年から毎年公開している AWS全サービスまとめの2021年版です。昨年までのものは次のリンクからたどってください。 AWSにはたくさんのサービスがありますが、「結局このサービスってなんなの？」という疑問を自分なりに理解するためにまとめました。今回もマネジメントコンソールを開き、「サービス」の一覧をもとに一覧化しました。そのため、プレビュー版など一覧に載っていないサービスは含まれていません。また2020年にまとめたもののアップデート版ということで、新しくカテゴリに追加されたサービスには[New]、文章を更新したものには[Update]を付けました。ちなみにサービス数は 205個です。まとめるにあ
- aws
- あとで読む
- サービス
- まとめ
- amazon
- webサービス
- EC
- データ
近年のデータ分析基盤構築における失敗はBigQueryを採用しなかったことに全て起因している - データエンジニアの酩酊日記
- 400 users
- uma66.hateblo.jp
- テクノロジー
- 2019/10/17
久しぶりにペラペラな思いつきを書き捨てて、寝ます。 2、3年前ぐらいにSIerやコンサルでTreasure Dataとか使ってマネージドDWH作ろうぜっていう風潮が流行って、今は運用フェーズに入ってどこも結構苦しんでるってのが僕のすごく狭い観測範囲での印象。 AWSのReadshiftしかり。なぜ苦しんでるかっていうと、言うほどスケールしないからであり、言うほどマネージドじゃないから。 Treasure Dataは基本的に割当メモリが固定でオートスケールしないので、ピーク時に合わせて必要なメモリを確保しておかないといけない。そうなるとメモリ使用量とか負荷とかをモニタリングしないといけないわけだけど、Saasだから内部のアーキテクチャが隠蔽されていていちいちサポートに問い合わせないといけなかったりする。 Redshiftの場合はそもそも自前でクラスタ管理しなくちゃいけないのでそれが大変って
- BigQuery
- あとで読む
- アーキテクチャ
- aws
- 運用
- データ基盤
- 分析
- データ
- GCP
- エンジニア
SoundCloudに転職した
- 390 users
- yuseinishiyama.com
- テクノロジー
- 2019/12/17
2019年12月17日Cookpad（イギリス支社）を6月に退職し、7月からベルリンに移りSoundCloudで働いている。日本を離れてから3年が経つ。何かしらの形で情報発信しないと日本での人間関係が文字通りゼロになってしまいそうなので近況を綴ることにした。ついでに、誰かの参考になれば尚嬉しい。誰？2014年にCookpad入社。直後からiOS Tech Leadとして海外事業の立ち上げに従事し、2017年からは海外事業の拠点であるイギリスに出向。2019年7月にドイツに移りSoundCloud入社、現在に至る。『Swift実践入門』の著者の一人。前職のことについてあまり言及しないが、端的に言うと素晴らしい職場だった。優秀なメンバーと刺激的なプロジェクトから多くを学んだ。こうして新しい挑戦ができるのも前職で成長する機会に恵まれたからに他ならない。日本・海外共に積極採用しているはずなの
- 転職
- あとで読む
- エンジニア
- soundcloud
- 海外
- ios
- 英語
- 仕事
- work
- Career
Treasure Data を退職しました - k0kubun's blog
- 346 users
- k0kubun.hatenablog.com
- テクノロジー
- 2022/07/25
約5年5か月働いたTreasure Dataを7/22に退職した。7/25からShopifyに入社し、RustでJITコンパイラを開発してRubyを高速化する仕事をする。仕事としてやりたい分野が変わってきて自分は今回転職したけど、とても良い会社なので、この記事がTreasure Data (以下TD) で働くことに興味がある人の参考になれば良いと思っている。*1 5年勤続記念にいただいたトロフィーやっていたこと APIチーム元々TDにはJavaで分散システムを書きたくて入社したのだが、TD入社前に特にそういう経験があるわけでもなく主にRailsをやっていたこともあり、Railsでプラットフォームを開発するチームに入った。基盤開発をやりたいと思いながらサービス開発者として最初働き、後に基盤開発チームにジョインするみたいな過去の経験があったので、今回もそういう感じでいけると考えていた。実
- キャリア
- あとで読む
- 退職
- career
- 仕事
- 開発
- 会社
- ruby
- エンジニア
- rails
プログラミング文体練習
- 329 users
- www.oreilly.co.jp
- テクノロジー
- 2023/05/29
レーモン・クノーの『文体練習』から着想を得て執筆された本書は、1つの課題を異なるプログラミングスタイルで実装し、さまざまなスタイルの特性やスタイルが生まれた歴史的経緯などを解説します。本家の『文体練習』は、「バスの中で起きた諍いと、その張本人を後で目撃した」という内容を、公的文書風、宣伝風、業界用語風など、99の異なる文体で表現したものですが、本書は、「単語の出現頻度をカウントして多いものから出力する」という課題を、40のスタイルで実装しています。リソース制約が大きかった時代の方法から、オブジェクト指向、純粋関数型、リフレクション、並行処理、ニューラルネットワークまで幅広いスタイルを扱い、マルチパラダイム言語Pythonの威力と魅力を感じられる構成となっています。訳者まえがき第2版　まえがき第1版　まえがき序章第Ⅰ部　歴史的スタイル 1章　古き良き時代：アセンブリ言語 2章　Fo
- プログラミング
- あとで読む
- Python
- programming
- 勉強
- 本
- 書籍
データサイエンティストという職業の10年間の変遷を振り返る - 渋谷駅前で働くデータサイエンティストのブログ
- 319 users
- tjo.hatenablog.com
- テクノロジー
- 2022/10/22
(Image by Gordon Johnson from Pixabay) TL;DR　今年の6月に僕自身がデータサイエンティストに転じて10年という節目の年を迎え、10月でDavenportの「データサイエンティストは21世紀で最もセクシーな職業である」HBR総説から10周年になるのを機に、この10年間のデータサイエンティストという職業の変遷を振り返ることにしました。 6月の回顧録記事でも書いた通り、僕がデータサイエンティストの仕事に就いてから今年で10年になります。最近も同じかどうかは分かりませんが、古くから「10年ひと昔」という常套句がある通りで個人的には大きな節目の年だと感じています。一方で、今年の10月にはあまりにも有名な「データサイエンティストは21世紀で最もセクシーな職業である」HBR総説が出てから10周年を迎え、後述するようにDavenportは「今もデータサイエンティ
リモートでアメリカの大学院に通い始めた - k0kubun's blog
- 315 users
- k0kubun.hatenablog.com
- テクノロジー
- 2020/12/14
今年春に出願、夏に合格して秋学期からオンラインのコンピュータサイエンス修士コースで勉強している。ちょうど秋学期が終わって成績が返ってきたので、どういう感じだったか書いておく。 I've been officially admitted to Georgia Tech's OMSCS (Online Master of Computer Science). I'm excited for being a student again. I chose the online course to take it without quitting my job, but due to COVID-19 it's probably not that different from other people's experience.— k0kubun (@k0kubun) July 31, 2020 ど
- 大学
- あとで読む
- 大学院
- 教育
- education
- アメリカ
- システム
- university
39歳で年収2000万円超え、NTTデータ「大盤振る舞い」制度の適用第1号が判明
- 309 users
- xtech.nikkei.com
- テクノロジー
- 2019/09/12
NTTデータが2018年12月に導入した高額報酬制度の「Advanced Professional（ADP）」。優れた技術者を2000万円を超える年収で遇する同制度の適用第1号がこのほど明らかになった。その人物の横顔に迫ろう。適用第1号となったのは、ビッグデータ処理のオープンソースソフトウエア（OSS）「Apache Hadoop」の事業を同社で立ち上げたことで知られる濱野賢一朗氏だ。1980年6月生まれの39歳。同社はADP制度を発表した際に「確定申告が必要な額になる給与」、つまり年間2000万円を超える給与になると説明していた。濱野氏の給与は標準報酬だけで2000万円を超え、業績に応じて年収は最大3000万円に増えるという。米国IT企業に対抗すべく高額報酬制度を導入する日本のIT企業が相次いでいる。しかしその適用者が明らかになるケースは珍しい。濱野氏は、2019年9月5日に開催され
- nttdata
- あとで読む
- 技術
- engineer
- 良い話
- career
- salary
- 年収
- データ
- 労働
なぜRDBからCSV + COBOLに変更する事でコスト削減と高速化を同時に実現出来たかの考察 - ブログなんだよもん
- 301 users
- koduki.hatenablog.com
- 暮らし
- 2019/06/18
そもそも既存はどんなロジック？ RDBなんだからWhere句使ったら？なぜファイルにすると速くなるのか？並列化と分散処理による高速化の可能性 COBOL使う必要あったの？ Javaとかじゃダメだったの？まとめ TLを見てると以下の記事が少し話題になってました。 tech.nikkeibp.co.jp tech.nikkeibp.co.jp 対象の記事は有料会員じゃないと見れないのだけど事例としては以下みたい。リソース - ユーザー事例 - COBOL製品ユーザー事例 : マイクロフォーカスさて、この記事の驚きポイントは「１億レコードくらいのDB処理をRDBからCOBOL + CSVに変更してUnixサーバからWindowsサーバに変える事で性能を維持しつつコストを1/5くらいにした」という事でしょう。「せっかく7割もあったSQLを全部COBOLに変えるとか時代に逆行しすぎ！」
- cobol
- あとで読む
- CSV
- RDB
- SQL
- プログラミング
- データベース
- データ
- DB
- ビジネス
20年でソフトウェア開発の景色はどのぐらい変わったのか？ - Qiita
- 282 users
- qiita.com/shibukawa
- テクノロジー
- 2019/07/08
PySpa統合思念体です。某チャットで、「今時のOSSのプロジェクト管理とかのベストプラクティスが書いてある本ないかな、陳腐化早そうだしないか」みたいな話題が投入されました。その中で、エキスパートPythonプログラミングとか、Pythonプロフェッショナルプログラミングとかは思い出して紹介したけど、他の人からはShip It、Manage It、Release It三部作とか、達人プログラマーとかも出てきました。このあたりの源流を辿ると、そういえば今流行ってる開発の源流としてはエクストリームプログラミングの開発系のプラクティスの遺伝子を受け継いでいるのが多いよな、そういえば当時から見て今ってどう変わっているのかな、という話題に。せっかくなので20年前を思い出しつつ、当時と今でどういう風に変わってきたのか適当にまとめてみます。 20年前の状況 XP白本こと、eXtreme Progra
- 開発
- あとで読む
- プログラミング
- 歴史
- Java
- programming
- テスト
- 言語
- 読み物
分散データシステム入門の決定版『データ指向アプリケーションデザイン』をたった30分で学んでみた #DataEngineeringStudy | DevelopersIO
- 266 users
- dev.classmethod.jp
- テクノロジー
- 2023/02/19
基調講演「30分でわかるデータ指向アプリケーションデザイン」・スピーカー斉藤太郎氏　Twitter：@taroleo / Github：@xerial Principal Software Engineer , Treasure Data 東京大学理学部情報科学科卒。情報理工学 Ph.D。データベース、大規模ゲノムデータ処理の研究に従事。その後、スタートアップであるTreasure Dataに加わり、アメリカ、シリコンバレーを拠点に活動中。日本データベース学会上林奨励賞受賞。OSSを中心にプログラミングやデータ処理を簡単にするためのプロダクトを作成している。「30分でわかるデータ指向アプリケーションデザイン」最新の論文にも触れながら、分散データシステムの世界の魅力を伝えていきます。後半、@tagomoris https://t.co/TQ2TnsFIOT… — Taro L.
- データベース
- あとで読む
- 本
- データ
- 設計
- book
- ソフトウェアデザイン
- DB
- database
- 技術
新しいデータ処理ライブラリの学習はもう不要！ Python 初学者のための Ibis 100 本ノック - Qiita
- 249 users
- qiita.com/kunishou
- テクノロジー
- 2024/01/08
新しいデータ処理ライブラリの学習はもう不要！ Python 初学者のための Ibis 100 本ノックPython機械学習pandasデータ分析ibis-framework Information 2024/1/14： Kaggle notebook for Ibis Kaggle で Ibis を使用するための Sample Notebook を用意しました。Kaggle でもぜひ Ibis をご活用下さい。 🦩 [Ibis] Kaggle-Titanic-Tutorial Ibis 100 本ノック補足記事 Ibis 100 本ノックについて、よりスマートな書き方等について @hkzm さんが補足記事を書いてくれました（この記事を参考にコンテンツのほうもブラッシュアップしたいと思います）。 Ibis 100 本ノックの記事を受けてはじめにどうもこんにちは、kunishou です。
- python
- あとで読む
- ライブラリ
- Ibis
- データ分析
- データ処理
- qiita
- 学習
- pandas
ソーシャルゲームの運用に欠かせないデータ分析基盤の作り方
- 245 users
- blog.applibot.co.jp
- テクノロジー
- 2019/05/31
はじめに初めまして、バックエンドエンジニアの伊藤皓程です。2015年にサイバーエージェントに入社してからソーシャルゲーム2本、その後アドテクで広告配信システムの開発に携わりました。以前のプロジェクトではデイリーで数TBのログを収集と分析を行なっていた経験があり、また個人でAWS AthenaのTypeScript・Node.js用のクライアントライブラリ1を公開しています。今回は今年にリリースしたアプリボットの新データ分析基盤についてご紹介したいと思います。経緯アプリボットではゲームの運用の改善のためにユーザの行動ログの分析に力をいれており、Redshiftを利用したデータ分析基盤2がありました。一方でゲームの運用年数や運用タイトルの増加などにより以下のような課題がありました。 Redshiftのストレージ容量の枯渇デイリーのレポート集計バッチの実行時間の増加データ分析基盤の運用
AWSで“データのサイロ化”を防げ　すべてのデータを1ヶ所に集めるデータレイクの作り方
- 242 users
- logmi.jp
- テクノロジー
- 2021/04/26
リーガルテック領域のリーディングカンパニーである株式会社LegalForceが、「検索インフラTechTalk!」を開催しました。インフラ領域の中でも「検索インフラ」にフォーカスした今回は、検索インフラに関する具体的な事例や取り組みについて各スピーカーから発表がありました。野口真吾氏は、AWSを用いたデータレイクの基礎について紹介しました。企業規模に関係なく起こるデータのサイロ化野口真吾氏（以下、野口）：みなさんこんばんは。本日は「検索インフラ Tech Talk!」ということで、検索インフラから少し広げた話題にはなるんですが、「AWSを用いたデータレイクの基礎」というお話をします。よろしくお願いします。最初に簡単に自己紹介します。アマゾンウェブサービスジャパンでスタートアップ担当のソリューションアーキテクトをしている野口真吾と申します。Twitterでは＠nogというIDを使って活
- aws
- あとで読む
- データ
- データレイク
- インフラ
- DB
- data
【2022年】AWS全サービスまとめ | DevelopersIO
- 233 users
- dev.classmethod.jp
- テクノロジー
- 2022/01/05
こんにちは。サービスグループの武田です。このエントリは、2018年から公開しているAWS全サービスまとめの2022年版です。こんにちは。サービスグループの武田です。このエントリは、2018年から毎年公開している AWS全サービスまとめの2022年版です。昨年までのものは次のリンクからたどってください。 AWSにはたくさんのサービスがありますが、「結局このサービスってなんなの？」という疑問を自分なりに理解するためにまとめました。今回もマネジメントコンソールを開き、「サービス」の一覧をもとに一覧化しました。そのため、プレビュー版など一覧に載っていないサービスは含まれていません。また2021年にまとめたもののアップデート版ということで、新しくカテゴリに追加されたサービスには[New]、文章を更新したものには[Update]を付けました。ちなみにサービス数は 223個です。まとめるにあ
- aws
- あとで読む
- サービス
- まとめ
- EC
- データ
- programming
- service
- amazon
スタートアップである弊社が全員ほぼ未経験でRuby on RailsをScalaに移行した理由、その効果と苦労点 - Qiita
- 214 users
- qiita.com/sonken625
- テクノロジー
- 2020/08/02
スタートアップである弊社が全員ほぼ未経験でRuby on RailsをScalaに移行した理由、その効果と苦労点RubyRailsScalaポエムスタートアップこの記事を書くに至った経緯僕が代表をしている株式会社KOSKAでは製造業の原価管理をIoTで自動化するGenkanというサービスを提供しております。そんな弊社では半年前、バックエンドをRuby on RailsからScalaに移行したのですが、その効果が思ったよりだいぶ大きく、いずれこの効果を共有したいなーと思っていました。弊社ではスタートアップで全員ほぼ未経験状態のScalaを採用するという挑戦をした結果、「Scalaを書きたい」というレベルの高い人材をかなりの確率で捕まえられるようになり、開発がものすごい加速した上に堅牢になったのでそのうちスタートアップでScalaを採用するメリットを記事にする予定。 https://t
自由と統制のバランスを追求し、アジリティの高いデータ組織を目指すリクルートの組織作りとは？ - はてなニュース
- 191 users
- hatenanews.com
- テクノロジー
- 2022/05/18
さまざまな事業領域にわたってサービスを展開する株式会社リクルートでは、7つの中核事業会社および機能会社を2021年4月に吸収合併し、組織全体を統合しました。今回ご紹介するデータ推進室は、統合に先んじて1年前の2020年4月に各事業会社のデータエンジニアが集まる形で組閣されました。 ▶ Recruit Data Blog | リクルートデータ組織のブログはじめました事業領域が異なれば商慣習が異なり、それに合わせてデータの特性も大きく異なる中、統合から約2年がたち、どのような変化があり、どのように組織運営されているのでしょうか。データ推進室でユニット長あるいは部長としてチームをまとめる、阿部直之さん、田中孝昌さん、李石映雪さんの3人に話を伺いました。 ※この記事は株式会社リクルートによるSponsoredContentです。ベストプラクティスが自発的に横展開される生態系的な進化組織統合だ
- 組織
- あとで読む
- エンジニア
- 仕事
- -
- メモ
- 技術
- 企業
- business
【Team & Project】LINE全社のデータ基盤のミドルウェアやData ingestion pipelineの開発・運用を担当しているチームを紹介します
- 187 users
- engineering.linecorp.com
- テクノロジー
- 2020/10/22
―― 今のチーム課題と課題解決に向けた取り組みを教えてください。 Wang：私たちのチームでは、主に3つの課題について取り組みを進めています。まずは1つ目の課題は「マルチテナントのクラスターの運用」についてです。 Hadoopは一般的に、有数のユーザと予測可能なワークロードで運用されていますが、LINEのData OpenによってDAUが700人弱であり、且つワークロードも10万+/日となっています。Isolationがまだ完備されていないので、ユーザ間にリソースの競合が発生している状況です。 2つ目は「Data catalog」についてです。ユーザが自由にデータを生成したり利用したりする環境においては、データのカタログがとても重要です。そのため、Data Lineageを自動的に生成する仕組みが必要となってきます。そして「大規模のインフラを効率よく運用すること」も私たちの課題です。私
- データ
- あとで読む
- LINE
- 開発
- 運用
- 技術
- data
- チーム
- アーキテクチャ
- development
どうして Julia を作ったか
- 180 users
- hi-masai.blogspot.com
- テクノロジー
- 2021/04/17
プログラミング言語「Julia」開発者さんの文章がとても好きなので、雰囲気重視で訳しました。結構意訳です。原典：https://julialang.org/blog/2012/02/why-we-created-julia/ =================================================「どうして Julia を作ったか」それは、僕らが欲張りだからだ。 Matlab はめっちゃ使う。僕らの中にはLispの天才もいるし、PythonやRuby のすげー奴、Perl を巧みに使いこなす奴もいる。毛も生えない子供の頃からMathematica で遊んだ奴もいる。いまだにツルツルな奴だって仲間だ。Rではアホみたいにたくさんグラフを書いた。C言語からは、いつだって冒険の匂いがする。ぜんぶ、大好きだ。面白いし、いろいろなことができる。何かをしたいと思った時--科
- julia
- あとで読む
- programming
- 言語
- language
- プログラミング
- python
- 考え方
- ruby
ゆるふわMLOps入門 - Re:ゼロから始めるML生活
- 179 users
- www.nogawanogawa.com
- テクノロジー
- 2020/03/02
MLOpsに関してちゃんと勉強中でして、色々事例とか調べてました。とは言うものの、現在ではMLOpsを様々な観点から語られて、MLOpsという言葉にいろんな意味が含まれています。という事情から色々探していたら、こちらをお見かけしました。 medium.com 書籍へのリンクはこちらです。 n月刊ラムダノート Vol.1, No.1(2019)（紙書籍＋PDF版） – 技術書出版と販売のラムダノートこちらの書籍では基本的な背景からきれいに整理されていました。こちらを参考にしつつ、頑張ってMLOpsの動向について整理してみたので、そのメモです。それでは張り切って書いていきます。 tl;dr; 背景・問題設定機械学習は学習のアルゴリズムよりその周辺のほうが大きい機械学習システムに携わる人の役割の違いによってうまくいかないことがある機械学習システムの構築・運用する上で課題も多い問
- MLOps
- 機械学習
- あとで読む
- ML
- 開発
- お役立ち
老兵のようなRDBMSからの解放を　AWSが手がけるデータストアの再発明
- 168 users
- ascii.jp
- テクノロジー
- 2020/12/04
オンラインで開催されているAWS最大のグローバルカンファレンス「AWS re:Invent 2020」。12月2日に行なわれたAWS CEOのアンディ・ジャシー氏の基調講演では、データストア分野にもフォーカス。ストレージとデータベースの新サービスは、コスト削減と高い性能を求める顧客の声に応えた正常進化と言えそうだ。もはや古いデータストアでは対応できない 3時間におよぶアンディ・ジャシー氏の基調講演において、コンピュート分野に続いて解説されたのがデータストアの分野だ。ここではデータを利活用するストレージの技術革新に加え、データベースへの取り組みも披露された。まずゲストとして登壇したのは、2006年のAmazon S3ラウンチ当時にいち早くデータを格納したSmugMugの創業者であるドン・マクスキル氏。S3にデータをホストしたことで、最新の分析やデータ管理ツールを利用でき、1日数十億枚とい
- aws
- あとで読む
- データベース
- DB
- database
- データ
- techfeed
- 考察
リアルタイムログ分析基盤のAWS-_GCP移行話
- 163 users
- speakerdeck.com/yuyamada
- テクノロジー
- 2020/06/26
6/26 【オンライン】ログ分析勉強会 vol.2 での登壇資料です https://loganalytics.connpass.com/event/176044/ #logben
- GCP
- aws
- あとで読む
- インフラ
- log
- ログ
- infrastructure
- slide
- analytics
- architecture
BigQuery と Snowflake を徹底比較
- 156 users
- speakerdeck.com/fetaro
- テクノロジー
- 2022/12/21
最初にBigQueryとSnowflakeの概要と、登場の背景を説明します。その後、ユーザにとっての使い勝手と、管理者にとっての使い勝手を、ベンダーフリーな立場でそれぞれします。最後に、BigQueryとSnowflakeどっちが速いのか？といった疑問に対して、アーキテクチャをもとに考察します。
達人出版会
- 153 users
- tatsu-zine.com
- テクノロジー
- 2020/07/03
探検! Python Flask Robert Picard, 濱野司(訳) BareMetalで遊ぶ　Raspberry Pi 西永俊文なるほどUnixプロセス ― Rubyで学ぶUnixの基礎 Jesse Storimer, 島田浩二(翻訳), 角谷信太郎(翻訳) 知る、読む、使う！オープンソースライセンス可知豊きつねさんでもわかるLLVM 柏木餅子, 風薬 R／RStudioでやさしく学ぶプログラミングとデータ分析掌田津耶乃データサイエンティストのための特徴量エンジニアリング Soledad Galli(著), 松田晃一(訳) 実践力をアップする Pythonによるアルゴリズムの教科書クジラ飛行机スッキリわかるサーブレット＆JSP入門第4版国本大悟(著), 株式会社フレアリンク(監修) 徹底攻略基本情報技術者教科書令和6年度株式会社わくわくスタディワール
- ebook
- あとで読む
- epub
- プログラミング
- book
- 開発
次世代データ基盤：データレイクハウスを Google Cloud で実現する
- 150 users
- zenn.dev/cloud_ace
- テクノロジー
- 2024/02/22
はじめにこんにちは、クラウドエースデータソリューション部の松本です。普段はデータ基盤や MLOps の構築をしたり、Google Cloud 認定トレーナーとしてトレーニングを提供しております。また、昨年は Google Cloud Partner Top Engineer 2024 に選出されました。今年も Goodle Cloud 界隈を盛り上げていけるよう頑張っていきたいと思います。クラウドエースデータソリューション部についてクラウドエースのITエンジニアリングを担うシステム開発統括部の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのがデータソリューション部です。弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があればエントリーをお待ちしております！今回は、次世代データ基盤であるデ
- BigQuery
- あとで読む
- gcp
- データ
- cloud
- Google Cloud
- google
- 分析
- クラウド
- アーキテクチャ
注目のユニコーン企業が使っているプログラミング言語、フレームワーク、データベース（BUSINESS INSIDER JAPAN） - Yahoo!ニュース
- 140 users
- headlines.yahoo.co.jp
- テクノロジー
- 2019/07/19
Coding Dojoはアメリカのユニコーン企業が使用しているプログラミング言語、フレームワーク、データベースのデータを求人情報から収集した。【全画像をみる】注目のユニコーン企業が使っているプログラミング言語、フレームワーク、データベース対象となったユニコーンは、WeWork、Stripe、Airbnb、SpaceXなど。人気の言語はJavaScript、Java、そしてPython。KotlinやGoといった新しい言語も人気になりつつある。ウィーワーク（WeWork）、ストライプ（Stripe）、エアビーアンドビー（Airbnb）、スペースX（SpaceX）のような数十億ドル規模のスタートアップがどのような開発言語を使っているのかと疑問に思ったとしても、もう調べる必要はない。開発者をトレーニングし、就職をサポートする「Coding Dojo」は、求人サイト「Indeed」と開発
10年経ってもついに消えずに残った、データサイエンティストという職業 - 渋谷駅前で働くデータサイエンティストのブログ
- 132 users
- tjo.hatenablog.com
- テクノロジー
- 2023/08/26
このブログでも何度か引用しているこちらの記事で、「データサイエンティストという職業は10年以内に消える」という趣旨の議論がされていたのがちょうど10年前の2013年でした。ちなみにこの記事はついているブックマーク数に比して当時は結構注目を集めたという記憶があり、割と業界内では「確かにこんな中途半端な職業が10年後もあるわけないよね」と言われていたのを思い出します。実際には皆さんもご存知のように、2023年になってもデータサイエンティストという職業はついに消えることなく、現在に至るまで残り続けています。その経緯がどんなものであったかは、業界10年史記事でもある程度触れた通りです。しかし、同時に現在では「生成AIの普及でデータサイエンティストの仕事がなくなる」という風説も出回っており、改めてデータサイエンティストという職業の将来性に不透明感が漂いつつあるのもまた事実です。そこで、今回の記事
Delta Lake とは何か - connecting the dots
- 128 users
- ktksq.hatenablog.com
- テクノロジー
- 2022/09/14
はじめに環境情報 Delta Lake (デルタレイク) とは Delta Lake の実体 Delta Lake の構造 Parquet と Delta の相違点 Parquetとは何か Parquetの構造 Parquet と Delta の違い Delta Lake が生まれた経緯: データレイクと Delta Lake の違いデータレイクのメリットデータレイクの課題 *Parquetで構築した場合 Delta Lake の特徴 ACIDトランザクションの担保スケーラブルなメタデータ管理バッチとストリーミングワークロードの統合タイムトラベル (バージョン管理) CONSTRAINT句のサポート DML (データ操作言語) のフルサポート UPDATE DELETE MERGE 柔軟なスキーマ管理 1. スキーマエンフォースメント 2. スキーマエボリューションストレ
- deltalake
- あとで読む
- データ
- Databricks
- 機械学習
- db
- hadoop
- 開発
- プログラミング
- programming