「JX通信社Advent Calendar 2019」10日目の記事です. 昨日は, @rychhrさんの「Pure WebSocketsをサポートしたAWS AppSyncでWebとiOS間のリアルタイムチャットを作ってみた(1)」でした. 改めまして, こんにちは. JX通信社でシニア・エンジニア&データ基盤エンジニアをしています, @shinyorke(しんよーく)と申します. JX通信社では, データ駆動での意思決定および施策実施をより円滑に進めるため, データ基盤の構築・運用を進めながらトライアル的に様々なFrameworkやツールの検証を行っています.*1 このエントリーでは, 私がシュッとPySparkで分散処理をする...前に, 手元で試したときの感想とその知見 のお話を残していきたいと思います. なお, 分散処理そのものの知見・ノウハウではなく, する前にPySparkに
JetBrainsが軽量なコードエディタ「Fleet」発表。エディタとバックエンドの分散処理、多言語対応、共同作業対応など プログラミング言語のKotlinや、統合開発ツールのIntelliJ IDEAなどの開発元であるJetBrainsは、同社が新規に開発した軽量なコードエディタの「Fleet」を発表しました。 JetBrains の最新プロジェクトである次世代 IDE Fleet を発表します! Fleet は IDE であり、軽量エディターでもあります。 コラボレーションとリモートワークフローに対応し、柔軟でスマートな多言語ツールです。 詳細を確認して、プレビューにご参加くださいhttps://t.co/BDrN0egxBA pic.twitter.com/DsLpjufRrx — JetBrains Japan (@jetbrainsjp) November 29, 2021 Fl
この記事は新野淳一氏のブログ「Publickey」に掲載された「JetBrainsが軽量なコードエディタ「Fleet」発表。エディタとバックエンドの分散処理、多言語対応、共同作業対応など」(2021年11月30日掲載)を、ITmedia NEWS編集部で一部編集し、転載したものです。 プログラミング言語の「Kotlin」や、統合開発ツール「IntelliJ IDEA」などの開発元であるJetBrainsは、同社が新規に開発した軽量なコードエディタの「Fleet」を発表しました。 Fleetは瞬時に起動する高速で軽量なコードエディタを中心に、別途実行されるIntelliJコード処理エンジンを搭載しています。 LanguageServerを用いたプロジェクトおよびコンテキスト対応のコード補完の他に、定義と使用箇所への移動コード品質チェック、クイックフィックスなどの機能を IntelliJベース
2021年11月10日と11日の2日間、LINE株式会社が主催するエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2021」がオンラインで開催されました。そこでMachine Learning Infrastructure Managerの大東氏が「機械学習で使っている分散処理用RPCライブラリ」というテーマで、Kubernetesでジョブを走らせる方法と、そのための便利なライブラリについて共有しました。 Kubernetesジョブ定義の例 大東哲平氏(以下、大東):こんにちは。Machine Learning Infrastructureチームの大東と言います。このセッションでは、機械学習のために開発した、RPCライブラリを紹介します。 Machine Learning室では、Kubernetesを使い、GPUやCPUのノードを必要な数だけ確保して、相互に通信する
今回は PySpark でサードパーティ製のライブラリを使って分散処理をする方法について。 サンプルとして、次のような状況を試した。 Apache Spark + Hadoop YARN で構築した分散処理用のクラスタを用いる サードパーティ製のライブラリとして scikit-learn を想定する scikit-learn の学習済みモデルを、あらかじめローカルで用意しておく Iris データセットと学習済みモデルを使った推論を PySpark で分散処理する 使った環境は次の通り。 $ cat /etc/redhat-release CentOS Linux release 7.6.1810 (Core) $ uname -r 3.10.0-957.21.3.el7.x86_64 $ python3 -V Python 3.6.8 $ pyspark --version Welcome
イントロ 日立製作所 研究開発グループの中田です。普段、エッジコンピューティングや分散システムの研究開発、またシステムアーキテクトをやっています。 公私ともにQiitaは初投稿です。 今回は、Rayを紹介します。 Rayは、分散処理を含むアプリを開発するためのライブラリおよび実行環境です。まだ日本では情報が少ないのですが、海外では有名企業や大学がこぞって活用しており、かなりホットなライブラリだと思います。今年2020年10月1日にバージョン1.0がリリースされました。また同じタイミングにRay Summitが開催され、50本程のセッションで多数の活用事例が紹介されました。 Rayは、通常の手続き型言語を容易に分散処理化できるものであり、データ分析やエッジ/IoTの分野で有用に思えるので、日本でも広まって欲しいと思っている次第です。 本記事では、そもそもここでの分散処理とは何か、から始めて、
900万レコードを20秒で空間結合しちゃうGISデータの分散処理基盤「dask-geopandas」で効率よくデータ処理しよう!PythongeopandasDaskQiitaEngineerFesta2022dask-geopandas 初めに こちらの記事などでを紹介していきましたが、ファイルを読み込んだ後には当然、何かしらの処理を行うと思います。 GeoPandasをやるならFlatGeobufより10倍早いGeoParquetを使おう! GeoPandas(GeoDataFrame)のread/writeなら1000万レコードを10秒で読み込めるpyogrioを使って高速に行おう! 大きなデータを処理する際に、数十GB級のデータだとデータの読み込み自体を高速で完了させたとしても、空間検索に膨大な時間を要したり、そもそもデータがメモリに乗り切らず処理できないということもあるでしょう。
この記事は、Magic Moment Advent Calendar 2023 5日目の記事です。 こんにちは! Magic Moment で Tech Lead をやっている Miyake です。 弊社のセールスオペレーションクラウド「Magic Moment Playbook」では、大量の営業データに対してバッチ処理を行うシーンがあります。 今回はバッチ処理の高速化について、Cloud Run と Event-Driven Architecture を活用したアーキテクチャで取り組んだときのお話をしたいと思います。 実装した背景 リアーキテクト以前では、課題が大きく2つありました。 処理速度が単純に遅い リソースの枯渇によるパフォーマンスの低下 「1. 処理速度が単純に遅い」に関しては、システムの製品価値として解決が必要なものでした。旧アーキテクチャでは対象のデータに対して1レコードず
Google Cloud のサービスは、Google が長年に渡って構築してきたグローバルネットワーク、そして、世界各地のデータセンターによって提供されています。これは、Google 検索をはじめとするさまざまな Google のサービスを支えるインフラでもあり、その上では、Google 独自の技術を活用したさまざまなミドルウェアが稼働しています。 Google Cloud で提供されるマネージドサービスの多くは、これらのミドルウェアをマルチテナント化して提供しているものであり、いわば、Google Cloud を利用することで、Google 以外の企業でも「Google のサービスを支える技術」が活用できるのです。Google Cloud を活用する開発者の中には、このような Google の技術に興味を惹かれて、Google Cloud を使い始めたという方も少なくないかも知れません。
Apache HadoopとSparkの違いとは? 分散処理フレームワークを基礎からわかりやすく解説! 以前は一部の凄腕エンジニアしか実現できなかったビッグデータの分散処理。それを誰でも可能にしたのがApache Hadoop、Apache Sparkに代表される分散処理フレームワークです。ビッグデータ活用に取り組むなら、それらについて概要だけでも知っておくべきでしょう。 この記事では、そもそもの役割からHadoopとSparkの違いまで、分散処理フレームワークについて初心者でも簡単に理解できるよう解説します! “分散処理”が大量のデータ処理を可能にする データを管理・活用するためのシステムとして代表的なのがMySQL、OracleなどのRDBMS(リレーショナルデータベース管理システム)です。RDBMSは複雑なデータをリアルタイムで取り扱える半面、大量のデータ処理に際して能力が低下してし
Google Cloud のサービスは、Google が長年に渡って構築してきたグローバルネットワーク、そして、世界各地のデータセンターによって提供されています。これは、Google 検索をはじめとするさまざまな Google のサービスを支えるインフラでもあり、その上では、Google 独自の技術を活用したさまざまなミドルウェアが稼働しています。 Google Cloud で提供されるマネージドサービスの多くは、これらのミドルウェアをマルチテナント化して提供しているものであり、いわば、Google Cloud を利用することで、Google 以外の企業でも「Google のサービスを支える技術」が活用できるのです。Google Cloud を活用する開発者の中には、このような Google の技術に興味を惹かれて、Google Cloud を使い始めたという方も少なくないかも知れません。
(以下は私の一当事者としての私見であり、学問的な見解ではないことをご理解願います) ADHDの本質は、脳の働きの質が異なることである。 私の最近の考えは、「数多くのプログラムが並行分散処理で複数同時に動き続けている」という状態であると考える。 一般的な思考が、「ひとつのプログラムを開始し、それが終わると終了として次のプログラムを」という形であるとすれば、 そういうプロセスが同時進行で並行して回り続けていると考える。 これ自体は、よく言われる男性と女性の脳の違いと比較すると、 一見すると女性型の、「話をしながらテレビを見たり作業をしたり」というタイプと共通するように見えるが、 女性型の場合には、それぞれの働きは独立し、言わば脳の別々の部分で一つ一つのプログラムを回しているということになり、かなり異なる。 むしろ 女性型の融通性とは逆に、男性型の強く集中するようなプロセスが、複数同じ場所で動い
ghee-modelsの紹介 張洪偉氏:洪偉です。パート2でモデル管理するためのghee-modelsを紹介いたします。アジェンダとしてghee-modelsとghee-modelsの事例、表現学習でgraph convolutional networksの応用について紹介いたします。 まずghee-modelsを紹介いたします。ghee-modelsはgheeに基づくマシンラーニングモデルのコレクションを提供するライブラリです。MLFlowを導入することにより、チーム向けモデルを管理する標準な方法を提供いたします。 ghee-modelsの特徴は3つあります。まずMLFlowでモデルとモデルパラメータを一元管理することで再現性が高いです。次に抽象度の高いAPIを提供することで再利用しやすいです。最後はマシンラーニングタスクとデータフォーマットにより前処理、後処理、トレーニングのプロセスな
Apache HadoopとSparkの違いとは? 分散処理フレームワークを基礎からわかりやすく解説! Hadoopは処理能力の拡張性・安定性が高い Hadoopは米Yahoo!社に所属していたDoug Cutting氏を中心として2006年に開発された分散処理フレームワークです。2004年Googleが論文にて発表した独自の分散処理フレームワークMapReduceをもとに生み出されました。ちなみに名前の由来はDoug氏の息子が持っていたゾウの人形です。 Hadoopのメリットはまずサーバーの台数に比例して処理能力を高められる、いわゆるスケールアウトが可能だということ。Web上のビッグデータはどんどん増え続けます。そんなときHadoopを実装していればコストを押さえつつ対応し続けられるのです。 また、安定性が高いのも魅力のひとつ。どこか一つのサーバーで障害が起こってもほかのサーバーが対応す
IT Leaders トップ > テクノロジー一覧 > 開発ツール/プラットフォーム > 市場動向 > 大規模な計算を多数のスマートフォンで分散処理─CTCと東京工科大が商用化を目指して研究 開発ツール/プラットフォーム 開発ツール/プラットフォーム記事一覧へ [市場動向] 大規模な計算を多数のスマートフォンで分散処理─CTCと東京工科大が商用化を目指して研究 2021年10月6日(水)日川 佳三(IT Leaders編集部) リスト 伊藤忠テクノソリューションズ(CTC)と東京工科大学は2021年10月6日、ネットワークに接続した多数のスマートフォンを用いて大規模な計算処理を並列分散する手法の共同研究を開始したと発表した。東京工科大学が高性能なコンピュータに関する知見から手法を開発し有用性を評価する。CTCが同研究に協力しながら商用化や適用範囲拡大などの検討を進める。共同研究期間は同年7
Contributions to Apache Hive 2023年に取り組んだ分散処理OSSに対する貢献のまとめです。今年はApache Hiveのコミュニティが活性化したのでHiveやTezに対する貢献が多めです。 この記事は『Distributed computing (Apache Spark, Hadoop, Kafka, ...)のカレンダー | Advent Calendar 2023 - Qiita』24日目として執筆しました。若干遅れて申し訳ございません。 データ不整合の解消 ネストしたCTEをマテリアライズするとデータが消失する問題 LIMIT OFFSET Pushdownのバグ修正 パフォーマンス改善 Auto Reduce Parallelismの改善 Fair Routingの開発 ジェネリックなAM or TaskレベルのフックをTezに追加 UDTFの出力に
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く