並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 24 件 / 24件

新着順 人気順

分散処理の検索結果1 - 24 件 / 24件

  • 新型コロナ解析で分散処理プロジェクト「Folding@home」が1EFLOPS超え ~世界中のPCパワーが結集、スパコン上位100システムの合計値より高速に

      新型コロナ解析で分散処理プロジェクト「Folding@home」が1EFLOPS超え ~世界中のPCパワーが結集、スパコン上位100システムの合計値より高速に
    • 今更聞けないAR/VR,分散処理,AI/機械学習/ディープラーニング,データサイエンス,IoTにお役所、総務省の資料が使えた件 - Qiita

      ありがとう総務省! http://www.soumu.go.jp/ict_skill/ http://www.soumu.go.jp/ict_skill/pdf/ict_skill_c1_set.pdf で一括PDFダウンロード(463ページ)するのも手。 今日まで知らなかったが日本のお役所のIT事業で民間がまともに使えるシステム、資料を初めて見た気がする。 今更恥ずかしくて聞けないNoSQL、分散処理(hadoop, spark, ...)、マシンラーニングやディープラーニングの手法の根幹、 Rのお話まで登場。これは使える! 最近時のテクノロジーの基本的事項の網羅性が高い!

        今更聞けないAR/VR,分散処理,AI/機械学習/ディープラーニング,データサイエンス,IoTにお役所、総務省の資料が使えた件 - Qiita
      • PySparkはじめました - 分散処理デビューする前にやったこと - JX通信社エンジニアブログ

        「JX通信社Advent Calendar 2019」10日目の記事です. 昨日は, @rychhrさんの「Pure WebSocketsをサポートしたAWS AppSyncでWebとiOS間のリアルタイムチャットを作ってみた(1)」でした. 改めまして, こんにちは. JX通信社でシニア・エンジニア&データ基盤エンジニアをしています, @shinyorke(しんよーく)と申します. JX通信社では, データ駆動での意思決定および施策実施をより円滑に進めるため, データ基盤の構築・運用を進めながらトライアル的に様々なFrameworkやツールの検証を行っています.*1 このエントリーでは, 私がシュッとPySparkで分散処理をする...前に, 手元で試したときの感想とその知見 のお話を残していきたいと思います. なお, 分散処理そのものの知見・ノウハウではなく, する前にPySparkに

          PySparkはじめました - 分散処理デビューする前にやったこと - JX通信社エンジニアブログ
        • JetBrainsが軽量なコードエディタ「Fleet」発表。エディタとバックエンドの分散処理、多言語対応、共同作業対応など

          JetBrainsが軽量なコードエディタ「Fleet」発表。エディタとバックエンドの分散処理、多言語対応、共同作業対応など プログラミング言語のKotlinや、統合開発ツールのIntelliJ IDEAなどの開発元であるJetBrainsは、同社が新規に開発した軽量なコードエディタの「Fleet」を発表しました。 JetBrains の最新プロジェクトである次世代 IDE Fleet を発表します! Fleet は IDE であり、軽量エディターでもあります。 コラボレーションとリモートワークフローに対応し、柔軟でスマートな多言語ツールです。 詳細を確認して、プレビューにご参加くださいhttps://t.co/BDrN0egxBA pic.twitter.com/DsLpjufRrx — JetBrains Japan (@jetbrainsjp) November 29, 2021 Fl

            JetBrainsが軽量なコードエディタ「Fleet」発表。エディタとバックエンドの分散処理、多言語対応、共同作業対応など
          • Kotlin開発元が軽量なコードエディタ「Fleet」発表 エディタとバックエンドの分散処理や共同作業に対応

            この記事は新野淳一氏のブログ「Publickey」に掲載された「JetBrainsが軽量なコードエディタ「Fleet」発表。エディタとバックエンドの分散処理、多言語対応、共同作業対応など」(2021年11月30日掲載)を、ITmedia NEWS編集部で一部編集し、転載したものです。 プログラミング言語の「Kotlin」や、統合開発ツール「IntelliJ IDEA」などの開発元であるJetBrainsは、同社が新規に開発した軽量なコードエディタの「Fleet」を発表しました。 Fleetは瞬時に起動する高速で軽量なコードエディタを中心に、別途実行されるIntelliJコード処理エンジンを搭載しています。 LanguageServerを用いたプロジェクトおよびコンテキスト対応のコード補完の他に、定義と使用箇所への移動コード品質チェック、クイックフィックスなどの機能を IntelliJベース

              Kotlin開発元が軽量なコードエディタ「Fleet」発表 エディタとバックエンドの分散処理や共同作業に対応
            • Kubernetesで構築する大規模時系列データのスケーラブルな分散処理

              CloudNative Days Tokyo 2023 での登壇資料です

                Kubernetesで構築する大規模時系列データのスケーラブルな分散処理
              • え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理

                Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)

                  え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
                • 並列分散処理基盤のいま~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~ - セミナープログラム - オープンソースカンファレンス2020 Online/Kyoto

                  並列分散処理基盤のいま~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~ 2020年8月28日(金) 17:15 〜 18:00 OSSベースの分散処理基盤としてApache Hadoopが誕生して10余年が経ち、大規模並列分散処理の領域において、これまでに多種多様なソフトウェアが開発されてきました。 本セッションでは、それらのソフトウェアがどのような経緯で誕生し、どのように使われるのかをお話ししつつ、近年注目を集めているデータ分析を指向したストレージレイヤSWであるDelta Lakeについてもご紹介します。

                    並列分散処理基盤のいま~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~ - セミナープログラム - オープンソースカンファレンス2020 Online/Kyoto
                  • 柔軟なKubernetes活用で分散機械学習や負荷テストも実現 LINEが開発した分散処理用RPCライブラリ

                    2021年11月10日と11日の2日間、LINE株式会社が主催するエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2021」がオンラインで開催されました。そこでMachine Learning Infrastructure Managerの大東氏が「機械学習で使っている分散処理用RPCライブラリ」というテーマで、Kubernetesでジョブを走らせる方法と、そのための便利なライブラリについて共有しました。 Kubernetesジョブ定義の例 大東哲平氏(以下、大東):こんにちは。Machine Learning Infrastructureチームの大東と言います。このセッションでは、機械学習のために開発した、RPCライブラリを紹介します。 Machine Learning室では、Kubernetesを使い、GPUやCPUのノードを必要な数だけ確保して、相互に通信する

                      柔軟なKubernetes活用で分散機械学習や負荷テストも実現 LINEが開発した分散処理用RPCライブラリ
                    • Python: PySpark でサードパーティ製のライブラリを使って分散処理する - CUBE SUGAR CONTAINER

                      今回は PySpark でサードパーティ製のライブラリを使って分散処理をする方法について。 サンプルとして、次のような状況を試した。 Apache Spark + Hadoop YARN で構築した分散処理用のクラスタを用いる サードパーティ製のライブラリとして scikit-learn を想定する scikit-learn の学習済みモデルを、あらかじめローカルで用意しておく Iris データセットと学習済みモデルを使った推論を PySpark で分散処理する 使った環境は次の通り。 $ cat /etc/redhat-release CentOS Linux release 7.6.1810 (Core) $ uname -r 3.10.0-957.21.3.el7.x86_64 $ python3 -V Python 3.6.8 $ pyspark --version Welcome

                        Python: PySpark でサードパーティ製のライブラリを使って分散処理する - CUBE SUGAR CONTAINER
                      • 並列分散処理基盤のいま 45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門(Open Source Conference 2020 Online/Kyoto 2020年8月28日 講演資料)

                        並列分散処理基盤のいま 45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門 Open Source Conference 2020 Online/Kyoto 2020年8月28日 講演資料 https://event.ospn.jp/osc2020-online-kyoto/ 株式会社NTTデータ システム技術本部 利光 宏平Read less

                          並列分散処理基盤のいま 45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門(Open Source Conference 2020 Online/Kyoto 2020年8月28日 講演資料)
                        • 分散処理を民主化するRay - Qiita

                          イントロ 日立製作所 研究開発グループの中田です。普段、エッジコンピューティングや分散システムの研究開発、またシステムアーキテクトをやっています。 公私ともにQiitaは初投稿です。 今回は、Rayを紹介します。 Rayは、分散処理を含むアプリを開発するためのライブラリおよび実行環境です。まだ日本では情報が少ないのですが、海外では有名企業や大学がこぞって活用しており、かなりホットなライブラリだと思います。今年2020年10月1日にバージョン1.0がリリースされました。また同じタイミングにRay Summitが開催され、50本程のセッションで多数の活用事例が紹介されました。 Rayは、通常の手続き型言語を容易に分散処理化できるものであり、データ分析やエッジ/IoTの分野で有用に思えるので、日本でも広まって欲しいと思っている次第です。 本記事では、そもそもここでの分散処理とは何か、から始めて、

                            分散処理を民主化するRay - Qiita
                          • 900万レコードを20秒で空間結合しちゃうGISデータの分散処理基盤「dask-geopandas」で効率よくデータ処理しよう! - Qiita

                            900万レコードを20秒で空間結合しちゃうGISデータの分散処理基盤「dask-geopandas」で効率よくデータ処理しよう!PythongeopandasDaskQiitaEngineerFesta2022dask-geopandas 初めに こちらの記事などでを紹介していきましたが、ファイルを読み込んだ後には当然、何かしらの処理を行うと思います。 GeoPandasをやるならFlatGeobufより10倍早いGeoParquetを使おう! GeoPandas(GeoDataFrame)のread/writeなら1000万レコードを10秒で読み込めるpyogrioを使って高速に行おう! 大きなデータを処理する際に、数十GB級のデータだとデータの読み込み自体を高速で完了させたとしても、空間検索に膨大な時間を要したり、そもそもデータがメモリに乗り切らず処理できないということもあるでしょう。

                              900万レコードを20秒で空間結合しちゃうGISデータの分散処理基盤「dask-geopandas」で効率よくデータ処理しよう! - Qiita
                            • Cloud Run × Event-Driven Architecture の並列分散処理によるデータ処理高速化への取り組み

                              この記事は、Magic Moment Advent Calendar 2023 5日目の記事です。 こんにちは! Magic Moment で Tech Lead をやっている Miyake です。 弊社のセールスオペレーションクラウド「Magic Moment Playbook」では、大量の営業データに対してバッチ処理を行うシーンがあります。 今回はバッチ処理の高速化について、Cloud Run と Event-Driven Architecture を活用したアーキテクチャで取り組んだときのお話をしたいと思います。 実装した背景 リアーキテクト以前では、課題が大きく2つありました。 処理速度が単純に遅い リソースの枯渇によるパフォーマンスの低下 「1. 処理速度が単純に遅い」に関しては、システムの製品価値として解決が必要なものでした。旧アーキテクチャでは対象のデータに対して1レコードず

                                Cloud Run × Event-Driven Architecture の並列分散処理によるデータ処理高速化への取り組み
                              • 公開論文から学ぶ Google のテクノロジー : パート 1:分散処理基盤(コンテナ技術)とデータセンター編 | Google Cloud 公式ブログ

                                Google Cloud のサービスは、Google が長年に渡って構築してきたグローバルネットワーク、そして、世界各地のデータセンターによって提供されています。これは、Google 検索をはじめとするさまざまな Google のサービスを支えるインフラでもあり、その上では、Google 独自の技術を活用したさまざまなミドルウェアが稼働しています。 Google Cloud で提供されるマネージドサービスの多くは、これらのミドルウェアをマルチテナント化して提供しているものであり、いわば、Google Cloud を利用することで、Google 以外の企業でも「Google のサービスを支える技術」が活用できるのです。Google Cloud を活用する開発者の中には、このような Google の技術に興味を惹かれて、Google Cloud を使い始めたという方も少なくないかも知れません。

                                  公開論文から学ぶ Google のテクノロジー : パート 1:分散処理基盤(コンテナ技術)とデータセンター編 | Google Cloud 公式ブログ
                                • Apache HadoopとSparkの違いとは? 分散処理フレームワークを基礎からわかりやすく解説!

                                  Apache HadoopとSparkの違いとは? 分散処理フレームワークを基礎からわかりやすく解説! 以前は一部の凄腕エンジニアしか実現できなかったビッグデータの分散処理。それを誰でも可能にしたのがApache Hadoop、Apache Sparkに代表される分散処理フレームワークです。ビッグデータ活用に取り組むなら、それらについて概要だけでも知っておくべきでしょう。 この記事では、そもそもの役割からHadoopとSparkの違いまで、分散処理フレームワークについて初心者でも簡単に理解できるよう解説します! “分散処理”が大量のデータ処理を可能にする データを管理・活用するためのシステムとして代表的なのがMySQL、OracleなどのRDBMS(リレーショナルデータベース管理システム)です。RDBMSは複雑なデータをリアルタイムで取り扱える半面、大量のデータ処理に際して能力が低下してし

                                    Apache HadoopとSparkの違いとは? 分散処理フレームワークを基礎からわかりやすく解説!
                                  • 公開論文から学ぶ Google のテクノロジー : パート 1:分散処理基盤(コンテナ技術)とデータセンター編 | Google Cloud 公式ブログ

                                    Google Cloud のサービスは、Google が長年に渡って構築してきたグローバルネットワーク、そして、世界各地のデータセンターによって提供されています。これは、Google 検索をはじめとするさまざまな Google のサービスを支えるインフラでもあり、その上では、Google 独自の技術を活用したさまざまなミドルウェアが稼働しています。 Google Cloud で提供されるマネージドサービスの多くは、これらのミドルウェアをマルチテナント化して提供しているものであり、いわば、Google Cloud を利用することで、Google 以外の企業でも「Google のサービスを支える技術」が活用できるのです。Google Cloud を活用する開発者の中には、このような Google の技術に興味を惹かれて、Google Cloud を使い始めたという方も少なくないかも知れません。

                                      公開論文から学ぶ Google のテクノロジー : パート 1:分散処理基盤(コンテナ技術)とデータセンター編 | Google Cloud 公式ブログ
                                    • Kafka講座2:Apache Kafkaの分散処理のしくみ

                                      Kafka講座2:Apache Kafkaの分散処理のしくみ NTTデータ システム技術本部 デジタル技術部 佐々木 徹 【本映像の前に、ぜひこちらをご覧ください】 「Kafka講座1:15分でわかる Apache Kafka の概要」 https://www.youtube.com/watch?v=84DAkzetyRk

                                        Kafka講座2:Apache Kafkaの分散処理のしくみ
                                      • ADHD私見 並行分散処理の不安定な脳 | 意味不明なヒトビト

                                        (以下は私の一当事者としての私見であり、学問的な見解ではないことをご理解願います) ADHDの本質は、脳の働きの質が異なることである。 私の最近の考えは、「数多くのプログラムが並行分散処理で複数同時に動き続けている」という状態であると考える。 一般的な思考が、「ひとつのプログラムを開始し、それが終わると終了として次のプログラムを」という形であるとすれば、 そういうプロセスが同時進行で並行して回り続けていると考える。 これ自体は、よく言われる男性と女性の脳の違いと比較すると、 一見すると女性型の、「話をしながらテレビを見たり作業をしたり」というタイプと共通するように見えるが、 女性型の場合には、それぞれの働きは独立し、言わば脳の別々の部分で一つ一つのプログラムを回しているということになり、かなり異なる。 むしろ 女性型の融通性とは逆に、男性型の強く集中するようなプロセスが、複数同じ場所で動い

                                          ADHD私見 並行分散処理の不安定な脳 | 意味不明なヒトビト
                                        • 大規模データを上手に分散処理するには MLの独自ライブラリ開発から見たポイント

                                          ghee-modelsの紹介 張洪偉氏:洪偉です。パート2でモデル管理するためのghee-modelsを紹介いたします。アジェンダとしてghee-modelsとghee-modelsの事例、表現学習でgraph convolutional networksの応用について紹介いたします。 まずghee-modelsを紹介いたします。ghee-modelsはgheeに基づくマシンラーニングモデルのコレクションを提供するライブラリです。MLFlowを導入することにより、チーム向けモデルを管理する標準な方法を提供いたします。 ghee-modelsの特徴は3つあります。まずMLFlowでモデルとモデルパラメータを一元管理することで再現性が高いです。次に抽象度の高いAPIを提供することで再利用しやすいです。最後はマシンラーニングタスクとデータフォーマットにより前処理、後処理、トレーニングのプロセスな

                                            大規模データを上手に分散処理するには MLの独自ライブラリ開発から見たポイント
                                          • 並列分散処理基盤のいま ~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~(Open Source Conference 2021 Online/Hokkaido 発表資料)

                                            並列分散処理基盤のいま ~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~ (Open Source Conference 2021 Online/Hokkaido 発表資料) 2021年6月26日 NTTデータ 技術革新統括本部 システム技術本部 デジタル技術部 インテグレーション技術担当 吉田 貴哉Read less

                                              並列分散処理基盤のいま ~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~(Open Source Conference 2021 Online/Hokkaido 発表資料)
                                            • Apache HadoopとSparkの違いとは? 分散処理フレームワークを基礎からわかりやすく解説!

                                              Apache HadoopとSparkの違いとは? 分散処理フレームワークを基礎からわかりやすく解説! Hadoopは処理能力の拡張性・安定性が高い Hadoopは米Yahoo!社に所属していたDoug Cutting氏を中心として2006年に開発された分散処理フレームワークです。2004年Googleが論文にて発表した独自の分散処理フレームワークMapReduceをもとに生み出されました。ちなみに名前の由来はDoug氏の息子が持っていたゾウの人形です。 Hadoopのメリットはまずサーバーの台数に比例して処理能力を高められる、いわゆるスケールアウトが可能だということ。Web上のビッグデータはどんどん増え続けます。そんなときHadoopを実装していればコストを押さえつつ対応し続けられるのです。 また、安定性が高いのも魅力のひとつ。どこか一つのサーバーで障害が起こってもほかのサーバーが対応す

                                                Apache HadoopとSparkの違いとは? 分散処理フレームワークを基礎からわかりやすく解説!
                                              • 大規模な計算を多数のスマートフォンで分散処理─CTCと東京工科大が商用化を目指して研究 | IT Leaders

                                                IT Leaders トップ > テクノロジー一覧 > 開発ツール/プラットフォーム > 市場動向 > 大規模な計算を多数のスマートフォンで分散処理─CTCと東京工科大が商用化を目指して研究 開発ツール/プラットフォーム 開発ツール/プラットフォーム記事一覧へ [市場動向] 大規模な計算を多数のスマートフォンで分散処理─CTCと東京工科大が商用化を目指して研究 2021年10月6日(水)日川 佳三(IT Leaders編集部) リスト 伊藤忠テクノソリューションズ(CTC)と東京工科大学は2021年10月6日、ネットワークに接続した多数のスマートフォンを用いて大規模な計算処理を並列分散する手法の共同研究を開始したと発表した。東京工科大学が高性能なコンピュータに関する知見から手法を開発し有用性を評価する。CTCが同研究に協力しながら商用化や適用範囲拡大などの検討を進める。共同研究期間は同年7

                                                  大規模な計算を多数のスマートフォンで分散処理─CTCと東京工科大が商用化を目指して研究 | IT Leaders
                                                • 分散処理OSSへのコントリビューション in 2023 - おくみん公式ブログ

                                                  Contributions to Apache Hive 2023年に取り組んだ分散処理OSSに対する貢献のまとめです。今年はApache Hiveのコミュニティが活性化したのでHiveやTezに対する貢献が多めです。 この記事は『Distributed computing (Apache Spark, Hadoop, Kafka, ...)のカレンダー | Advent Calendar 2023 - Qiita』24日目として執筆しました。若干遅れて申し訳ございません。 データ不整合の解消 ネストしたCTEをマテリアライズするとデータが消失する問題 LIMIT OFFSET Pushdownのバグ修正 パフォーマンス改善 Auto Reduce Parallelismの改善 Fair Routingの開発 ジェネリックなAM or TaskレベルのフックをTezに追加 UDTFの出力に

                                                    分散処理OSSへのコントリビューション in 2023 - おくみん公式ブログ
                                                  1