[B! graph] [7ページ] sh19910711のブックマーク

ページランクと被リンク数 - データサイエンティストのひよこ

ページランクとはページランク（PageRank）とは、Google検索エンジンで利用されているWebサイトの評価指数のことである。評価方法やそのビジネス利用において、Google創業者であるセルゲイ・ブリン、ラリー・ページが大学院在学中に開発したものであって、Googleの基幹技術であることは間違いない。ページランクは、より重要なウェブページからリンクされているウェブページほど重要であるという、再帰的な定義のもとに、ウェブページの重要度が評価されている。ページランクによって、個々のWEBサイトの重要度が指標化され、検索結果の順位に関わってくる。一見すると、どのようなウェブページが重要と判断されているのかが見えにくいこの定義だが、Google検索エンジンにおけるSEOにおいて、その攻略は必要不可欠となってくる。ページランクを高める方法というものが知られていて、その一つが、被リンク数をとに

sh19910711 2021/09/04

"ページランク: 拡散方程式を解いていただけの物理のモデルをネットワーク上の拡散モデルとして拡張 / 単純なランダムウォークでもネットワーク構造が変わると、その再帰性や再帰時間といった統計的性質が変わる"

リンク

複雑ネットワークの基本 - 名前はまだない

はじめにネットワーク分析に興味をもち過去にこちらの書籍を読み、ネットワーク分析第2版 (Rで学ぶデータサイエンス) 作者:努, 鈴木発売日: 2017/05/24メディア: 単行本以下のような記事を書いていました。 qiita.com qiita.com 複雑ネットワークについてだけ勉強していなかったので、書籍の続きを読みまとめます。コードの詳細等は書籍を確認してください。複雑ネットワークとは複雑ネットワークとは、現実世界に存在する巨大で複雑なネットワークの性質について研究する学問です。例えば、WEBサイトのリンク構造やSNSでのフォロー関係などのネットワーク構造について着目するような取り組みが挙げられます。複雑ネットワークでは各頂点の指標について議論することは少なく、ネットワーク全体の構造を捉えるための指標はよく用いられると考えています。ここでは代表的な指標をあげます

sh19910711 2021/08/29

"複雑ネットワークでは各頂点の指標について議論することは少なくネットワーク全体の構造を捉える / Watts-Strogatzモデル: スモールワールド性をうまく表現 / 次数相関: 次数の大きさが同じようなもの同士が結びつきやすい"

リンク

次数中心性からPageRankからまた次数中心性 - でかいチーズをベーグルする

ノードの中心性はネットワーク分析をする上でとても重要です。例えば、TwitterやFacebookでは中心性の大きい人は他の人に対して大きな影響を与えると考えられますし、Webで中心性の大きいページは重要な情報を含むページであると考えることができます。今読んでるNetworksという本で結構ページを割いて説明されていたので簡単にまとめたいと思います。 Networks: An Introduction 作者: M. E. J. Newman出版社/メーカー: Oxford Univ Pr (Txt)発売日: 2010/05/20メディア: ハードカバー購入: 1人クリック: 19回この商品を含むブログを見る次数中心性（Degree centrality）一番単純な中心性は次数中心性です。これはホントに単純で、あるノードの次数中心性＝そのノードの次数です。単純すぎてあんまり良くな

sh19910711 2021/08/29

"固有ベクトル中心性: 自分に対してエッジを張っているノードがどれだけの中心性を持っているかということを考慮 / Networksの本には他にも近接中心性とか、媒介中心性とかも書いてありました"

リンク

Gephi,Rを用いた邦楽有名アーティストの歌詞類似度可視化 - メモ帳

概要日本で最も売れた邦楽アーティストの歌詞を対象に、頻出単語をランク付けしました。また、アーティスト間の類似度を求め、可視化してみました。対象アーティスト CD総売上Top100邦楽アーティスト(2011年) http://chanz.jp/open_data/top_artist 主要アーティスト700超(2015年) http://chanz.jp/open_data/artist 検証動機売れているアーティストの歌詞の特徴を知りたい歌詞の類似度が高いアーティストを知りたいデータ収集・類似度評価アーティストの歌詞から名詞を形態素解析ツールMeCabにより抽出し、データベースに保存 http://chanz.jp/nitoru/artist.php?name=Mr.Children ここで保存したデータを参照できます(例：Mr.Children) 各アーティスト間において、名

sh19910711 2021/08/27

"邦楽アーティストの歌詞を対象に、頻出単語をランク付け / コサイン類似度の上位0.1%のアーティスト間に辺を張りGephiにより出力 / 感覚を定量化して可視化するのはやっぱり面白い"

リンク

Apache Spark 2.4 and 3.0 What's Next?

■Data Engineering Meetup #1 (2019/03/19) 発表資料 Apache Spark 2.4 and 3.0 - What's Next? - NTTデータ技術開発本部猿田浩輔

sh19910711 2021/08/25

"Spark GraphはGraphXやGraph Frameの課題を解決する新しいグラフ処理ライブラリ / Cypherによるグラフマッチングが可能 / マッチしたエッジやノードだけでなく、付与された属性もDataFrameとして返却可能"

リンク

DeepWalking Backwards:�From Embeddings Back to Graphs

sh19910711 2021/08/19

"NetMF (DeepWalk) の逆変換 / NetMF: DeepWalk 系アルゴリズムを行列因子分解の形で解釈 / どんな情報を保存しているのか埋め込みを再度グラフに戻すことで確認 / コミュニティの情報が再構成後も保持されている"

リンク

http://i.stanford.edu/~jure/pub/talks2/graphsage-ieee_bigdata-dec17a.pdf

sh19910711 2021/08/09

node2vecとGraphSAGEの解説スライド / "Graph Representation Learning - Jure Leskovec / Predicting multicellular function through multi-layer tissue networks. M. Zitnik, J. Leskovec"

リンク

グラフの中心でAIを叫んだノード(なおAIは出ない) 〜あるいはnode2vecに至るグラフ理論〜 - Pseudo Theory of Everything

1 イントロダクション本記事を読む前に、本章を読んでください。書いていくごとに、とにかくボリュームが多くなりました。本章では「グラフとは何か?」と「本記事で扱うこと・扱わないこと」をまとめています。非常にボリューミーなので、自身の必要な知識・不要な知識を取捨選択して読んでいただくことをお勧めします。 1.1 そもそもグラフ理論とはまず第一に、グラフ理論は図示とは全く別のものです。恥ずかしながら、ある勉強会でグラフ理論のタイトルで話す登壇者の方がいて「より良い図示の方法をまとめたトークかなにかかな。」と思っていました(無事、話を聞いて「あぁ、そっちね。」となりました)。本ブログの著者ふたりとも物理出身の門外漢故広い心で見守ってくれればと思います。グラフ理論とは相互に関係し合うネットワークを数学的に扱う一学問です。下記のようなシンプルなグラフネットワークの例を考えます。例えば

sh19910711 2021/08/07

リンク

node2vecの論文紹介 - GMOインターネットグループグループ研究開発本部

こんにちは次世代システム研究室のJK（男）です。最近グラフデータに興味を持ちつつあるので、今回は気になった論文の簡単な紹介をします。紹介する論文はnode2vecです。グラフデータとは、ノード（頂点）とノード間の連結関係を表すエッジ（枝）で構成されるデータ構造のことです。エッジに重み（どのくらい強く結びついているか）の情報が付加される場合もあります。たとえば、Facebookのユーザー（ノード）とユーザー間の友達関係（エッジ）をつなげていくと、巨大なグラフができますね。あとよく言われるのは、空港（ノード）とその間をつなぐ航路（エッジ）とか。ハブ空港という単語を聞くこともあると思いますが、たくさんのエッジを持っている空港と解釈できます（＝多くの空港からの発着便がある）。グローバル化・IT化による物理空間・デジタル空間でのつながりが広がるなか、グラフデータの理解はこれからますます重要になって

sh19910711 2021/08/07

リンク

疎行列の表現方法その1 Matrix Market - xxxxxeeeeeのブログ

現在疎行列ベクトル積のプログラムを書く途中なので、よく使われる疎行列の表現形式の一つである（らしい）Matrix Market形式(略してMMらしい)のリファレンス*1を参照しつつ適当に翻訳っぽいものをしてみる。 Introduction 疎行列の座標形式(Coordinate Format) 行列の座標形式は非ゼロ成分だけを座標を明示的に示しつつ列挙するもので、疎行列の表現に適している。下に一般の実疎行列の例をあげる。これをMM座標形式では次のように表す。 %%MatrixMarket matrix coordinate real general % A 5x5 sparse matrix with 8 nonzeros 5 5 8 1 1 1.0 2 2 10.5 4 2 250.5 3 3 0.015 1 4 6.0 4 4 -280.0 4 5 33.32 5 5 12.0 最初

sh19910711 2021/08/07

"よく使われる疎行列の表現形式の一つである（らしい）Matrix Market形式(略してMMらしい) / 行は3つの整数からなり、それぞれ行数、列数、非ゼロ要素数を示す"

*data
graph

リンク

GitHub - aws/graph-notebook: Library extending Jupyter notebooks to integrate with Apache TinkerPop, openCypher, and RDF SPARQL.

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

sh19910711 2021/07/31

"The graph notebook provides an easy way to interact with graph databases using Jupyter notebooks. Using this open-source Python package, you can connect to any graph database that supports the Apache TinkerPop, openCypher or the RDF SPARQL graph models."

*data
graph

リンク

Amazon Neptune MLの一般提供が開始。エッジ予測、オートメーションなどをサポート

グラフニューラルネットワーク（GNN）を使用するグラフの機械学習機能であるAmazon Neptune MLは、Amazon Neptuneが利用できるすべてのリージョンで一般利用できるようになりました。Neptune MLは、AWSが提供するオープンソースライブラリであるディープグラフライブラリ（DGL）を使用して、グラフデータに最適なMLモデルを選択してトレーニングするという困難な作業を自動化します。Neptune ML を使用すれば、グラフ以外の方法を使用して予測を行う場合と比べて、グラフのほとんどの予測精度を 50% 以上向上させることができます。製品レコメンデーション、ナリッジグラフ、カストマー360、不正検出などのグラフィックアプリケーションは、新しい頂点やエッジの予測ラベルを使用して、深いインサイトを提供することができます。お客様は、Neptune MLを使用し、分類と回帰

sh19910711 2021/07/31

SageMakerをバックエンドにGNNを実行できるっぽい / "Using the Deep Graph Library (DGL), an open-source library to which AWS contributes, Neptune ML automates the heavy lifting of selecting and training the best ML model for graph data."

リンク

【ネットワークの統計解析】第8回事例紹介「Uber における GNN の活用」 - Sansan Tech Blog

こんにちは． DSOC 研究開発部の黒木裕鷹です．夏の訪れを感じつつある最近ですが，ランニングをはじめました．形から入ろうと思い，かっちょいいシューズとウェアを揃えたのですが，なんとか1週間は続いており気分が良いです．まだまだ2, 30分走るだけでバテバテになってしまいますが，いずれは健康大魔神になろうと思っています．さて，この連載では，自分の勉強・復習も兼ねて，ネットワークデータにまつわる（統計）解析を気の向くままに紹介しています．前回の記事では，グラフラプラシアン・グラフフーリエ変換について簡単におさらいしました．あまり理論やモデルの紹介ばかりが続いても面白くないので，今回の記事ではビジネス応用の事例紹介をしたいと思います．具体的には，Uber における GNN の適用事例を2つほど取り上げることにしました．私たちの生活にもすっかり浸透した Uber や UberEat

sh19910711 2021/07/22

"GraphSAGE (Hamilton et al., 2018): サンプリングと集約に付随する係数を学習するため，ノードの出現や消失といった変化に対応できる"

リンク

Graph Neural Network を用いたグラフの木幅予測 - Preferred Networks Research & Development

本記事は、2019年夏のインターンシップに参加された中野裕太さんによる寄稿です。皆様はじめまして。2019 年 PFN 夏季インターンシップに参加していた北海道大学の中野裕太です。本ブログでは、私が夏季インターンで取り組んだテーマである、「Graph Neural Network を用いたグラフの木幅予測」について説明します。要旨与えられた無向グラフがどれくらい木に近いかを表す値である木幅は、グラフ上の組み合わせ最適化問題に対するアルゴリズムの効率性や解そのものと深く関係しています。しかし、木幅を計算することは NP 困難なため、木幅を計算するには頂点数に対し指数時間かかってしまいます。そこで、今回 Graph Neural Network を用いた 2 つの方法でこの問題にアプローチしました。1 つ目は、よく知られた既存のアルゴリズムと組み合わせ探索木の枝刈りを行い高速化を図り計算

sh19910711 2021/07/21

"木幅: ある無向グラフに対し定義されるグラフ不変量の一つであり、大雑把にいうとグラフがどれくらい木に近いかを表す値 / グラフ上の組み合わせ最適化問題に対するアルゴリズムの効率性や解そのものと深く関係"

リンク

カレンダーにおける予定の圧縮表現 - Tadachika Oki の日記

ふと、カレンダーを眺めていると、「これは表なので、 2 部グラフで表現できるのではないか。」と思って書いてみた。カレンダーを観察すると、列が曜日、行が第何週かを表すので、これをなるべく簡潔に表現したい。 2 部グラフの頂点集合の分割の一方を、第何週かを表す数の集合、もう一方を曜日の集合とすると、辺の存在で予定があることを表現できる。ここで、辺に日のラベルをつける。この表現により、第何週の何曜日、何日にどのような予定があるか圧縮して表現できる。上記の例の場合、予定 A が第 2 週の 7 日にあり、予定 B が第 5 週の 25 日にあることがわかる。

sh19910711 2021/07/17

"カレンダーを眺めていると、「これは表なので、 2 部グラフで表現できるのではないか。」と思って書いてみた"

リンク

良いnode embeddingとは？ / How to evaluate node embeddings

■イベント  ：ML勉強会 https://sansan.connpass.com/event/211420/ ■登壇概要タイトル：良いnode embeddingとは？発表者：  DSOC R&D研究員　大垣翔 ▼Twitter https://twitter.com/SansanRandD

sh19910711 2021/07/10

"辺の情報がうまく反映されている / 離散データの取り扱いは難しい => 頂点を連続の世界で取り扱える / metric embedding"

リンク

Neo4j configurations on Docker - Qiita

みなさんはneo4jをどの環境で使ってますか？私はdockerでよく使ってます。docker上でneo4jを動かす際の備忘録を兼ねて。間違いなどありましたら指摘していただけると幸いです。 ※ dockerの使い方の説明などは省略しています。 Neo4jリポジトリ DockerHub GitHub まずは実行してブラウザでアクセスするブラウザから以下にアクセスすれば起動していることが確認できます。 http://<Docker Host>:7474 設定を変更して起動する docker imageのdocker-entrypoint.shを見るとわかる通り、neo4j.confの設定キーにNEO4J_というPrefixをつけ、.を_、_を__として環境変数に渡すことで、neo4j.confに設定値を追加していることが確認できます。

sh19910711 2021/07/07

EXTENSION_SCRIPT

*data
graph

リンク

Neo4jの大量データインポート 2020 #neo4j - クリエーションライン株式会社

LOAD CSVの使用法 [参考] https://neo4j.com/docs/cypher-manual/current/clauses/load-csv/#query-load-csv LOAD CSVは2種類の実行方法があります。 Neo4jブラウザーからの実行 cypher-shellからの実行（neo4j-shellはcypher-shellに統合）。 CSVファイルのフォーマット LOAD CSV で規定しているCSVファイルのフォーマットは、次のとおりです。 UTF-8 改行は\n(Linux)/\r\n(windows) デフォルトのデリミタ―はコンマ(,)です任意のデリミタ―も利用可能です。例えば、「IELDTERMINATOR ';'」のように定義できます文字列はダブルクォテーション("string")で囲むのが原則です。例えば、数字を文字として扱う場合や文字列に

sh19910711 2021/07/05

neo4j-admin memrec / "該当マシンのリソースをチェックし、初期値を割り出してくれます"

*data
graph

リンク

逆引きCypher

cypher.md 逆引きCypher 特に断りがない限り、環境はOSX、neo4jは3.4.5を参照。メンテナンス系ユーザーパスワードの変更 REST APIの/user/<user name>/passwordに対してPOSTする。 curl -H "Content-Type: application/json" -XPOST -d '{"password":"new_password"}' -u your_name:old_password http://localhost:7474/user/your_name/password CALLで呼べる関数を調べる CALL dbms.procedures() CLIからプラグインを追加する neo4jがインストールされている場所のpluginsディレクトリにjarファイルを配置してneo4jサーバーをリスタートする。 brewからイ