最小全域木の辺長の平均と標準偏差による二変数間の関係性評価手法
Nonlinear data mining using minimum spanning tree

2016年08月15日

乱数(一様分布),二次曲線,円と線など,Pearsonの積率相関係数がほぼ0になるデータ The Pearson product-moment correlation coefficient of two-dimensional uniform distribution data, quadratic curve shaped data, and circle with line shaped data are almost zero.
乱数(一様分布),二次曲線,円と線など,Pearsonの積率相関係数がほぼ0になるデータ
The Pearson product-moment correlation coefficient of two-dimensional uniform distribution data, quadratic curve shaped data, and circle with line shaped data are almost zero.
関数に従うデータに対して人間は線で繋がりそうだと感じる We often consider the point plotted by some functions are connected by line. 関数に従うデータに対して人間は線で繋がりそうだと感じる
We often consider the point plotted by some functions are connected by line.

近年,大量のデータを用いた解析は広く行われており,多種多様なデータを解析する機会は増加の一途をたどっている.データの解析を行うにあたり,複数変数間に存在する関係性を定量的に評価するための指標が重要となる.複数変数間に存在する関係性を求める方式として, Pearson の積率相関係数が一般的であるが,二次曲線のデータに対して相関はないと判断されるなど,不完全であることもよく知られている.そこで我々は人間の認知に用いられる「近接性」に着想を得て,人間の認知に似た処理で知られている最小全域木を用いた手法を提案する.データを座標に描画した点の最小全域木を構成する辺長の総和が,複数変数間の関係性に応じて変化することを用い様々な関係を見出すことに成功している.

最小全域木の辺長の総和は関係がある場合に短くなり,ノイズを与えると徐々に長くなることから,最小全域木の辺長の総和の短さを関係の強さとした.この手法により,関数の形を仮定することなく,指数関数や正弦関数などの関係に対しても関係性を評価可能である.

【参考文献】

奥谷文徳,川原圭博,浅見徹,“最小全域木の辺長の平均と標準偏差による二変数間の関係性評価手法,”電子情報通信学会技術研究報告 (CAS).

奥谷文徳,川原圭博,浅見徹,“最小全域木の枝長の総和による複数変数間の関係性の評価手法 (A-12. システム数理と応用,一般セッション),”電子情報通信学会ソサイエティ大会講演論文集,vol.2015.

奥谷文徳,川原圭博,浅見徹,“ビッグデータの変数間の関係性概評を目指した無作為抽出データに基づく最小全域木の辺長総和法 (A-10. システム数理と応用,一般セッション),”電子情報通信学会ソサイエティ大会講演論文集,vol.2016. (To appear)