長崎大学 情報データ科学部

学術情報 詳細Academic Information

2022年07月11日
異常な値を考慮した欠測データの新たな代入法の提案(統計学の新知見)

 本学部の高橋将宜准教授は,検出すべき外れ値(異常な値)の個数を自動判定しながら欠測データ(観測されないデータ)を安定して処理できる新たな手法を提案しました。本研究で得られた成果は,統計学の専門誌「Japanese Journal of Statistics and Data Science (Springer)」(Web of Science収録誌;Scopus収録誌)に掲載されました。

 

■研究の背景
 経済データは調査票によって収集されることが多く,無回答のために観測されない欠測が発生することが多くあります。さらに,経済センサス‐活動調査のような公的経済統計は,中小企業から大企業まで多様な規模の企業を調査対象としているため,経済データの分布は右に裾が長く,ばらつきが均一でなく,多数のデータと異なる外れ値の考慮が必要です。そこで,総務省・経済産業省の実施している平成28年経済センサス‐活動調査では,繰返し加重最小二乗法(iterative reweighted least squares)と呼ばれる外れ値に強い手法を比率代入法(ratio imputation)に応用することで,欠測データの処理が行われました。しかしながら,この手法で対応できる外れ値は,図1Aと図1Bのパターンのみであるため,かなり限定的な場面でしか有効でありませんでした。

 

■研究成果の意義
 今回の研究で提案した手法を使用することで,図1Aから図1Fまでのすべてのパターンに対応して欠測値を安定的に処理できることがわかりました。総務省・経済産業省の令和3年経済センサス‐活動調査においても,繰返し加重最小二乗法を応用した比率代入法によって欠測値の処理が行われることとなっていますが,今後,今回の研究で新たに提案した手法を活用すれば,経済センサス‐活動調査をはじめとする各種の公的経済統計の調査の信頼性を向上させることができると期待されます。とりわけ,経済センサスは国内総生産(GDP)を推計するための基礎統計であることから,この調査の信頼性を向上することはあらゆる経済活動の観点からも大変に有意義です。

 

■ポイント
  • Cookの距離という外れ値の検出方法を比率代入法モデルに応用することで,図1Aから図1Fまでのすべてのパターンの外れ値に頑健な欠測データの代入処理が実行可能である。
  • 決定係数の特性を利用して,検出すべき外れ値の個数を自動判定できる方法を提案したことで,すべての作業を自動化できる。
  • 合計で354パターンのさまざまな状況設定において1万回ずつのモンテカルロ・シミュレーションを実行したところ,外れ値に強い複数の手法よりも優れた性能を発揮することがわかった。

 

図1:さまざまな外れ値のパターン(◯:通常の観測値,:外れ値)

■論文情報
論文タイトル:A New Robust Ratio Estimator by Modified Cook’s Distance for Missing Data Imputation
掲載誌:Japanese Journal of Statistics and Data Science (Springer)
閲覧用URL: https://rdcu.be/cQ8C8(このリンクから論文を閲覧できます)
DOI:https://doi.org/10.1007/s42081-022-00164-0(書誌情報はこちらから確認できます)

トップへ