【無料】プライバシー保護型データ生成のフレームワーク提案:PEARL
論文解説
PEARL: Data Synthesis via Private Embeddings and Adversarial Reconstruction Learning
和訳:プライバシー保護型データ生成のフレームワーク提案:PEARL
論文リンク:https://openreview.net/forum?id=M6M8BEmd6dq
著者:Seng Pei Liew, Tsubasa Takahashi, Michihiko Ueno
1. 本研究の可能性
GANの生成モデルを用いる時にプライバシーを確保するフレームワークを説いています。とくに、医療情報や市民情報を用いてモデルを生成するときに個人を特定するようなことがあってはいけません。そこで、出力の精度に影響しない程度にノイズを添加することによって個人の特定を防ぐ取り組みがDifferential Privacyです。添加の手法が議論されている中で、本論文の手法は訓練回数に制限なくかつ訓練データを再利用が不要です。ゆえに、センシティブな情報を扱うときのコスト削減を見込めます。
2. 論文概要
本論文では、深層生成モデルを用いてデータを合成するための新しいフレームワークを提案します。本フレームワークでは、機密データを厳密なプライバシー保証のもとにワンショットでサニタイズし、元のデータを再利用することなく深い生成モデルの学習を可能にするものです。そのため、一般的な勾配型サニタイジング手法とは異なり、余分なプライバシーコストやモデル制約が発生しません。ここでは、特性関数と敵対的な再重み付け目的を利用することで、フレームワークが実現できることを実証します。本提案は理論的に性能が保証されている上、複数のデータセットに対する実証評価では、許容可能のプライバシーレベルにおいて他の手法より性能が優れていることが示されました。
3. 本研究のツボ
- なぜ学習モデルの個人情報を考慮すべきか
- GANを含めた生成モデルは訓練時に、外部の情報を参照し、モデル中の特有のパターンに着目することで個人を特定できでしまう懸念があります
➡︎ たとえ、匿名化してもモデルの公開を控える必要があります
- GANの特徴として、データを高精度に生成可能です。しかし、モデルを作る過程がブラックボックスになっているため、条件によっては学習セットの個人情報を返してしまう恐れがあります。
➡︎ 医療情報をGANに用いるのはリスクをはらみます
- GANで安全に個人情報を扱うためにDifferential Privacy(DP)が考案されています
- DPは、敵対者が入力データ中のあるレコードが存在するか否かを効果的に推測できないことを保証し、モデルの学習に用いるサンプルに厳格なプライバシー保証を提供します。
■DPに関する補助説明
- アルゴリズムの出力分布が、個人情報の有無によって大きく変化しないことを保証します。敵対者は出力を観察することで個人を知ることができないため、プライバシーが保護されます。GANの文脈ではいうと、学習サンプルを追加・削除しても、データ分布を正確に学習できることが期待されます。
- DPとは統計的なプライバシー基準の一種であり、プライバシーパラメータεが小さいほど理論的にプライバシーが保証されていることを表します。
■既存手法の問題点
学習におけるイテレーション*(反復学習)のたび、劣化した情報が入力されることになり、それによってモデルの出力の精度が低下してしまいます。
(注釈)訓練データを複数のサブセットに分割した時に1つのサブセットの学習ごとにパラメータの更新がされます。訓練データ全体を通してパラメータを何回更新するかをイテレーションと呼びます。
4. 本研究の新規性
DPを保証しながら生成モデルを学習するフレームワーク「PEARL」(Private Embeddings and Adversarial Reconstruction Learning)を提案しています。従来の差分プライバシーを保証する深層学習では、訓練の度にデータへ繰り返しアクセスが必要な一方で、差分プライバシーの制約から訓練回数に制限があり、生成モデルを十分に訓練できませんでした。従来手法とは異なり、本フレームワークでは、機密データの特徴を抽出したembedding vector(特徴量の埋め込みベクトル)を差分プライバシーが保証された形で事前に構築し、元のデータを再利用することなくembedding vectorだけを利用して深層生成モデルの学習が可能であるため、訓練回数に制限がありません。
本フレームワークは、特性関数によるembedding vectorと敵対的な再重み付けによる目的関数を導入することで実現されました。評価実験においては、を複数のデータセットを用いて、プライバシー保護において他の手法より性能が優れていることが示されました。
■実験手法
PEARLの性能を、以下の3つのデータセット用いて評価しました。
- MNIST (LeCun et al. ,2010)
- Fashion-MNIST (Xiao et al. ,2017)
- Adult (Asuncion & Newman ,2007)
モデルを、ミニマックス法を用いて訓練しています。
■性能評価
性能評価の結果は図1と図2に示されています。
図1により、提案手法の方が、既存手法よりも、本物に近い画像の生成を実現しており、性能が優れていることを示しています。
図2により、提案手法(緑棒)によって生成されたデータの方が、既存手法(橙棒)よりも実データ(青棒)に近い傾向にあり、性能が優れていることを示しています。
図1 妥当なプライバシーレベルにおける画像生成での提案手法と既存手法の比較
図2 妥当なプライバシーレベルにおけるデータ生成での提案手法と既存手法の比較
■あとがき
本研究は個人情報とAIについて論じられているもので、旬といえる話題になります。特に昨今、企業や公共団体に情報流出が珍しくないこの世の中において、個人情報をコストをかけて管理していました。ここで一石を投じているのがあえて個人情報を保管しない手法です。この手法の画期的なところは個人情報の管理のコストが発生しないことと情報漏洩リスクの最小化です。さらに、今まで厳格な管理が必要だった医療や金融といった分野にも新しいサービスを展開しやすくなります。
今後はますます、この個人情報を手元に置かない考え方が広まっていくと思われます。