「SecureOWL」は2022年4月1日付で、 京セラコミュニケーションシステム株式会社(KCCS)から エムオーテックス株式会社(MOTEX)へ事業統合されました。

AI製品の運用・開発における、セキュリティ上の課題および未来のセキュリティ技術の紹介 クラウドセキュリティニュース

2022年1月12日

AIとセキュリティ

1.AI製品の飛躍と課題
近年、深層学習の高い信頼性に基づいたさまざまなAI製品が現れています。有名なものからするとGoogleの検索や、Youtube・Netflixの動画推奨などがあり、これらは、ユーザーのサービス利用時間を増やすため、AIの仕組みをサービスに積極的に組み込み、活用しています。これらのサービスの成功的なAIの導入につれ、さまざまな会社がAIを活用したAI製品を開発、展開しています。

ところで、AI製品を開発するということは、膨大なデータを扱うことになる傾向があります。その理由は、多く開発されているAI製品のほとんどが、機械学習を用いて学習するからです。機械学習は統計的にデータを学習するため、良質のデータが多ければ多いほど、いい性能のモデルを作る可能性が高まります。AI製品は、ひとに関連するサービスを提供する場合が多いです。そのため、そういったAI製品を開発するために用いるデータというものは、ひとの顔写真や、対話記録、音声記録など、いわゆる個人情報のデータが多く、セキュリティ上のリスクがあります。

2.AI製品が情報漏えいに脆弱な理由
使用記録を含む、製品を利用するユーザー情報は、サービス・プロバイダーのデータベースに暗号化して保存しているため、漏えい対策が施されていることが一般的です(暗号化していないサービス・プロバイダーも少なくありません)。データベースに暗号化されたデータは必要なときだけ、持ち出され、利用され、消されます。場合にもよりますが、多くの場合は、ストレージにコピーされることなく、メモリー上で完結します。

しかし、AI製品の場合、学習を行うときはデータをストレージに配置し、学習をすることが一般的です。データベースのデータを利用して学習するシステムを図にすると、以下になります。

この図は、普段はデータベースに暗号化されたデータを配置し、学習をさせるときだけ利用するAI製品のシステムのデータ処理を簡単に表したものです。

暗号化されたままでは、計算を行うことができません。そのため、AI製品は、学習や推測を行うとき、暗号文を一時的に復号して利用します。

学習の場合、機械学習に用いられるデータセットはメモリーを使って扱えるほど、小さくないため、ストレージに一度データを配置する必要があります。データの種類によっては、一回の学習に一週間を超えることもあり、学習がうまくいかない場合や、モデルの改善などで数十回から数千回まで、学習を繰り返さなければなりません。

機械学習では、解決したいタスクが時間の流れにつれ、常に変化するものであれば、定期的に再学習を行うことで、高い精度を維持し続けます。つまり、図で示している処理を定期的に行うことになり、その度、暗号化されたはずのデータが長時間、平文状態として存在してしまいます。これが問題になります。

3.クラウド環境ベースのAI製品
コスト節約の観点でAI開発をクラウドの環境で行うことも一般的に行われています。一般的にAI開発は高性能のGPUを複数個が必要となります。高性能なGPUの価格を考えると、使うときだけ、GPUを借りることができるクラウドを利用した方が、ずっと低コストだからです。しかし、クラウドコンピューティングや、クラウドストレージのセキュリティ弱点とよく挙げられる、今利用中のリソースがどのタイミングで、どのように削除管理されているががわかりにくいという問題を考えると、一次的にデータをストレージに配置する行為はより危険となります。

4.対策の方向性
上述したAI製品における情報漏れのリスクは、あくまでもデータを活用するためには、復号させなければならないという限界から起因します。しかし、最近は秘密計算という技術が活発に研究されており、暗号化されたデータを復号化せず、計算することが可能となっています。つまり、暗号化されたままのデータにおいて、AIが学習を行えるようになります。

秘密計算

1.秘密計算の実用化が見えてきた
秘密計算という言葉を初めて聞いた人は多くないと思いますが、きっと、これから皆さまは高い確率で、秘密計算を経験するようになります。

皆さまは出勤時や、コンビニで支払いをするとき、交通カードで支払いしたことがありますか?実は、最近、Suicaがこの秘密計算の検証を行っています。データの分析に秘密計算を行うことで、セキュリティレベルを向上させ、サーバーをまたがない仕様で高速化させるという計画です。

2.秘密計算の仕組み
一般的に秘密計算は、同型暗号を計算することを意味します。同型暗号は同型写像を用いる暗号形式のことをいいます。

写像という言葉をよく分からない方もいらっしゃると思いますが、本当に簡単にいうと(非常に誤った説明ですが)関数みたいなものだと理解していただければ、このコラムを読むときに不便なことはないと思います。

準同型写像は一般的に以下のように定義されています。

写像 f が群 G の元 x,y に作用するとき, f(xy)=f(x)f(y) を満たす写像

定義だけでみるとやや難しいですが、簡単に図にしますと、以下のように表現することができます。

指数関数のようなものを(正確には同型写像)言います。

左の指数xとyを足し算していますが、右ではそれぞれxとyを指数にしているものを掛け算しています。しかし、その結果は同じです。つまり同型写像を簡単にいうと、何らかのA関数とB関数はその計算結果が常に同じである特性を持つ写像だと理解すれば、概ね間違いはありません。

同型写像には、準同型写像、同型写像がありますが、ここでは準同型写像を主に紹介します。ちなみに、準同型と完全同型の違いは、その範囲にあります。上述した指数関数の例ではいかなる数字を入れても同じ結果になりますが、準同型写像ではある程度範囲があります。ここではもう少し厳密にお伝えしたいですが、本コラムの趣旨から少しずれてしまうので、割愛します。

同型写像の特性を利用している暗号化方式はRSA、ElGamalが有名です。

RSAやElGamalで暗号化されたデータについては、秘密計算を行うことが可能であるため、データを計算するためデータを一時的に復元する必要がなくなり、セキュアにデータを扱うことができるようになります。

昔は計算量が多いため、同型写像の計算はできず、準同型写像への計算を、それも短いデータに対してのみ使われてきました。しかし、最近は、この同型暗号の研究成果が目覚ましく、コンピューターによる計算速度が大きく改善され、さまざまな分野において活用することが期待されています。

秘密計算をAI学習に応用

秘密計算を用いた機械学習の検証、しかし・・・

筆者も実際にPyfhelとNumpyを使って、AI推測を検証できる簡単なプログラムを作成してみようとしました。

検証したかった仕組みは以下になります。

この図は、本コラムの「AIとセキュリティ」で紹介しました、AI製品の推測のフローを簡略化し、各処理を暗号化されたままで行うよう設計したフローです。

しかし、Pyfhelではログや指数の計算ができず、学習どころか、推測させることすらできませんでした。詳細に調べた結果、Pyfhelだけの課題ではなく、準同型暗号においての高度な計算までは普及していないようでした。

具体的には、ログ関数や、指数関数が存在しないため、暗号化データ用のソフトマックス関数や、交差エントロピー関数を実装することができませんでした。もし、これらを使うのであれば、最初から準同型暗号用のクラスを作る必要がありそうでした。

簡単にはできないことがわかったので、筆者は一旦、検証を諦め、論文を調査することで研究動向を調べました。

研究動向

機械学習の成功、さまざまな会社の情報漏えい事件、これらの社会的な背景もあり、準同型写像に対する機械学習も最近活発に研究されています。

ロジスティクス回帰や、深層学習において、秘密計算を用いた学習の実現性を証明する論文も次から次へと公開されています。研究は準同型暗号にとどまらず、完全同型暗号についても実現を証明しています。まだ、暗号化されている状態のデータに対して、計算を行うことであるため、まだ、平文との計算速度の差が激しいですが、準同型写像を用いた学習に有効な専用の活性化関数も研究発表されている状況です。

この分野は、ごく最近、研究され始めた技術です。しかし、可視的な成果が多いので、筆者は来年、再来年はもうあらゆるデータを秘密計算する時代になってくるのではないかと期待しています。

関連する論文を本稿末に紹介させていただきましたので、興味のある方はぜひご覧ください。

まとめ

今回はAI製品を開発・サービスする際に存在する、データセットの情報漏えいのリスクについて紹介いたしました。また、その対策として、秘密計算というものも併せて紹介させていただきました。

秘密計算を用いた機械学習は、すでに実現されており、Suicaでは導入検証を行っていました。最近研究されてきたばかりの技術であったため、研究者ではない人が検証することは、まだ難しそうです。

しかし、毎日新しい研究成果が発表される分野であるため、我々の日常に秘密計算が浸透することは、さほど遠くはなさそうです。

論文紹介
論文著者刊行
Logistic regression model training based on the approximate homomorphic encryption Andrey Kim, Yongsoo Song, Miran Kim, Keewoo Lee & Jung Hee Cheon Proceedings of the 6th iDASH Privacy and Security Workshop 2017, 11-Oct-2018
Privacy-Preserving Deep Learning via Additively Homomorphic Encryption Le Trieu Phong; Yoshinori Aono; Takuya Hayashi; Lihua Wang; Shiho Moriai IEEE Transactions on Information Forensics and Security ( Volume: 13, Issue: 5, May 2018)
Secure Logistic Regression Based on Homomorphic Encryption: Design and Evaluation Kim M, Song Y, Wang S, Xia Y, Jiang X JMIR Med Inform 2018;6(2):e19
Private Machine Learning Classification Based on Fully Homomorphic Encryption Xiaoqiang Sun; Peng Zhang; Joseph K. Liu; Jianping Yu; Weixin Xie IEEE Transactions on Emerging Topics in Computing ( Volume: 8, Issue: 2, April-June 1 2020), 352-364

著者プロフィール
曺 炯旭(チョウ ヒョンウク)

2020年、京セラコミュニケーションシステム 入社
セキュリティサービスのイノベーション業務に従事。
情報安全確保支援士であり、普段AI、クラウド、開発を学び中。

掲載されている情報は、発表日現在の情報です。最新の情報と異なる場合がありますのでご了承ください。

ページトップへ