【記者発表】『短時間の観測データから将来を高精度に予測』

【短時間の観測データから将来を高精度に予測～AI予測技術の新しい数理的基板を構築～】

１．発表者：

馬歡飛        （蘇州大学数学科学学院）
冷思阳        （東京大学生産技術研究所、復旦大学数学科学学院）
合原一幸    （東京大学生産技術研究所、ニューロインテリジェンス国際研究機構）
林偉            （復旦大学数学科学学院）
陳洛南        （中国科学院上海生命科学研究院、上海科技大学生命科学与技術学院）

２．発表のポイント：

◆ディープラーニングなど、従来の AI 技術には大量の学習データが必要であった。
◆今回、たくさんの変数の過去の動向を短時間だけ観測したデータから、特定のターゲット変数の将来の動向を高精度に予測する、新しい数学的基礎理論を構築した。
◆遺伝子発現量、風速、心臓疾患患者数などの実際の時間データに対して予測を行い、有効性を確認した。
◆本理論により、経済、医学、エネルギーなどさまざまな分野で、短時間の観測データから将来の動向を予測する高度な予測技術を用いた AI システムの構築が可能になると期待される。

３．発表概要：

AI やIoT の技術が急速に進展している。現在のAI の主要技術であるディープラーニングは、静止画像の認識などに極めて高い性能を発揮するが、学習のために大量の教師データと計算時間を必要とする上に、時系列データのような動的情報の処理には限界がある。また、一般に長時間の時系列データの計測は容易ではない。たとえば、遺伝子発現量の時系列データの計測は、極めて困難である。
一方、IoT などの計測技術の進歩により、一度に多種多数のデータを同時計測することは比較的容易になってきている。たとえば、人のゲノムは２万以上の遺伝子からなり、得られたサンプルからそれぞれの遺伝子の発現量を計測することが可能である。
東京大学生産技術研究所の合原一幸教授、陳洛南客員教授、冷思阳特任研究員らは、中国の蘇州大学、復旦大学、中国科学院と共同で、たくさんの変数の動向を短時間計測したデータから、特定のターゲット変数のより長時間にわたる将来の動向を予測する数学的基礎理論を構築した。
この数理手法によって、経済、医学、エネルギーなどさまざまな分野で、将来の動向を予測する高度な予測技術を用いた AI システムの構築が可能になると期待される。
本研究成果は、２０１８年１０月８日（米国東部時間）の週に米国科学アカデミー紀要（PNAS）のオンライン速報版で公開される。

４．発表内容：

【背景】
AI やIoT の技術が急速に進展している。現在のAI の主要技術であるディープラーニングは、静止画像の認識などに極めて高い性能を発揮するが、学習のために大量の教師データと計算時間を必要とする。さらに、ディープラーニングは、時系列データのような動的情報の処理に関しては限界がある。また、一般に長時間の時系列データの計測は容易ではない。たとえば、遺伝子発現量の時系列データを計測することは極めて困難である。
しかしながら他方で、たとえば人のゲノムは２万以上の遺伝子からなるため、得られたサンプルから一度に極めて多数の遺伝子の発現量を計測することが可能である。また、IoT 技術の進歩によりさまざまなデータを多数同時に計測することも今では容易である。
【内容】
本研究は、上記のようなたくさんの変数の同時計測からなる短い時系列データから、重要なターゲット変数の将来の変化を高精度に予測するための数学理論を構築したものである。
一般に、生体、経済、電力網のような複雑系においては、たくさんの変数が複雑なネットワーク構造を介して相互に影響する。その結果、システムの各変数の情報がたくさんの変数に分散されて保持されることになる。
複雑系の振る舞いは、数学的にはその状態空間内の安定状態（アトラクター、注１）によって記述される。したがって、同時計測した変数からこのアトラクターを推定し予測に用いることが重要な問題となる。
本研究では、ある時刻のたくさんの観測変数の値からランダムに変数を選んでその時点でのアトラクターの状態を推定するランダム分布埋め込み（randomly distributed embedding:RDE）手法を提案した。この手法に基づき、特定のターゲット変数の将来予測値を多数構成して、それらの統計処理によって、精度の高い、より長時間の予測が可能になった（図１、２）。この手法は、対象の数理モデルを必要としないため、短い期間の観測データのみの数理的処理によって予測システムを構築することができるという利点もある。
【効果】
本理論によって、たくさんの変数に分散されて含まれている複雑系の情報を、特定のターゲット変数の将来予測のために、どのように集約すればいいかという予測問題を解決する数理的基盤が構築された。さらに本手法を、遺伝子発現量、風速、心臓疾患患者数などのデータに関する実際の予測に応用して、その有効性を示した。本理論により、経済、医学、エネルギーなどさまざまな分野で、短時間の観測データから将来の動向を予測する高度な予測技術を用いたAI システムの構築が可能になると期待される。

５．発表雑誌：

雑誌名：｢Proceedings of the National Academy of Sciences of the United States of America」（PNAS: 米国科学アカデミー紀要）（１０月８日（月）（米国東部時間）の週にオンライン速報版で公開）
論文タイトル：Randomly distributed embedding making short-term high-dimensional data predictable
著者：Huanfei Ma, Siyang Leng, Kazuyuki Aihara*, Wei Lin*, and Luonan Chen*（＊：責任著者）
DOI 番号：10.1073/pnas.1802987115

６．問い合わせ先：

東京大学生産技術研究所
教授合原一幸（あいはらかずゆき）

７．添付資料：

図1　ランダム分布埋め込み(RDE)手法の原理

図2　気象モデルのカオスアトラクター（注2）上の観測データと予測データの例
灰色のアトラクターの中での、観測データを基にした長い時間の予測データの振る舞いの例を示した。

８．用語解説：
注１）アトラクター
システムの安定状態の軌道を、そのシステムの状態を表す状態変数から成る空間（状態空間）で表現したもの。
注２）カオスアトラクター
決定論的カオス状態を表すアトラクター。