トップページへ

2025年度 (最新) 学院等開講科目 情報理工学院 情報工学系 情報工学コース

先端データ管理

開講元
情報工学コース
担当教員
宮﨑 純 / 曹 洋
授業形態
講義
メディア利用科目
-
曜日・時限
(講義室)
月7-8 (W3-301(W331)) / 木7-8 (W3-301(W331))
クラス
-
科目コード
CSC.T521
単位数
200
開講時期
2025年度
開講クォーター
1Q
シラバス更新日
2025年3月31日
使用言語
英語

シラバス

授業の目的(ねらい)、概要

近年の爆発的なデータの増加により、多くの分野から膨大なデータを効率的かつ安全に維持、管理、活用するための計算方法が要求されています。情報工学分野では、この問題の解決に挑戦すべく、新しい計算モデルや効率的なアルゴリズム、生産性の高いソフトウェア設計手法等が開発されてきています。
本講義では、これらの最新技術を習得します。具体的な前半は大規模データを扱うためのクラウド基盤のストレージや並列処理のモデル、MapReduceフレームワークについて、後半では、データサイエンスや機械学習におけるプライバシー保護技術(差分プライバシー、秘密計算、連合学習など)を学びます。全体を通じ、大規模なデータ管理の利活用において必要な技術を習得することを目指します。

到達目標

本講義の履修により、以下の習得します。
・大規模データ管理の基礎と応用
・クラウド基盤および分散データ処理技術の習得
・並列処理および高性能計算の理解
・プライバシー保護技術の基礎と応用
・データライフサイクルとセキュアなデータ管理

キーワード

大規模データ処理, クラウドストレージ, 分散データ処理, 並列計算, MapReduceフレームワーク, プライバシー保護技術, 差分プライバシー, データライフサイクル管理

学生が身につける力

  • 専門力
  • 教養力
  • コミュニケーション力
  • 展開力 (探究力又は設定力)
  • 展開力 (実践力又は解決力)

授業の進め方

課題欄に記載されている項目ならびその関連事項を各自で調べて、十分に復習しておくことが必要です。

授業計画・課題

授業計画 課題
第1回 大規模データ管理 現在の大規模データ管理のためのクラウドサービス
第2回 キーバリューストアのデータモデルと一貫性モデル 分散キーバリューストアの特性の理解
第3回 クラウドストレージのデータ分散と高可用性 クラウドストレージのデータ分散方式と高可用性
第4回 クラウドストレージの構成 クラウドストレージで使用される分散アルゴリズムとその目的
第5回 MapReduceフレームワークと計算モデル MapReduceフレームワークの利点
第6回 MapReduceを利用した大規模テキスト処理アルゴリズム MapReduceフレームワークによる転置インデクス構築アルゴリズム
第7回 MapReduceを利用した大規模グラフ処理アルゴリズム MapReduceフレームワークによるPageRankアルゴリズム
第8回 データのライフサイクル データ収集、分析、共有のライフサイクル
第9回 データ管理におけるリスク プライバシー攻撃
第10回 プライバシー保護技術1:差分プライバシ 差分プライバシーの基礎と応用
第11回 プライバシー保護技術2:秘密計算 秘密計算の基礎と応用
第12回 プライバシー保護技術3:連合学習 連合学習の基礎と応用
第13回 プライバシー保護したデータ管理 セキュアなデータ収集、分析、共有の技術
第14回 プライバシー保護した機械学習 プライバシー保護技術を機械学習や大規模AIへの応用

準備学修(事前学修・復習)等についての指示

学修効果を上げるため,教科書や配布資料等の該当箇所を参照し,「毎授業」授業内容に関する予習と復習(課題含む)をそれぞれ概ね100分を目安に行うこと。

教科書

指定なし。講義資料はScience Tokyo LMSで配布する。

参考書、講義資料等

[参考文献]
J. Lin, C. Dyer, "Data-Intensive Text Processing with MapReduce", Morgan & Claypool Publisher
Dwork, Cynthia, and Aaron Roth. "The algorithmic foundations of differential privacy." Foundations and Trends® in Theoretical Computer Science 9.3–4 (2014): 211-407.

成績評価の方法及び基準

大規模データ処理, クラウドストレージ, 分散データ処理, ならびに高信頼データ管理に関する理解度を評価する。小課題(20%)、中間課題(40%)と期末課題(40%)により評価する。

関連する科目

  • CSC.T438 : 分散アルゴリズム

履修の条件・注意事項

以下の予備知識があることが望ましい。
- 分散アルゴリズム
- データベース