2025年度 (最新) 学院等開講科目 情報理工学院 情報工学系 情報工学コース
先端データ管理
- 開講元
- 情報工学コース
- 担当教員
- 宮﨑 純 / 曹 洋
- 授業形態
- 講義
- メディア利用科目
- -
- 曜日・時限
(講義室) - 月7-8 (W3-301(W331)) / 木7-8 (W3-301(W331))
- クラス
- -
- 科目コード
- CSC.T521
- 単位数
- 200
- 開講時期
- 2025年度
- 開講クォーター
- 1Q
- シラバス更新日
- 2025年3月31日
- 使用言語
- 英語
シラバス
授業の目的(ねらい)、概要
近年の爆発的なデータの増加により、多くの分野から膨大なデータを効率的かつ安全に維持、管理、活用するための計算方法が要求されています。情報工学分野では、この問題の解決に挑戦すべく、新しい計算モデルや効率的なアルゴリズム、生産性の高いソフトウェア設計手法等が開発されてきています。
本講義では、これらの最新技術を習得します。具体的な前半は大規模データを扱うためのクラウド基盤のストレージや並列処理のモデル、MapReduceフレームワークについて、後半では、データサイエンスや機械学習におけるプライバシー保護技術(差分プライバシー、秘密計算、連合学習など)を学びます。全体を通じ、大規模なデータ管理の利活用において必要な技術を習得することを目指します。
到達目標
本講義の履修により、以下の習得します。
・大規模データ管理の基礎と応用
・クラウド基盤および分散データ処理技術の習得
・並列処理および高性能計算の理解
・プライバシー保護技術の基礎と応用
・データライフサイクルとセキュアなデータ管理
キーワード
大規模データ処理, クラウドストレージ, 分散データ処理, 並列計算, MapReduceフレームワーク, プライバシー保護技術, 差分プライバシー, データライフサイクル管理
学生が身につける力
- 専門力
- 教養力
- コミュニケーション力
- 展開力 (探究力又は設定力)
- 展開力 (実践力又は解決力)
授業の進め方
課題欄に記載されている項目ならびその関連事項を各自で調べて、十分に復習しておくことが必要です。
授業計画・課題
授業計画 | 課題 | |
---|---|---|
第1回 | 大規模データ管理 | 現在の大規模データ管理のためのクラウドサービス |
第2回 | キーバリューストアのデータモデルと一貫性モデル | 分散キーバリューストアの特性の理解 |
第3回 | クラウドストレージのデータ分散と高可用性 | クラウドストレージのデータ分散方式と高可用性 |
第4回 | クラウドストレージの構成 | クラウドストレージで使用される分散アルゴリズムとその目的 |
第5回 | MapReduceフレームワークと計算モデル | MapReduceフレームワークの利点 |
第6回 | MapReduceを利用した大規模テキスト処理アルゴリズム | MapReduceフレームワークによる転置インデクス構築アルゴリズム |
第7回 | MapReduceを利用した大規模グラフ処理アルゴリズム | MapReduceフレームワークによるPageRankアルゴリズム |
第8回 | データのライフサイクル | データ収集、分析、共有のライフサイクル |
第9回 | データ管理におけるリスク | プライバシー攻撃 |
第10回 | プライバシー保護技術1:差分プライバシ | 差分プライバシーの基礎と応用 |
第11回 | プライバシー保護技術2:秘密計算 | 秘密計算の基礎と応用 |
第12回 | プライバシー保護技術3:連合学習 | 連合学習の基礎と応用 |
第13回 | プライバシー保護したデータ管理 | セキュアなデータ収集、分析、共有の技術 |
第14回 | プライバシー保護した機械学習 | プライバシー保護技術を機械学習や大規模AIへの応用 |
準備学修(事前学修・復習)等についての指示
学修効果を上げるため,教科書や配布資料等の該当箇所を参照し,「毎授業」授業内容に関する予習と復習(課題含む)をそれぞれ概ね100分を目安に行うこと。
教科書
指定なし。講義資料はScience Tokyo LMSで配布する。
参考書、講義資料等
[参考文献]
J. Lin, C. Dyer, "Data-Intensive Text Processing with MapReduce", Morgan & Claypool Publisher
Dwork, Cynthia, and Aaron Roth. "The algorithmic foundations of differential privacy." Foundations and Trends® in Theoretical Computer Science 9.3–4 (2014): 211-407.
成績評価の方法及び基準
大規模データ処理, クラウドストレージ, 分散データ処理, ならびに高信頼データ管理に関する理解度を評価する。小課題(20%)、中間課題(40%)と期末課題(40%)により評価する。
関連する科目
- CSC.T438 : 分散アルゴリズム
履修の条件・注意事項
以下の予備知識があることが望ましい。
- 分散アルゴリズム
- データベース