高次元データ実用分析

応用データサイエンス学位プログラム

MADS7380

コース情報

担当教員: 高枝 佳男

単位数: 2

年度: 2024

学期: 春学期

曜限: 金5

形式: 対面授業+オンライン授業(オンデマンド授業,同時双方向型授業(Zoomなど)) /Alternating face-to-face & A

レベル: 500

アクティブラーニング: あり

他学部履修: 不可

評価方法

出席状況

40%

授業参加

30%

その他

授業毎に与える課題を実施したかどうかを確認します。 ここでは,「問題を解く能力」というより「実施することにより内容の理解を深めたかどうか」を主な評価対象とします。

30%

詳細情報

概要

近年,センシング技術やIoTの進展により,医療,交通,製造業といった多種多様な分野で膨大なデータが収集・蓄積されています。これらのデータは,新たな技術革新の源泉となっていますが,同時に,データの多様性や複雑性,高次元性による解析の難しさという大きな課題ももたらしています。解析者のバイアス,次元の呪いに対する一般的な誤解,および既存の次元削減技術の限界は,これらの課題に対処する上で重要な障壁となっています。 本講義では,実世界の高次元データを理解し,それを有効に活用するための最新の解析手法を紹介します。受講生は,実習を通じてこれらの手法を実際に適用し,データから有益な洞察を引き出す方法を学びます。 具体的な講義内容として,最初に,高次元データの基本的な特性と,これに関連する課題について詳しく確認していきます。 次に,静的な高次元データ(時間依存しないデータ)の解析技術として,医療診断データや文書コーパス,POSデータの解析方法について学びます。また,現代における代表的な高次元データである「ニューラルネットワークにおける特徴表現の埋め込みベクトル」の可視化の基礎について学び,OpenAI APIを利用した大規模言語モデル(LLM)の認知状態の可視化やディープラーニング(DL)モデルの構築ワークフローの効率化技術について紹介します。 さらに,動的(時間依存する)高次元データの実例として,様々な製造機器やインフラに設置されたセンサーから生成される膨大な高次元データを取り上げます。これらのデータから時々刻々と変化する系の状態をリアルタイムで評価し,その異常度(リスク,あるいは安全度)を正しく評価する手法について学びます。応用例として,道路や輸送機,多軸ロボットアームなどのインフラや機器の予防保全に関する実例を紹介します。 この講義を通じて,受講生は高次元データ解析の基本的な課題を理解し,これらに対処するための先進的な解析手法や可視化技術を習得します。また,実際のデータサイエンスの現場で直面する可能性のある様々な課題に対して,適切な解析手法を選択し,効果的に適用する能力を身につけることができます。 なお,本講義では高校レベルの数学的知識を前提としており,Jupyter NotebookやGoogle Colabを使用した経験,またはPythonなどのプログラミング言語を用いた基本的なデータ解析の経験がある方には特に適しています。講義の実習課題を効率的に進めるためには,インターネットに接続可能なPCと,Chrome/Edgeなどのブラウザの使用が必須です。

目標

本講義を通じて,受講生は以下の能力を身につけることを目標とします。 * 高次元データ解析における課題,特にバイアス問題,次元の呪い,および既存次元削減手法の限界に関する理解を深める。 * 静的および動的な高次元データを自ら解析し,それらのデータから有意義な洞察を抽出する能力を養う。 * ニューラルネットワークモデル,特に大規模言語モデル(LLM)やディープラーニング(DL)モデルの内部構造を可視化する技術の基礎知識を習得する。 * OpenAIのembedding APIを含む最新の高次元データ取得技術を活用できるようになる。 * 実際のデータサイエンスの現場で直面する可能性のある様々な課題に対して,適切な解析手法を選択し,効果的に適用するための実践的なスキルを習得する。 * 高次元データ解析と従来の低次元データ解析の相補関係について考察を深める。

授業外の学習

各回の授業で説明した知識を前提とした実習として,講義用サーバーに各自のPCから接続して,設置された課題(Jupyter notebook)を実際に解析していただきます(Chorme/Edgeなどの汎用ブラウザで接続可能です)。 次回講義内容をスムーズに理解するためにこの実習を行っておくことが望ましいです。 実習時間としては10分から20分程度が見込まれます。 なお,講義時間外においてもdiscordの専用チャンネルで(非同期型コミュニケーションとなりますが)Q&Aを常時受け付けます。

所要時間: 10〜20分

スケジュール

  1. 講義概要とデータ解析環境の利用方法の説明,実習課題の共有
  2. 高次元データの特性と課題: 高次元データの基本的な特性,解析者のバイアス,次元の呪い,既存の次元削減技術の限界について解説。
  3. 新しい高次元解析手法の紹介と既存手法との比較: 最新の高次元データ解析手法と,PCA,t-SNE,UMAPなどの既存手法との比較。
  4. 静的データ解析1: テキストマイニング基礎,医療診断データの解析,POSデータ解析
  5. 静的データ解析2: ニューラルネットワークにおける特徴表現の埋め込みベクトル
  6. 静的データ解析の応用1: 大規模言語モデル(LLM)における認知の可視化
  7. 静的データ解析の応用2: ディープラーニングモデルの構築と性能評価,モデル構築ワークフローの効率化
  8. 動的データ(時間依存データ)解析の基礎
  9. 動的データ解析1: 時系列データの解析
  10. 動的データ解析2: 音・振動データ解析
  11. 動的データ解析の応用: 各種機器の予防保全,インフラ劣化診断,異種データの融合技術
  12. 高次元データ実用のためのテクニック: 実際のデータサイエンスプロジェクトの現場で重要となる行動や視点など
  13. 高次元データのさらなる探求: 高次元データ解析から見えるAIの認知プロセス,AIとヒトとの相補性,実世界に氾濫する膨大で複雑な情報に対するアプローチの方法・視点についてなど
  14. 講義の総括と演習課題のフィードバック

教科書

現時点では指定せず,授業内で適宜リンク等で案内する。

    参考書

    書籍情報はありません。

    © 2025 上智非公式シラバス. All rights reserved.