データエンジニアリング実践

応用データサイエンス学位プログラム

MADS7060

コース情報

担当教員: 澤井 司

単位数: 1

年度: 2024

学期: 2クォーター

曜限: 金5

形式: 対面授業+オンライン授業(オンデマンド授業,同時双方向型授業(Zoomなど)) /Alternating face-to-face & A

レベル: 500

アクティブラーニング: なし

他学部履修: 不可

評価方法

出席状況

10%

授業参加

15%

レポート

10%

定期試験

定期試験期間中

30%

授業内期末試験

授業期間中

20%

中間試験

授業期間中

15%

詳細情報

概要

データサイエンスの分析・モデル生成・実システムへの適用と止まることのない循環的な処理フローの習得を目標にする。 データ処理・分析・洞察をベースに基本に実務で使われる基本的な思考・技術・ITツールの利用とともに前クウォーターでの講義をもとに大規模データ処理を経験する。

目標

⚫︎大規模データ,自然言語などの処理を中心にデータ処理・分析生成・最適化・適用の循環フローでの各プロセス・全体での具体的処理内容の把握 ⚫︎実業務に近い処理フローの体験

授業外の学習

学習に必要な時間の目処。IT技術知識のレベルによって以下以上の学習が必要となる。 予習 3-5時間 復習 4-7時間

所要時間: 7-10時間

スケジュール

  1. ニューラルネットワークとディープープラーニング - 2, 時系列データ分析 - ニューラルネットワークとディープープラーニングの続き - 移動平均やSESによる時系列スムージング
  2. 自然言語処理, 大規模生成AIと統合データ処理 - 自然言語処理の基礎技術とテキストのベクトル表現 - ベクトルデータベース - spaCyとGINZAを用いた日本語テキスト解析 - 大規模言語モデル(LLM)の概要 - Rag,フ ァインチューニングとローカルデータ適用 - 特有データ処理フロー(前処理とデータ最適化サイクル)とPython&Langchain&LangFlow, ChatUIなどのツールその展開例
  3. モデル評価とパフォーマンス改善 - ML・AIモデル生成のまとめ - 交差検証による汎化性能の評価 - 過学習と欠損検出,対処法 - データ処理の自動化フロー(MLFlow,KubeFlowなど)
  4. データ処理からモデル生成,再最適化プロセスの自動化インフラ構築 - 処理工程・レポーティングに必須なUI&Web技術 - Streamlit, Flet, Viola, Dashなどによる可視化・グラフ表示ダッシュボード,レポーティングなどのUIと自動化Webフレームワーク構築
  5. データ処理からモデル生成,再最適化プロセスの自動化インフラ構築 - 処理工程・レポーティングに必須なUI&Web技術 - Streamlit, Flet, Viola, Dashなどによる可視化・グラフ表示ダッシュボード,レポーティングなどのUIと自動化Webフレームワーク構築
  6. ビッグデータ解析と実データを用いた演習 - 2 Databricks, SnowFlake, GoogleCloud上でのScala, BigQueryなど大規模データ処理ツールを利用した演習
  7. ドキュメンテーション作成と自動化と全体のまとめ - GitHub,VS-Code,各クラウドサービスを利用した半自動ドキュメンテーション技法 - これまでの講義と学習のまとめ

教科書

追って指示する。

    参考書

    書籍情報はありません。

    © 2025 上智非公式シラバス. All rights reserved.