データエンジニアリング実践

応用データサイエンス学位プログラム

MADS7060

コース情報

担当教員: 澤井司

単位数: 1

年度: 2024

学期: 2クォーター

曜限: 金5

形式: 対面授業+オンライン授業(オンデマンド授業,同時双方向型授業(Zoomなど)) /Alternating face-to-face & A

レベル: 500

アクティブラーニング: なし

他学部履修: 不可

評価方法

出席状況

10%

授業参加

15%

レポート

10%

定期試験

定期試験期間中

30%

授業内期末試験

授業期間中

20%

中間試験

授業期間中

15%

詳細情報

概要

データサイエンスの分析・モデル生成・実システムへの適用と止まることのない循環的な処理フローの習得を目標にする。データ処理・分析・洞察をベースに基本に実務で使われる基本的な思考・技術・ITツールの利用とともに前クウォーターでの講義をもとに大規模データ処理を経験する。

目標

⚫︎大規模データ,自然言語などの処理を中心にデータ処理・分析生成・最適化・適用の循環フローでの各プロセス・全体での具体的処理内容の把握 ⚫︎実業務に近い処理フローの体験

授業外の学習

学習に必要な時間の目処。IT技術知識のレベルによって以下以上の学習が必要となる。予習 3-5時間復習 4-7時間

所要時間: 7-10時間

スケジュール

ニューラルネットワークとディープープラーニング - 2, 時系列データ分析 - ニューラルネットワークとディープープラーニングの続き - 移動平均やSESによる時系列スムージング
自然言語処理, 大規模生成AIと統合データ処理 - 自然言語処理の基礎技術とテキストのベクトル表現 - ベクトルデータベース - spaCyとGINZAを用いた日本語テキスト解析 - 大規模言語モデル(LLM)の概要 - Rag,ファインチューニングとローカルデータ適用 - 特有データ処理フロー(前処理とデータ最適化サイクル)とPython&Langchain&LangFlow, ChatUIなどのツールその展開例
モデル評価とパフォーマンス改善 - ML・AIモデル生成のまとめ - 交差検証による汎化性能の評価 - 過学習と欠損検出,対処法 - データ処理の自動化フロー(MLFlow,KubeFlowなど)
データ処理からモデル生成,再最適化プロセスの自動化インフラ構築 - 処理工程・レポーティングに必須なUI&Web技術 - Streamlit, Flet, Viola, Dashなどによる可視化・グラフ表示ダッシュボード,レポーティングなどのUIと自動化Webフレームワーク構築
データ処理からモデル生成,再最適化プロセスの自動化インフラ構築 - 処理工程・レポーティングに必須なUI&Web技術 - Streamlit, Flet, Viola, Dashなどによる可視化・グラフ表示ダッシュボード,レポーティングなどのUIと自動化Webフレームワーク構築
ビッグデータ解析と実データを用いた演習 - 2 Databricks, SnowFlake, GoogleCloud上でのScala, BigQueryなど大規模データ処理ツールを利用した演習
ドキュメンテーション作成と自動化と全体のまとめ - GitHub,VS-Code,各クラウドサービスを利用した半自動ドキュメンテーション技法 - これまでの講義と学習のまとめ

教科書

追って指示する。

参考書

書籍情報はありません。