データエンジニアリング実践
応用データサイエンス学位プログラム
MADS7060
コース情報
担当教員: 澤井 司
単位数: 1
年度: 2024
学期: 2クォーター
曜限: 金5
形式: 対面授業+オンライン授業(オンデマンド授業,同時双方向型授業(Zoomなど)) /Alternating face-to-face & A
レベル: 500
アクティブラーニング: なし
他学部履修: 不可
評価方法
出席状況
10%
授業参加
15%
レポート
10%
定期試験
定期試験期間中
30%
授業内期末試験
授業期間中
20%
中間試験
授業期間中
15%
詳細情報
概要
データサイエンスの分析・モデル生成・実システムへの適用と止まることのない循環的な処理フローの習得を目標にする。 データ処理・分析・洞察をベースに基本に実務で使われる基本的な思考・技術・ITツールの利用とともに前クウォーターでの講義をもとに大規模データ処理を経験する。
目標
⚫︎大規模データ,自然言語などの処理を中心にデータ処理・分析生成・最適化・適用の循環フローでの各プロセス・全体での具体的処理内容の把握 ⚫︎実業務に近い処理フローの体験
授業外の学習
学習に必要な時間の目処。IT技術知識のレベルによって以下以上の学習が必要となる。 予習 3-5時間 復習 4-7時間
所要時間: 7-10時間
スケジュール
- ニューラルネットワークとディープープラーニング - 2, 時系列データ分析 - ニューラルネットワークとディープープラーニングの続き - 移動平均やSESによる時系列スムージング
- 自然言語処理, 大規模生成AIと統合データ処理 - 自然言語処理の基礎技術とテキストのベクトル表現 - ベクトルデータベース - spaCyとGINZAを用いた日本語テキスト解析 - 大規模言語モデル(LLM)の概要 - Rag,フ ァインチューニングとローカルデータ適用 - 特有データ処理フロー(前処理とデータ最適化サイクル)とPython&Langchain&LangFlow, ChatUIなどのツールその展開例
- モデル評価とパフォーマンス改善 - ML・AIモデル生成のまとめ - 交差検証による汎化性能の評価 - 過学習と欠損検出,対処法 - データ処理の自動化フロー(MLFlow,KubeFlowなど)
- データ処理からモデル生成,再最適化プロセスの自動化インフラ構築 - 処理工程・レポーティングに必須なUI&Web技術 - Streamlit, Flet, Viola, Dashなどによる可視化・グラフ表示ダッシュボード,レポーティングなどのUIと自動化Webフレームワーク構築
- データ処理からモデル生成,再最適化プロセスの自動化インフラ構築 - 処理工程・レポーティングに必須なUI&Web技術 - Streamlit, Flet, Viola, Dashなどによる可視化・グラフ表示ダッシュボード,レポーティングなどのUIと自動化Webフレームワーク構築
- ビッグデータ解析と実データを用いた演習 - 2 Databricks, SnowFlake, GoogleCloud上でのScala, BigQueryなど大規模データ処理ツールを利用した演習
- ドキュメンテーション作成と自動化と全体のまとめ - GitHub,VS-Code,各クラウドサービスを利用した半自動ドキュメンテーション技法 - これまでの講義と学習のまとめ
教科書
追って指示する。
参考書
書籍情報はありません。