データエンジニアリング概論
応用データサイエンス学位プログラム
MADS7050
コース情報
担当教員: 澤井 司
単位数: 1
年度: 2024
学期: 1クォーター
曜限: 金5
形式: 対面授業+オンライン授業(オンデマンド授業,同時双方向型授業(Zoomなど)) /Alternating face-to-face & A
レベル: 500
アクティブラーニング: なし
他学部履修: 不可
評価方法
出席状況
10%
授業参加
10%
定期試験
定期試験期間中
40%
授業内期末試験
授業期間中
20%
中間試験
授業期間中
20%
詳細情報
概要
データサイエンスの分析・モデル生成・実システムへの適用は止まることのない循環的なフローで行われる。データ処理・分析・洞察をベースに実務で使われる基本的な思考・技術・ITツールの利用を学ぶ。
目標
⚫︎データサイエンスに必要な基本知識技術・ITツール習得 ⚫︎データ処理・分析生成・最適化・適用の循環フローでの各プロセス・全体での具体的処理内容の把握
授業外の学習
各講義の前はシラバスの内容に沿って自律的に概要的な調査学習を行うこと。 講義後fは講義の例・技術・ITツールなどを自律的に深掘りした学習を行う。特に例題コード内容は理解できるまで繰り返し実行する。
所要時間: 予習2-3時間,復習3から5,6時間。IT知識のレベルによりこれ以上になることもある。
スケジュール
- イントロダクション - データサイエンスの全工程と必要技術IT技術 - 主要クラウドサービス概要 - DB,Data WarehouseとData Lake - 代表的データ分析ツール - LinuxとWindowsコマンド比較 - Pythonによるデータ処理&モデル生成概要
- データ前処理・データ最適化処理サイクル 【データ収集保存,データ前処理】 - ファイル・CSVデータのダイレクトコマンド・SQL・Pythonによる入出力・変換・データ検索と抽出 - ETLツールを使ったデータクリーニング - Python&ツールによる統合データ処理基本と機械学習での展開例 Linuxでのデータ処理入門 - WidnowsLinuxダイレクトコマンド:プロンプトとシェル - Docker/Kubernetesによるコンテナ管理 - インフラ自動化&AIMLフローツール(KubeFlow,KNIME,Ansible等) - Python&ツールによる統合データ処理基本と機械学習での展開例
- 機械学習モデルとデータ処理 【データ前処理】 - 欠損値処理:削除,補完手法による処理 - 外れ値除去:四分位範囲法等などによる外れ値検出除外 - カテゴリデータのエンコーディング:ダミー変数化 - 特徴量スケーリング:標準化・正規化 - 次元削減:主成分分析等で特徴量圧縮 【モデル最適化時のデータ処理】 - クロスバリデーション:学習用・検証用データ分割 - アンダーサンプリング/オーバーサンプリング:データ数調整によるクラス不均衡解消 - 特徴量エンジニアリング:新特徴量生成,関連性分析 - データ拡張:画像回転等による人工的データセット生成
- 教師あり機械学習と統合データ前処理 - 1 - 主なアルゴリズム(k近傍法,線形回帰等) - 分類と回帰の違い - 機械学習の一般的な評価指標 - 欠損値処理,正規化などの前処理 - 特徴量エンジニアリングの概念と技法 - Python&ツールによる統合データ前処理とモデル最適化,機械学習での展開例
- 教師あり機械学習と統合データ前処理 - 2 - 度数分布,分散,データ分布の偏り確認など - 代表的なデータ可視化(グラフ) - パラメータチューニングとモデル比較 - k分割交差検証(k-fold CV) - Python&ツールによる統合データ前処理とモデル最適化,機械学習での展開例
- 教師なし機械学習(クラスタリング)と統合データ前処理 - 3 - K-Means,Hierarchical Clusteringの手法と原理 - クラスタリング性能評価指標 - 決定木とランダムフォレスト - 決定木の構造と分類方法 - ランダムフォレストのbagging思想 - Python&ツール統合データ前処理とモデル最適化,機械学習での展開例
- ニューラルネットワークとディープラーニング - 1 - ニューラルネットの基本構造 - 誤差逆伝播法の学習原理 - CNN,DNNやRNNの概触 - 数値・画像・アクションデータのアノテーション等特有データ処理フロー(前処理とデータ最適化サイクル)とPython&ツールその展開例 - 欠損値処理,アウトライア検出除外,カテゴリデータエンコーディング,正規化,特徴量エンジニアリング等
教科書
追って指示する
参考書
書籍情報はありません。