此為《資料科學入門指南:資料的處理、分析與觀念》的範例程式,購書連結:https://portaly.cc/DS-Intro
- 點選右上角的綠色按鈕
Code
- 選擇
Download ZIP
- 解壓縮後即可使用
- 1.1 資料的價值
- 資料的成長趨勢
- 資料的影響力
- 資料的應用方式
- 1.2 資料的型態
- 這個世界是由系統 + 變數所組成的
- 常見變數類型介紹
- 如何儲存 & 處理這些變數
- 1.3 資料的尺度
- 資料尺度
- 常見資料尺度介紹
- 不同尺度的差別
- 2.2 Python 環境
- 安裝 Conda 虛擬環境管理器
- 安裝 VS Code 編輯器
- 撰寫你的第一個程式
- 2.3 基本運算
- 變數
- 基本輸入輸出
- 運算符號
- Python 資料型態
- 2.4 流程與控制結構
- 條件控制
- 迴圈
- 函數
- 套件與引用
- 3.1 numpy
- 簡介
- NumPy 陣列基礎
- 基本運算
- 線性代數運算
- 廣播機制
- 向量化函數操作
- 3.2 pandas
- Pandas 簡介
- Pandas 數據結構
- Pandas 數據讀取與清理
- Pandas 數據選擇與操作
- 4.1 影像資料原理
- 引言
- 影像與視覺
- 影像資料的基本原理
- 影像資料的進階理解
- 影像資料的分析方向
- 4.2 影像資料處理實作
- 簡介
- 讀取與顯示
- 圖片基本操作
- 影像特徵提取
- 基本影像處理
- 4.3 音訊資料原理
- 引言
- 音訊與聽覺
- 音訊資料的基本原理
- 音訊資料的進階理解
- 音訊資料的分析方向
- 4.4 音訊資料處理實作
- 簡介
- 讀取與處理
- 音訊特徵提取
- 音訊基本處理
- 4.5 文字資料原理
- 引言
- 文字與語義
- 文字資料的基本原理
- 文字資料的進階理解
- 文字資料的分析方向
- 4.6 文字資料處理實作
- 文字前處理
- 關鍵詞提取
- 文字向量嵌入模型
- 5.1 資料清理
- 簡介
- 資料過濾
- 缺失值處理
- 重複值處理
- 離群值處理
- 5.2 資料轉換
- 前言
- 特徵選擇
- 資料類型轉換
- 資料編碼
- 資料縮放
- 資料分佈轉換
- 資料增強
- 5.3 資料視覺化
- 資料視覺化
- 資料視覺化實作
- 6.1 探索式分析(EDA)
- 探索式資料分析(EDA)
- 實作:用 AutoEDA 對資料做初步探索
- 6.2 網頁爬蟲
- 爬蟲概念介紹
- 網頁爬蟲實作
- 爬蟲限制與應注意事項
- 6.3 機器學習與模型評估
- 機器學習
- 模型評估
- 實作:紅酒品質分類
- 6.4 用 ChatGPT 建立 QA 回答系統
- OpenAI API
- 提示工程的注意事項
- 實作:使用自有知識庫建立 QA 問答系統
- 6.5 Hugging Face
- 簡介
- 實作:使用 Hugging Face 上的預訓練模型做情緒分類
- 6.6 資料管線
- ETL 概念介紹
- Dagster 簡介
- 實作:用 Dagster 管理 IThome 文章瀏覽數爬蟲結果
- 6.7 常見誤區
- 前言
- 常見誤區
- 結語 - 成為更優秀的資料分析師