注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網絡網絡與數據通信網絡服務數據清洗

數據清洗

數據清洗

定 價:¥49.80

作 者: 黑馬程序員
出版社: 清華大學出版社
叢編項: 大數據技術與應用叢書
標 簽: 暫缺

購買這本書可以去


ISBN: 9787302550877 出版時間: 2020-04-01 包裝: 平裝
開本: 16開 頁數: 394 字數:  

內容簡介

  數據清洗是大數據預處理的關鍵環(huán)節(jié)。面對錯綜復雜的數據,傳統(tǒng)的清洗“臟”數據工作單調且異常辛苦,如果能利用正確的工具和方法,可以讓數據清洗工作變得事半功倍。該書講解數據清洗的理論知識和實際應用,全書共8章: 第1章主要帶領大家簡單認識數據清洗;第2章主要講解ETL技術相關的知識;第3章講解Kettle工具的基本使用;第4章主要講解數據清洗的第一步——數據抽取;第5章主要講解數據清洗與檢驗;第6章主要講解數據轉換相關的知識;第7章主要講解數據加載相關的知識;第8章利用前面章節(jié)所學的知識構建一個DVD租賃商店數據倉庫,目的是實現定期從源數據庫sakila中抽取增量數據,轉換成符合DVD租賃業(yè)務的數據,最后加載到DVD租賃商店數據倉庫中,便于后續(xù)在線DVD租賃商店的決策者對數據進行分析得出商業(yè)決策。該書附有配套視頻、源代碼、習題、教學設計、教學課件等資源。同時,為了幫助初學者更好地學習該書中的內容,還提供了在線答疑,歡迎讀者關注。《數據清洗/大數據技術與應用叢書》可作為高等院校本??朴嬎銠C、信息管理等相關專業(yè)的大數據課程教材,也可供相關技術人員參考,是一本適合廣大計算機編程愛好者的優(yōu)秀讀物。

作者簡介

  江蘇傳智播客教育科技股份有限公司(簡稱傳智播客)是一家致力于培養(yǎng)高素質軟件開發(fā)人才的科技公司,“黑馬程序員”是傳智播客旗下高端IT教育品牌。

圖書目錄

第1章 數據清洗概述
1.1 數據清洗的背景
1.1.1 數據質量概述
1.1.2 數據質量的評價指標
1.1.3 數據質量的問題分類
1.2 數據清洗的定義
1.3 數據清洗的原理
1.4 數據清洗的基本流程
1.5 數據清洗的策略
1.6 常見的數據清洗方法
1.7 本章小結
1.8 本章習題
第2章 初識ETL
2.1 基于ETL的數據清洗
2.1.1 ETL的概念
2.1.2 ETL的體系結構
2.2 ETL關鍵技術
2.2.1 數據的抽取
2.2.2 數據的清洗轉換
2.2.3 數據的加載
2.3 ETL常見工具介紹
2.4 本章小結
2.5 本章習題
第3章 Kettle工具的基本使用
3.1 Kettle簡介
3.1.1 Kettle概述
3.1.2 Kettle的設計原則203.2 Kettle的下載安裝
3.3 Kettle的基本概念
3.3.1 轉換
3.3.2 作業(yè)
3.4 Kettle的基本功能
3.4.1 轉換管理
3.4.2 作業(yè)管理
3.4.3 數據庫連接
3.5 本章小結
3.6 本章習題
第4章 數據抽取
4.1 抽取文本數據
4.1.1 TSV文件的抽取
4.1.2 CSV文件的抽取
4.2 抽取Web數據
4.2.1 HTML網頁的數據抽取
4.2.2 XML文件的數據抽取
4.2.3 JSON文件的數據抽取
4.3 抽取數據庫數據
4.3.1 抽取關系型數據庫的數據
4.3.2 抽取非關系型數據庫的數據
4.4 本章小結
4.5 本章習題
第5章 數據的清洗與檢驗
5.1 數據去重
5.1.1 完全去重
5.1.2 不完全去重
5.2 缺失值處理
5.2.1 缺失值清洗策略
5.2.2 去除缺失值
5.2.3 填充缺失值
5.3 異常值
5.3.1 出現異常值的原因
5.3.2 檢測異常值
5.3.3 刪除包含異常值的記錄
……
第6章 數據轉換
第7章 數據加載
第8章 綜合案例——構建DVD租賃商店數據倉庫

本目錄推薦

掃描二維碼
Copyright ? 讀書網 talentonion.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號