前言
第1章 瞭解大資料
1.1 大資料處理的基礎技術
1.1.1 大資料相關概念
1.1.2 大資料處理流程
1.1.3 大資料處理基礎技術
1.2 主流大資料技術
1.2.1 主流大資料技術各階段
1.2.2 Hadoop生態系統
1.2.3 Hadoop核心元件簡介
1.3 大資料平臺解決方案
1.3.1 Cloudera
1.3.2 Hortonworks
1.3.3 MapR
1.3.4 FusionInsight
1.3.5 Transwarp Data Hub
1.4 大資料發展現狀和趨勢
1.4.1 大資料市場規模
1.4.2 國內大資料發展面臨的問題
1.4.3 大資料發展趨勢
1.5 習題
第2章 大資料基礎軟體
2.1 Linux基礎介紹
2.1.1 用戶和用戶組管理
2.1.2 檔和目錄操作
2.1.3 文字編輯器
2.2 Java基礎介紹
2.2.1 Java基礎
2.2.2 程式設計開發
2.2.3 Java開發環境配置
2.3 SQL語言基礎介紹
2.3.1 資料庫基礎
2.3.2 SQL簡介
2.3.3 SQL語法
2.3.4 SQL基礎語法
2.4 實驗一:在Linux中安裝和使用Java
2.4.1 本實驗目標
2.4.2 本實驗知識點
2.4.3 專案實施過程
2.4.4 常見問題
2.5 實驗二:在Linux中安裝和使用MySQL
2.5.1 本實驗目標
2.5.2 本實驗知識點
2.5.3 專案實施過程
2.5.4 常見問題
2.6 習題
第3章 大資料獲取
3.1 大資料獲取技術介紹
3.2 常見採集工具和廠商
3.2.1 搜尋引擎查看
3.2.2 工具分類
3.3 八爪魚採集器介紹
3.3.1 八爪魚採集原理
3.3.2 八爪魚實現的功能
3.4 爬山虎採集器介紹
3.4.1 爬山虎介紹
3.4.2 產品特點和核心技術
3.4.3 軟體介面
3.5 流資料獲取工具Flume
3.5.1 Flume背景
3.5.2 Flume NG基本架構
3.5.3 Flume案例分析
3.6 資料傳輸工具Sqoop介紹
3.6.1 Sqoop工具介紹
3.6.2 Sqoop2特性
3.6.3 Sqoop案例
3.6.4 Sqoop問題集
3.7 實驗三:Sqoop的安裝配置及使用
3.7.1 本實驗目標
3.7.2 本實驗知識點
3.7.3 專案實施過程
3.7.4 常見問題
3.8 實驗四:Kafka的安裝、配置及使用
3.8.1 本實驗目標
3.8.2 本實驗知識點
3.8.3 專案實施過程
3.8.4 常見問題
第4章 大資料存儲
4.1 資料庫和資料倉庫
4.1.1 資料庫類型簡介
4.1.2 資料倉庫介紹
4.2 分散式檔案系統HDFS
4.2.1 HDFS介紹
4.2.2 HDFS體系結構
4.3 分散式分析引擎Kylin介紹
4.3.1 Kylin簡介
4.3.2 Kylin基本原理和架構
4.3.3 Kylin的最新特性
4.4 大資料倉庫Hive
4.4.1 Hive簡介
4.4.2 Hive體系結構
4.4.3 Hive資料存儲模型
4.4.4 Hive應用場景
4.5 NoSQL資料庫
4.5.1 NoSQL簡介
4.5.2 NoSQL在系統架構中的應用
4.6 鍵-值存儲資料庫Memcached、Redis
4.6.1 Redis基本介紹
4.6.2 Redis命令總結
4.7 面向文檔資料庫MongoDB介紹
4.7.1 MongoDB簡介
4.7.2 MongoDB深入剖析
4.8 實驗五:Hadoop的安裝、配置及HDFS使用
4.8.1 本實驗目標
4.8.2 本實驗知識點
4.8.3 專案實施過程
4.8.4 常見問題
4.9 實驗六:Redis資料庫的安裝與使用
4.9.1 本實驗目標
4.9.2 本實驗知識點
4.9.3 專案實施過程
4.9.4 常用命令及設定檔介紹
4.10 實驗七:HBase的安裝和配置
4.10.1 本實驗目標
4.10.2 本實驗知識點
4.10.3 專案實施過程
4.10.4 常見問題
4.11 習題
第5章 Spark記憶體計算框架
5.1 Spark簡介
5.2 Spark技術原理
5.2.1 Spark與Hadoop的對比
5.2.2 Spark運行架構
5.2.3 RDD基本概念
5.3 Spark SQL介紹
5.4 Spark Streaming即時處理技術
5.5 Spark MLlib資料採擷庫
5.5.1 機器學習定義
5.5.2 Spark MLlib的優勢
5.5.3 Spark MLlib支援的機器學習類型
5.6 Spark GraphX圖處理技術
5.7 Spark程式設計實例
第6章 大資料分析挖掘
6.1 大資料分析概述
6.1.1 資料分析與資料採擷的區別
6.1.2 常見資料分析挖掘工具
6.1.3 資料採擷十大演算法介紹
6.2 分類演算法概述
6.2.1 分類預測常見演算法
6.2.2 分類預測實現過程
6.3 決策樹演算法介紹
6.3.1 決策樹的定義
6.3.2 決策樹的優缺點
6.3.3 決策樹的發展
6.3.4 決策樹的構造流程
6.3.5 決策樹的相關指標
6.3.6 常見決策樹演算法
6.4 推薦演算法介紹
6.4.1 常用推薦演算法介紹
6.4.2 主要推薦方法對比
6.5 Apriori演算法介紹
6.5.1 Apriori演算法
6.5.2 頻繁項集的評估標準
6.5.3 Apriori演算法思想
6.5.4 Apriori演算法流程
6.5.5 Apriori演算法小結
第7章 大資料視覺化
7.1 大數據視覺化概述
7.1.1 數據視覺化概述
7.1.2 資料視覺化流程
7.1.3 資料視覺化展現形式
7.2 大資料視覺化工具概述
7.3 Tableau大資料視覺化技術簡介
7.4 Power BI大資料視覺化技術簡介
7.5 實驗八:ECharts的安裝與使用
7.5.1 本實驗目標
7.5.2 本實驗知識點
7.5.3 專案實施過程
7.5.4 常見問題
第8章 大資料安全
8.1 大資料安全的挑戰與對策
8.2 資料管理安全
8.3 資料安全分析
第9章 大資料應用
9.1 企業大資料應用
9.1.1 中國企業大資料現狀
9.1.2 企業大資料應用需求
9.2 互聯網大資料
9.2.1 互聯網行業擁有大資料的關鍵因素
9.2.2 大資料方案後的價值體現
9.3 零售大資料
9.4 醫療大資料
9.5 大資料未來展望
9.6 大資料和雲計算的關係
9.6.1 雲計算的特徵
9.6.2 雲計算與大資料的關係
9.6.3 雲計算及其分散式結構是重要途徑
9.6.4 雲資料庫的必然
9.6.5 雲資料庫需滿足的要求
9.6.6 雲計算能為大資料帶來的變化
參考文獻