会员   密码 您忘记密码了吗?
1,580,249 本书已上架      购物流程 | 常见问题 | 联系我们 | 关于我们 | 用户协议

有店 App


当前分类

商品分类

浏览历史

当前位置: 首页 > 简体书 > 網絡爬蟲原理與實踐:基於C#語言
網絡爬蟲原理與實踐:基於C#語言
上一张
下一张
prev next

網絡爬蟲原理與實踐:基於C#語言

作者: 李健,種惠芳
出版社: 機械工業出版社
出版日期: 2022-12-24
商品库存: 点击查询库存
以上库存为海外库存属流动性。
可选择“空运”或“海运”配送,空运费每件商品是RM14。
配送时间:空运约8~12个工作天,海运约30个工作天。
(以上预计配送时间不包括出版社库存不足需调货及尚未出版的新品)
定价:   NT474.00
市场价格: RM85.21
本店售价: RM75.84
购买数量:
collect Add to cart Add booking
详细介绍 商品属性 商品标记
內容簡介

本書基於C#語言介紹網路爬蟲開發的基本原理、技巧和應用實例,適合網路爬蟲開發的愛好者和研究者閱讀。讀者*好具備一定的程式設計基礎,或者正在學習C#程式設計,以便更好地理解本書的內容。

本書具有以下特點:
1)內容簡明、由淺入深。本書不追求內容上的面面俱到,而是圍繞網路爬蟲的核心環節,介紹其基本原理和實現方法,並進行適當的功能擴展。與其他同類書籍相比,本書篇幅適中,適合初學者閱讀。

2)實例豐富,代碼翔實。書中儘量選擇邏輯簡明、功能完整的典型實例,從需求、設計、實現的角度分別進行介紹。而且,幾乎所有實例都給出了主要實現代碼,並對關鍵代碼進行了詳細注釋,方便讀者進行實踐。


作者介紹


目錄

前言
第1章 網路爬蟲概述1
1.1 網路基礎1
1.1.1 網路的基本概念1
1.1.2 HTTP6
1.1.3 會話機制11
1.2 網頁知識14
1.2.1 HTML14
1.2.2 CSS17
1.2.3 JavaScript20
1.3 網路爬蟲的原理22
1.3.1 網路爬蟲概述22
1.3.2 Robots協議25
1.3.3 網路爬蟲框架29

第2章 C#程式設計基礎31
2.1 C#語言概述31
2.1.1 C#與.NET框架31
2.1.2 開發環境33
2.1.3 語言生態37
2.2 資料和運算40
2.2.1 C#資料類型40
2.2.2 常用運算子45
2.3 流程控制50
2.3.1 分支結構51
2.3.2 迴圈結構54
2.4 常用資料結構56
2.4.1 字串56
2.4.2 陣列60
2.4.3 列表62
2.4.4 字典65

第3章 網路資源下載70
3.1 同步下載70
3.1.1 網頁下載70
3.1.2 編碼檢測72
3.1.3 參數設置76
3.2 非同步下載83
3.2.1 實現方式83
3.2.2 性能分析85
3.3 通用資源下載器 86
3.3.1 下載器的設計86
3.3.2 下載器的實現88

第4章 網頁數據抽取95
4.1 規則運算式抽取95
4.1.1 規則運算式簡介95
4.1.2 使用Regex類97
4.2 XPath抽取100
4.2.1 XPath簡介100
4.2.2 使用HtmlAgilityPack103
4.3 HTML解析器107
4.4 綜合實例:新聞資訊爬蟲110
4.4.1 爬蟲設計110
4.4.2 爬蟲實現111

第5章 其他資料抽取119
5.1 XML數據抽取119
5.1.1 XML簡介119
5.1.2 使用System.Xml120
5.2 JSON數據抽取123
5.2.1 JSON簡介123
5.2.2 使用Newtonsoft.Json125
5.3 綜合實例1:天氣爬蟲128
5.3.1 問題描述與分析128
5.3.2 爬蟲設計131
5.3.3 爬蟲實現131
5.4 綜合實例2:音樂爬蟲136
5.4.1 問題描述136
5.4.2 逆向分析138
5.4.3 爬蟲設計141
5.4.4 爬蟲實現143

第6章 資料存儲150
6.1 數據的維度150
6.2 檔存儲151
6.2.1 低維資料存儲151
6.2.2 高維資料存儲154
6.3 資料庫存儲158
6.3.1 MySQL的安裝和配置158
6.3.2 將資料存入MySQL162

第7章 爬蟲控制167
7.1 爬蟲搜索方式167
7.1.1 深度優先搜索167
7.1.2 廣度優先搜索171
7.1.3 性能分析172
7.2 爬蟲控制器175
7.2.1 控制器設計175
7.2.2 控制器的實現176
7.2.3 即時控制器179
7.3 綜合實例:站內文章爬蟲183
7.3.1 爬蟲設計183
7.3.2 爬蟲實現185
7.3.3 爬蟲測試186

第8章 多執行緒爬蟲189
8.1 多執行緒機制189
8.1.1 Thread對象189
8.1.2 BackgroundWorker控制項192
8.1.3 系統執行緒池194
8.2 多執行緒爬蟲197
8.2.1 實現方法197
8.2.2 性能對比199
8.3 自訂執行緒池202
8.3.1 執行緒池設計202
8.3.2 執行緒池實現203
8.3.3 性能測試206
8.4 多執行緒爬蟲控制器207
8.4.1 多執行緒控制器實現207
8.4.2 訪問序列分析210

第9章 使用代理213
9.1 代理機制213
9.1.1 使用WebProxy物件213
9.1.2 使用全域代理215
9.2 自訂代理池217
9.2.1 代理池設計217
9.2.2 代理池實現218

第10章 模擬流覽器225
10.1 流覽器的工作原理225
10.1.1 網頁解析過程225
10.1.2 常見的流覽器內核226
10.2 使用流覽器內核226
10.2.1 Trident內核226
10.2.2 Gecko內核231
10.3 綜合實例:網頁翻譯爬蟲240
10.3.1 問題描述240
10.3.2 爬蟲設計241
10.3.3 爬蟲實現242
10.3.4 演算法改進247

第11章 視覺化範本配置250
11.1 視覺化範本配置方法250
11.1.1 抽取原理250
11.1.2 範本表示253
11.1.3 視覺化配置254
11.2 綜合實例:視覺化網頁文章爬蟲259
11.2.1 爬蟲設計259
11.2.2 爬蟲實現260
參考文獻264