開啟 App
跳到主要內容
IP : 216.73.216.209
會員登入
語系選單
繁體中文
简体中文
English
全館分類
圖書分類
學科分類
商管‧財經
管理‧領導
廣告‧行銷
傳記
工作‧職場
投資理財
電子商務
溝通‧談判
創業
經濟
會計‧統計
貿易
財務‧金融
企業經營
產業調查報告
多媒體電子書
語言學習
童書
其他
文學‧小說
華文現代文學
中國古典文學
中文文學評論
日本文學
英美文學
世界文學
外國文學評論
大眾讀物
推理/驚悚小說
科幻/奇幻小說
武俠/歷史小說
言情小說
青少年文學
其他
設計‧藝術
工業設計
建築
室內設計
視覺設計
攝影
電影
音樂
表演藝術
美術
工藝
其他
生活
飲食文化
食譜
生活保健
運動
園藝/寵物
旅遊
命理/占卜
兩性
勵志
時尚風潮
收藏
手作/DIY
筆記書
其他休閒娛樂
圖文‧漫畫
漫畫
繪本/插畫
其他
科普
綜合科普
天文、地球科學
數/理/化學
動物/植物/生物
參考書
科學史/傳記
環保
人文
中國/臺灣歷史
世界史
哲學
文化研究
語言學
宗教研究
性別研究
圖書資訊學
其他
社科
考古/人類學
社會學
教育學
傳播學
政治學
法律學
區域研究/地理
軍事
其他
親子‧童書
親子教育
兒童繪本
教材
語言學習
嬰幼兒書
學齡前幼兒
兒童文學
知識類
其他
語言
字典
語言工具書
中文
英文
英文檢定/托福
日文
日文檢定
法文
德文
西班牙文
其他語文
電腦
數位生活
網頁設計
數位攝影
影音多媒體
3D/CAD/CAM
行動裝置開發
資料庫
資訊總論
硬體組裝
網路技術
工具軟體
作業系統
程式語言
影像繪圖排版
文書處理軟體
技能檢定測驗
其他
考用‧參考書
國考用書
留學考試
升大專考試用書
小學參考書
升學考試
其他各類考用書
理工農醫
心理學
生物‧生化科學
農漁畜牧
藥學
中醫
醫學用書
工程技術
其他
學術書
文學院
外語學院
社會科學院
傳播暨藝術學院
理學院
管理學院
法學院
工學院
電機資訊學院
生命科學暨獸醫學院
醫學院
政府出版品
國家內政
國防、外交與國際事務
司法、法律事務
地方、縣市行政與觀光
族群、文化與藝術
財政經濟
農業、生態與環保
衛生與醫療
勞工事務與社會福利
綜合行政
向下捲動瀏覽更多
總類
特藏
目錄學;文獻學
圖書資訊學;檔案學
國學
普通類書;普通百科全書
連續性出版品;期刊
普通會社;博物館學
普通論叢
普通叢書
群經
哲學類
哲學總論
思想;學術
中國哲學
東方哲學
西洋哲學
邏輯學
形上學
心理學
美學
倫理學
宗教類
宗教總論
宗教學
佛教
道教
基督教
伊斯蘭教
猶太教
其他宗教
神話
術數;迷信
科學類
科學總論
數學
天文學
物理學
化學
地球科學;地質學
生物科學
植物學
動物學
人類學
應用科學類
應用科學總論
醫藥
家政
農業
工程
礦冶
化學工程
製造
商業:各種營業
商業:經營學
社會科學類
社會科學總論
統計
教育
禮俗
社會學
經濟
財政
政治
法律
軍事
中國史地
史地總論
中國通史
中國斷代史
中國文化史
中國外交史
中國史料
中國地理
中國地方志
中國地理類志
世界史地
世界史地
海洋志
亞洲史地
歐洲史地
美洲史地
非洲史地
大洋洲史地
傳記
文物考古
語言文學類
語言學總論
文學總論
中國文學
中國文學總集
中國文學別集
中國各種文學
東方文學
西洋文學
其他各國文學
新聞學
藝術類
藝術總論
音樂
建築藝術
雕塑
繪畫;書法
攝影;電腦藝術
應用美術
技藝
戲劇
遊藝及休閒活動
向下捲動瀏覽更多
主題書展
本館書架
閱讀專欄
IP:216.73.216.209
最新消息
全館分類
圖書分類
商管‧財經
多媒體電子書
文學‧小說
設計‧藝術
生活
圖文‧漫畫
科普
人文
社科
親子‧童書
語言
電腦
考用‧參考書
理工農醫
學術書
政府出版品
學科分類
總類
哲學類
宗教類
科學類
應用科學類
社會科學類
中國史地
世界史地
語言文學類
藝術類
主題書展
本館書架
閱讀專欄
切換以下語系
繁體中文
简体中文
English
登入
進階/全文搜尋
首頁
電腦
詳目頁
:::
我要寫評分/評論
0
人評分過此書
Python 3.x网络爬虫从零基础到项目实战
作者
:
史卫亚 (著)
出版社
:
北京大学出版社有限公司
出版日期
:
2020
閱讀格式
:
EPUB
書籍分類
:
學術書
;
電腦
學科分類
:
科學類
ISBN
:
9787301312827
爬虫
Python
Scrapy
MongoDB
Cookie
XPath
QRCODE借書
本館館藏
借閱
試閱
借閱規則
當前可使用人數
1
人
等待人數
0
人
借閱天數
14
天
線上看
0
人
丨
借閱中
0
人
已收藏
收藏
追蹤
分享
選擇分享方式
購買此書
推薦本館採購書籍
您可以將喜歡的電子書推薦給圖書館,圖書館會參考讀者意見進行採購
讀者資料
圖書館
:
香港浸會大學 Hong Kong Baptist University
*
姓名
:
請輸入姓名
*
身分
:
請選擇
教師
大專院校學生
行政人員
其他
請選擇您的身分別
系所
:
請輸入系所
*
E-mail
:
※ 我們會寄送一份副本至您填寫的Email中
請輸入Email
電話
:
※ 電話格式為 區碼+電話號碼(ex. 0229235151)/ 手機格式為 0900111111
請輸入電話
*
請輸入驗證碼
:
驗證碼錯誤
更新驗證碼
送出
內容簡介
目錄
本书介绍了如何使用Python来编写网络爬虫程序,内容包括网络爬虫简介、发送请求、提取数据、使用多个线程和进程进行并发抓取、抓取动态页面中的内容、与表单进行交互、处理页面中的验证码问题及使用Scrapy和分布式进行数据抓取等。
版权信息
前言
第1章 爬虫基础
1.1 认识爬虫
1.1.1 大数据时代获取数据的方式
1.1.2 爬虫的分类
1.2 Python环境
1.2.1 Python的安装
1.2.2 PyCharm的安装
1.3 Python语法
1.3.1 变量
1.3.2 逻辑控制
1.3.3 集合容器
1.3.4 字符串
1.3.5 函数
1.3.6 文件操作
1.3.7 面向对象
1.3.8 类库
1.4 网页结构
1.4.1 HTML
1.4.2 CSS
1.4.3 JavaScript
1.4.4 JQuery
1.5 HTTP协议
1.5.1 HTTP请求
1.5.2 HTTP响应
1.5.3 常见的请求头
1.5.4 常见的响应头
1.5.5 HTTP和HTTPS
1.5.6 抓包工具Fiddler
1.6 本章小结
1.7 实战练习
第2章 开始爬虫
2.1 urllib模块
2.2 requests模块
2.2.1 安装
2.2.2 快速开始
2.2.3 高级用法
2.2.4 认证
2.3 re模块
2.3.1 正则表达式的语法
2.3.2 模块内容
2.4 项目案例:爬百度贴吧
2.4.1 分析网站
2.4.2 开始爬取
2.5 本章小结
2.6 实战练习
第3章 更多数据提取的方式
3.1 XPath和LXml
3.1.1 XML
3.1.2 XPath
3.1.3 LXml
3.2 BeautifulSoup4
3.2.1 安装
3.2.2 使用
3.3 JsonPath
3.3.1 安装
3.3.2 使用
3.4 性能和选择
3.5 项目案例:爬腾讯招聘网
3.5.1 分析网站
3.5.2 开始爬取
3.6 本章小结
3.7 实战练习
第4章 并发
4.1 100万个网页
4.2 进程
4.2.1 进程的概念
4.2.2 进程的状态
4.2.3 进程的分类
4.2.4 使用fork()创建进程
4.2.5 使用multiprocessing创建进程
4.2.6 进程池Pool
4.2.7 进程间通信
4.3 线程
4.3.1 线程的概念
4.3.2 线程的状态
4.3.3 创建线程
4.3.4 GIL
4.4 锁
4.4.1 同步的概念
4.4.2 互斥锁
4.4.3 死锁
4.4.4 同步的应用
4.5 协程
4.5.1 协程的概念
4.5.2 创建协程
4.6 线程、进程、协程对比
4.7 并发爬虫
4.7.1 多线程爬虫
4.7.2 多进程爬虫
4.7.3 协程爬虫
4.7.4 性能
4.8 本章小结
4.9 实战练习
第5章 数据存储
5.1 文件存储
5.1.1 TXT文本
5.1.2 JSON文件
5.1.3 CSV文件
5.2 关系型数据库存储
5.3 非关系型数据库存储
5.3.1 Redis数据库
5.3.2 MongoDB数据库
5.4 项目案例:爬豆瓣电影
5.4.1 分析网站
5.4.2 开始爬取
5.5 本章小结
5.6 实战练习
第6章 Ajax数据爬取
6.1 Ajax的概念
6.2 实现Ajax
6.2.1 JavaScript实现Ajax
6.2.2 JQuery实现Ajax
6.3 项目案例:爬斗鱼直播
6.3.1 分析网站
6.3.2 开始爬取
6.4 本章小结
6.5 实战练习
第7章 动态渲染页面爬取
7.1 Selenium
7.1.1 安装
7.1.2 使用
7.2 项目案例:爬京东商品
7.2.1 分析网站
7.2.2 开始爬取
7.3 本章小结
7.4 实战练习
第8章 图形验证码识别
8.1 使用pytesseract
8.2 使用打码平台
8.3 项目案例:识别验证码完成登录
8.3.1 分析网站
8.3.2 开始爬取
8.4 本章小结
8.5 实战练习
第9章 模拟登录
9.1 Cookie
9.1.1 Cookie的属性
9.1.2 查看Cookie
9.1.3 Cookie的不可跨域名性
9.2 Session
9.2.1 Session概述
9.2.2 Cookie与Session的区别
9.3 Cookie池的搭建
9.4 项目案例:登录GitHub
9.4.1 分析网站
9.4.2 开始爬取
9.5 本章小结
9.6 实战练习
第10章 代理IP的使用
10.1 代理IP
10.2 代理IP池
10.3 付费代理的使用
10.4 项目案例:使用代理IP爬微信公众号
10.4.1 分析网站
10.4.2 开始爬取
10.5 本章小结
10.6 实战练习
第11章 Scrapy框架
11.1 认识Scrapy
11.2 编写Scrapy的第一个案例
11.2.1 项目需求
11.2.2 创建项目
11.2.3 分析页面
11.2.4 实现Spider
11.2.5 运行爬虫
11.3 Spider详情
11.3.1 请求对象
11.3.2 响应对象
11.3.3 Spider详情
11.3.4 测试方法
11.4 操作数据
11.4.1 使用Selector提取数据
11.4.2 使用Item封装数据
11.4.3 使用Pipeline处理
11.4.4 使用LinkExtractor提取链接数据
11.4.5 使用Exporter导出数据
11.5 模拟登录
11.5.1 流程分析
11.5.2 直接携带Cookie登录
11.5.3 发送post请求登录
11.6 中间件
11.6.1 介绍
11.6.2 下载中间件
11.6.3 爬虫中间件
11.7 分布式
11.7.1 分布式爬虫的原理
11.7.2 scrapy-redis源码分析
11.7.3 scrapy-redis项目
11.8 项目案例:爬新浪新闻
11.8.1 分析网站
11.8.2 开始爬取
11.9 本章小结
11.10 实战练习
第12章 项目案例:爬校花网信息
12.1 分析网站
12.2 开始爬取
第13章 项目案例:爬北京地区短租房信息
13.1 分析网站
13.2 开始爬取
第14章 项目案例:爬简书专题信息
14.1 分析网站
14.2 开始爬取
第15章 项目案例:爬QQ音乐歌曲
15.1 分析网站
15.2 开始爬取
第16章 项目案例:爬百度翻译
16.1 分析网站
16.2 开始爬取
第17章 项目案例:爬百度地图API
17.1 分析网站
17.2 开始爬取
第18章 项目案例:爬360图片
18.1 分析网站
18.2 开始爬取
第19章 项目案例:爬当当网
19.1 分析网站
19.2 开始爬取
第20章 项目案例:爬唯品会
20.1 分析网站
20.2 开始爬取
第21章 项目案例:爬智联招聘
21.1 分析网站
21.2 开始爬取
詳細資訊
國際計量
出版地
:
中國大陸
語言
:
簡體中文
Python 3.x网络爬虫从零基础到项目实战
評分與評論
請登入後再留言與評分
看更多
相似主題
推薦閱讀
EPUB
0
2021
Python爬虫与反爬虫开发从入门到精通
PDF
0
2021
爬蟲在手 資料我有:7堂課學會高效率Scrapy爬蟲
EPUB
0
2021
Python网络爬虫框架Scrapy从入门到精通
EPUB
0
2020
Python数据分析与大数据处理从入门到精通
EPUB
0
2016
零基础入门学习Python
PDF
0
2025
全面掌握Gemini 開發實務:輕鬆駕馭Google AI引擎
PDF
0
2025
AI投資理財賺錢術:No Code也能賺大錢
PDF
0
2025
ChatGPT全新功能:4o/o1/o3、Reason、Search、Canvas、Projects、Voice、Sora - 推理、搜尋、畫布、專案、語音、視訊、影片-開創AI無限可能
PDF
0
2025
零基礎快速入門:利用 AI 輕鬆打造個人專屬自動化程式
EPUB
0
2025
AI來了,你還不開始準備嗎?:人工智慧正全面改寫你的生活、職涯與競爭力
幫助
您好,請問需要甚麼幫助呢?
使用指南
借閱規則
使用教學
常見問題
下載書紐教育版
客服專線:0800-000-747
服務時間:週一至週五 AM 09:00~PM 06:00
聯絡我們
loading