PornHubBot


完美世界手游官网隐藏任务 www.gytoi.icu 源代碼地址

  • PornHubBot項目主要是爬取全球最大成人網站PornHub的視頻標題、時長、mp4鏈接、封面URL和具體的PornHub鏈接
  • 項目爬的是PornHub.com,結構簡單,速度飛快
  • 爬取PornHub視頻的速度可以達到500萬/天以上。具體視個人網絡情況,因為我是家庭網絡,所以相對慢一點。
  • 10個線程同時請求,可達到如上速度。若個人網絡環境更好,可啟動更多線程來請求,具體配置方法見 [啟動前配置]

環境、架構


開發語言: Python2.7

開發環境: MacOS系統、4G內存

數據庫: MongoDB

  • 主要使用 scrapy 爬蟲框架
  • 從Cookie池和UA池中隨機抽取一個加入到Spider
  • start_requests 根據 PorbHub 的分類,啟動了5個Request,同時對五個分類進行爬取。
  • 并支持分頁爬取數據,并加入到待爬隊列。

使用說明


啟動前配置

  • 安裝MongoDB,并啟動,不需要配置
  • 安裝Scrapy
  • 安裝Python的依賴??椋簆ymongo、json、requests
  • 根據自己需要修改 Scrapy 中關于 間隔時間、啟動Requests線程數等得配置

啟動

  • python PornHub/quickstart.py

運行截圖


數據庫說明


數據庫中保存數據的表是 PhRes。以下是字段說明:

PhRes 表:

video_title:視頻的標題,并作為唯一標識.
link_url:視頻調轉到PornHub的鏈接
image_url:視頻的封面鏈接
video_duration:視頻的時長,以 s 為單位
quality_480p: 視頻480p的 mp4 下載地址
余下全文(1/3)
分享這篇文章:

請關注我們:

《成人網站PornHub爬蟲分享(一天可爬取500萬以上的視頻)》有7個想法

  1. 岳龍  這篇文章
  2. HuPeng 對這篇文章的反應是贊一個
  3. mponuhi 對這篇文章的反應是笑死了,垃圾,敬佩
  4. 陳sir 對這篇文章的反應是贊一個,笑死了,好文
  5. 1 對這篇文章的反應是俺的神呀
  6. ghostben 對這篇文章的反應是俺的神呀
  7. 風訊  這篇文章, 并對這篇文章的反應是俺的神呀

發表評論

電子郵件地址不會被公開。 必填項已用*標注