国产乱人视频免费观看网站,九九精品视频在线观看,九九久re8在线精品视频,日韩久久精品五月综合

<menu id="zjelp"></menu>

    <th id="zjelp"><tbody id="zjelp"><form id="zjelp"></form></tbody></th>
    <small id="zjelp"><menuitem id="zjelp"></menuitem></small>
  • <small id="zjelp"></small>

    <address id="zjelp"></address>
    <address id="zjelp"></address>
    爬蟲學習之基于scrapy的網(wǎng)絡爬蟲

    爬蟲學習之基于scrapy的網(wǎng)絡爬蟲

    ID:12738747

    大?。?15.21 KB

    頁數(shù):7頁

    時間:2018-07-18

    爬蟲學習之基于scrapy的網(wǎng)絡爬蟲_第1頁
    爬蟲學習之基于scrapy的網(wǎng)絡爬蟲_第2頁
    爬蟲學習之基于scrapy的網(wǎng)絡爬蟲_第3頁
    爬蟲學習之基于scrapy的網(wǎng)絡爬蟲_第4頁
    爬蟲學習之基于scrapy的網(wǎng)絡爬蟲_第5頁
    資源描述:

    《爬蟲學習之基于scrapy的網(wǎng)絡爬蟲》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在行業(yè)資料-天天文庫。

    1、爬蟲學習之基于Scrapy的網(wǎng)絡爬蟲  建立目標  同樣在做任何事情之前都需要明確目標,那這次我們的目標是爬取一些技術性的文章并存儲到數(shù)據(jù)庫中。這就需要有目標網(wǎng)址和數(shù)據(jù)庫結構,數(shù)據(jù)庫我們選擇使用MySql,目標網(wǎng)站我們找了一個叫腳本之家的內(nèi)容站。我們這里首先準備好一張用于存儲文章的表結構:  CREATETABLE`articles`(  `id`mediumint(8)AUTO_INCREMENTNOTNULL,  `title`varchar(255)DEFAULTNULL,  `content`longtext,  `add_date`int(11)DEFAULT

    2、0,  `hits`int(11)DEFAULT'0',  `origin`varchar(500)DEFAULT'',  `tags`varchar(45)DEFAULT'',  PRIMARYKEY(`id`),  KEY`add_date`(`add_date`)  )ENGINE=InnoDBDEFAULTCHARSET=utf8COLLATE=utf8_unicode_ci;  分析目標結構  這里我們首先需要爬取得入口是“網(wǎng)絡編程”這個節(jié)點,主入口網(wǎng)址為(http://www.jb51.net/list/index_1.htm)打開這個網(wǎng)站我們通過Chrom

    3、e或者其他瀏覽器的查看元素來分析當前頁面的HTML語義結構,如下圖所示:  從圖中紅色框線的部分可以看出,這里是我們需要在“網(wǎng)絡編程”這個節(jié)點下需要提取的所有文章的主分類入口,通過這些入口可以進去到不同文章分類的列表中。所以根據(jù)初步結構分析,我們得出本次爬蟲的爬取路線為:  從主入口進去->提取當前入口中的所有分類->通過分類入口進入到分類列表->通過列表進入到文章頁  分類入口確定了接下來看看我們的分類列表,隨意點開一個分類入口,打開列表如下圖所示:  這里我框出了兩個主要部分,第一個是文章的標題,第二個是分頁,文章對應的URL就是我們接下來需要爬取文章內(nèi)容的入口,這

    4、里需要注意的是分頁的處理,通過分頁的最后一頁我們可以知道當前這類列表共有多少頁文章。結合以上分析我們基本確定了本次爬蟲的各個路線入口,接下來我們就開始通過程序來實現(xiàn)本次的目標?! 崿F(xiàn)爬蟲  在實現(xiàn)爬蟲之前我們通過一張圖來對Scrapy有個基本的認識,為了保持本章內(nèi)容的簡潔性,我們這里暫時不會討論ItemPipeline部分,Scrapy架構圖如下所示(圖片來自網(wǎng)絡):  從圖中可以很清晰的看到Scrapy所包含的幾大塊,下面我們通過代碼來演示我們所用到的基礎功能部分?! ≈饕蕾嚨谌綆欤骸 eb.pyweb框架,這里只用到了database部分,將來會用來進行內(nèi)容

    5、展示  scrapy爬蟲框架,這里只用到了最基本的內(nèi)容提取  這里還會用到一些xpath相關知識,請自行Google了解xpath語法  #-*-coding:utf-8-*-  '''bysudorm-rfhttp://imchenkun.com'''  importscrapy  fromscrapy.httpimportRequest  importweb  importtime  db=web.database(dbn='mysql',host='127.0.0.1',db='imchenkun',user='root',pw='root')  #允許的站點域 

    6、 allow_domain="jb51.net"  base_url="http://www.jb51.net"  #列表頁  list_url="http://www.jb51.net/list/list_%d_%d.htm"  #列表分頁  list_page=1  #文章頁  crawl_url="http://www.jb51.net/article/%d.htm"  classJB51Spider(scrapy.Spider):  name="jb51"  start_urls=[  "http://www.jb51.net/list/index_1.htm"

    7、  ]  cate_list=[]  defparse(self,response):  cate_id=response.selector.xpath('//div[@class="index_borclearfix"]/div[@class="index_con"]/span/a/@href').re('(\\d+)')[::2]  foridincate_id:  cate_url=list_url%(int(id),1)  yieldRequest(cate_url,callback=self.parse_page)  def

    當前文檔最多預覽五頁,下載文檔查看全文

    此文檔下載收益歸作者所有

    當前文檔最多預覽五頁,下載文檔查看全文
    溫馨提示:
    1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
    2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
    3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
    4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。