国产乱人视频免费观看网站,九九精品视频在线观看,九九久re8在线精品视频,日韩久久精品五月综合

<menu id="zjelp"></menu>

    <th id="zjelp"><tbody id="zjelp"><form id="zjelp"></form></tbody></th>
    <small id="zjelp"><menuitem id="zjelp"></menuitem></small>
  • <small id="zjelp"></small>

    <address id="zjelp"></address>
    <address id="zjelp"></address>
    c#015基于ajax+lucene構(gòu)建搜索引擎的設(shè)計和實現(xiàn)2

    c#015基于ajax+lucene構(gòu)建搜索引擎的設(shè)計和實現(xiàn)2

    ID:7781295

    大?。?11.50 KB

    頁數(shù):6頁

    時間:2018-02-25

    c#015基于ajax+lucene構(gòu)建搜索引擎的設(shè)計和實現(xiàn)2_第1頁
    c#015基于ajax+lucene構(gòu)建搜索引擎的設(shè)計和實現(xiàn)2_第2頁
    c#015基于ajax+lucene構(gòu)建搜索引擎的設(shè)計和實現(xiàn)2_第3頁
    c#015基于ajax+lucene構(gòu)建搜索引擎的設(shè)計和實現(xiàn)2_第4頁
    c#015基于ajax+lucene構(gòu)建搜索引擎的設(shè)計和實現(xiàn)2_第5頁
    資源描述:

    《c#015基于ajax+lucene構(gòu)建搜索引擎的設(shè)計和實現(xiàn)2》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫

    1、基于Ajax+Lucene構(gòu)建搜索引擎的設(shè)計與實現(xiàn)摘要通過搜索引擎從互聯(lián)網(wǎng)上獲取有用信息已經(jīng)成為人們生活的重要組成部分,Lucene是構(gòu)建搜索引擎的其中一種方式。搜索引擎系統(tǒng)是在.Net平臺上用C#開發(fā)的,數(shù)據(jù)庫是MSSQLServer2000。主要完成的功能有:用爬蟲抓取網(wǎng)頁;獲取有效信息放入數(shù)據(jù)庫;通過Lucene建立索引;對簡單關(guān)鍵字進(jìn)行搜索;使用Ajax的局部刷新頁面展示結(jié)果。論文詳細(xì)說明了系統(tǒng)開發(fā)的背景,開發(fā)環(huán)境,系統(tǒng)的需求分析,以及功能的設(shè)計與實現(xiàn)。同時講述了搜索引擎的原理,系統(tǒng)功能,并探討使用Aja

    2、x與服務(wù)器進(jìn)行數(shù)據(jù)異步交互,從而改善現(xiàn)有的Web應(yīng)用模式。關(guān)鍵詞:Lucene.net;異步更新;Ajax;搜索引擎目錄1引言11.1課題背景11.2國內(nèi)外研究現(xiàn)狀11.3本課題研究的意義11.4本課題的研究方法12Lucene.net構(gòu)建搜索引擎原理22.1全文搜索引擎22.1.1搜索引擎的分類22.1.2搜索引擎的工作原理22.2Lucene與搜索引擎32.3索引和搜索42.4Ajax技術(shù)43需求分析53.1同步環(huán)境53.2功能需求63.3性能需求63.4輸入輸出要求73.5運行需求7第6頁共19頁4方案設(shè)計

    3、74.1搜索引擎模型74.2數(shù)據(jù)庫的設(shè)計74.3模塊設(shè)計85系統(tǒng)實現(xiàn)105.1開發(fā)環(huán)境105.2關(guān)鍵代碼詳解105.2.1代碼結(jié)構(gòu)105.2.2爬蟲部分115.2.3索引生成125.2.4頁面查詢136測試146.1功能測試14結(jié)論16參考文獻(xiàn)17致謝18聲明3需求分析3.1同步環(huán)境本系統(tǒng)的同步環(huán)境如圖3:圖3同步環(huán)境檢索服務(wù)器通過Internet檢索Web頁面。3.2功能需求本設(shè)計要實現(xiàn)的功能:第6頁共19頁1.能夠?qū)nternet上的網(wǎng)頁內(nèi)容、標(biāo)題、鏈接等信息按鏈?zhǔn)绞占?.能夠?qū)崿F(xiàn)一定鏈接深度的網(wǎng)頁收集,

    4、也就是在Internet上實現(xiàn)一定的URL級的數(shù)據(jù)收錄。3.對收集到的數(shù)據(jù)存入MSSQLServer2000等關(guān)系型數(shù)據(jù)庫中、或者存入文本文件中。4.網(wǎng)站信息庫中的信息會不斷的變動,對收集到的數(shù)據(jù)需要定期的自動維護(hù),做到定期的刪除、從新收集。5.對收集到的數(shù)據(jù)進(jìn)行關(guān)鍵詞的檢索。6.對檢索出的數(shù)據(jù)要可定位性,即可以顯示對數(shù)據(jù)的出處的鏈接。7.實現(xiàn)中英文分詞功能,能夠按中文或者英文單詞檢索數(shù)據(jù)。8.實現(xiàn)無刷新的顯示搜索結(jié)果,對搜索用時的計算、顯示,關(guān)鍵字高亮顯示等。9.邏輯搜索功能比如“中國”AND“北京”ANDNO

    5、T(“海淀區(qū)”AND“中關(guān)村”)。3.3性能需求1.精度:1.1對收集到的信息需要一定的完整性,即對鏈接層次里的每個鏈接頁面都能夠收集得到,并寫入收集的存儲區(qū)里。1.2對搜索出的內(nèi)容需要包含有關(guān)鍵字信息2.時間特性要求:2.1數(shù)據(jù)收集時,因為是對Internet網(wǎng)上Web信息的收集,并且采用URL級鏈?zhǔn)降木W(wǎng)頁收集。收集數(shù)據(jù)時不能夠出現(xiàn)無響應(yīng)的等待。2.2搜索時響應(yīng)時間應(yīng)不超過3秒,無論搜索的記錄多少。3.靈活性3.1具有良好的中文切詞功能。3.4輸入輸出要求輸入:搜索的關(guān)鍵字。處理:去前后空格,關(guān)鍵字,查詢索引庫

    6、。輸出:Web頁面上顯示搜索信息。3.5運行需求1.硬件環(huán)境需求:需要使用專用服務(wù)器,P4以上,512M以上內(nèi)存,80G以上硬盤;Internet網(wǎng)絡(luò)連接。2.軟件環(huán)境:第6頁共19頁源端:Windows2003/XP操作系統(tǒng)、MSSQLServer2000數(shù)據(jù)庫、IIS5.0、.NETFramework1.1。4方案設(shè)計結(jié)合前面的同步原理,以及需求的介紹,下面給出同步的方案設(shè)計。4.1搜索引擎模型模型包括爬蟲、索引生成、查詢以及系統(tǒng)配置部分。爬蟲包括:網(wǎng)頁抓取模塊、網(wǎng)頁減肥模塊、爬蟲維持模塊。索引生成包括:基于

    7、文本文件的索引、基于數(shù)據(jù)庫的索引。查詢部分有Ajax、后臺處理、前臺界面模塊。如圖4所示。圖4系統(tǒng)模塊圖5.1功能流程圖5.2.2爬蟲部分這部份的功能就是從輸入的URL開始遍歷各個相關(guān)的網(wǎng)頁,它包括三個功能模塊:網(wǎng)頁抓取模塊、網(wǎng)頁減肥模塊、爬蟲維持模塊。首先定義一些變量用于保存抓取到的網(wǎng)頁信息,urlList用于保存當(dāng)前頁面上的URL集合。然后根據(jù)全局變量url抓取此URL的網(wǎng)頁信息到字節(jié)流變量里,經(jīng)過轉(zhuǎn)碼后讀取到變量PageString里,下步通過函數(shù)GetHttpUrl(PageString)對PageStr

    8、ing中的URL標(biāo)記進(jìn)行提取并返回到urlList變量里,函數(shù)GetTitle(PageString)、parseScript(PageString)、parseHtml(PageString)、parseChar(Content)分別對網(wǎng)頁信息變量獲取標(biāo)題、去除腳本塊、去除HTML標(biāo)記、去除特殊字符操作。再下步就是對獲取到的標(biāo)題、網(wǎng)頁內(nèi)容、鏈接等信息調(diào)用數(shù)據(jù)庫操作通用類

    當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

    此文檔下載收益歸作者所有

    當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
    溫馨提示:
    1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
    2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
    3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
    4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。