為了避免重復爬行和抓取網址,搜索引擎會建立一個地址庫,記錄已經被發現、但還沒有抓取的頁面,以及已經被抓取的頁面。蜘蛛在頁面上發現鏈接后并不是馬上就去訪問,而是將URL存入地址庫,然后統一安排抓取。
地址庫中的URL有幾個來源:
1、 人工錄入的種子網站。
2、 蜘蛛抓取頁面后,從HTML中解析出新的鏈接URL,與地址庫中的數據進行對比,如果是地址庫中沒有的網址,就存入待訪問地址庫。
3、 站長通過搜索引擎網頁提交表格提交進來的網址。
4、 站長通過XML網站地圖、站長平臺提交的網址。
蜘蛛按重要性從待訪問地址庫中提取URL,訪問并抓取頁面,然后把這個URL從待訪問地址庫中刪除,放進已訪問地址庫中。
大部分主流搜索引擎都提供一個表格,讓站長提交網址。不過這些提交來的網址都只是存入地址庫而已,是否收錄還要看頁面重要性如何。搜索引擎所收錄的絕大部分頁面是自己跟蹤鏈接得到的??梢蕴峤豁撁孀饔梦⒖破湮?,搜索引擎更喜歡自己沿著鏈接發現新頁面。
此文章“搜索引擎的地址庫介紹來源于網絡收集、整理,如有涉及版權問題請與本網站聯系刪除!”當前文章地址:http://www.wi-city.com.cn/news/155.html,更多相關南京seo網站優化文章請到http://www.wi-city.com.cn/news/閱讀查看!