小程序開發(fā)公司為你講解什么是百度蜘蛛
大家好,這里是關(guān)于百度蜘蛛的介紹,那么很多人不理解百度蜘蛛有什么好介紹的呢?百度蜘蛛其實不是你想的那么簡單,看看下面吧!
1. 什么是Baiduspider
Baiduspider是百度搜索引擎的一個自動程序,它的作用是訪問互聯(lián)網(wǎng)上的網(wǎng)頁,建立索引數(shù)據(jù)庫,使用戶能在百度搜索引擎中搜索到您網(wǎng)站上的網(wǎng)頁。
2. Baiduspider的user-agent是什么?
百度各個產(chǎn)品使用不同的user-agent:
產(chǎn)品名稱
對應(yīng)user-agent
無線搜索
Baiduspider
圖片搜索
Baiduspider-image
視頻搜索
Baiduspider-video
新聞搜索
Baiduspider-news
百度搜藏
Baiduspider-favo
百度聯(lián)盟
Baiduspider-cpro
商務(wù)搜索
Baiduspider-ads
網(wǎng)頁以及其他搜索
Baiduspider
3. Baiduspider對一個網(wǎng)站服務(wù)器造成的訪問壓力如何?
為了達到對目標資源較好的檢索效果,Baiduspider需要對您的網(wǎng)站保持一定量的抓取。我們盡量不給網(wǎng)站帶來不合理的負擔(dān),并會根據(jù)服務(wù)器承 受能力,網(wǎng)站質(zhì)量,網(wǎng)站更新等綜合因素來進行調(diào)整。如果您覺得baiduspider的訪問行為有任何不合理的情況,您可以反饋至反饋中心。
4. 為什么Baiduspider不停的抓取我的網(wǎng)站?
對于您網(wǎng)站上新產(chǎn)生的或者持續(xù)更新的頁面,Baiduspider會持續(xù)抓取。此外,您也可以檢查網(wǎng)站訪問日志中Baiduspider的訪問是否正常,以防止有人惡意冒充Baiduspider來頻繁抓取您的網(wǎng)站。 如果您發(fā)現(xiàn)Baiduspider非正常抓取您的網(wǎng)站,請通過反饋中心反饋給我們,并請盡量給出Baiduspider對貴站的訪問日志,以便于我們跟蹤處理。
5. 如何判斷是否冒充Baiduspider的抓???
建議您使用DNS反查方式來確定抓取來源的ip是否屬于百度,根據(jù)平臺不同驗證方法不同,如linux/windows/os三種平臺下的驗證方法分別如下:
5.1 在linux平臺下,您可以使用host ip命令反解ip來判斷是否來自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即為冒充。
$ host 123.125.66.120
120.66.125.123.in-addr.arpa domain name pointer
baiduspider-123-125-66-120.crawl.baidu.com.
host 119.63.195.254
254.195.63.119.in-addr.arpa domain name pointer
BaiduMobaider-119-63-195-254.crawl.baidu.jp.
5.2 在windows平臺或者IBM OS/2平臺下,您可以使用nslookup ip命令反解ip來 判斷是否來自Baiduspider的抓取。打開命令處理器 輸入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 來判斷是否來自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即為冒充。
5.3 在mac os平臺下,您可以使用dig 命令反解ip來 判斷是否來自Baiduspider的抓取。打開命令處理器 輸入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip,來判斷是否來自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即為冒充。
6. 我不想我的網(wǎng)站被Baiduspider訪問,我該怎么做?
Baiduspider遵守互聯(lián)網(wǎng)robots協(xié)議。您可以利用robots.txt文件完全禁止Baiduspider訪問您的網(wǎng)站,或者禁止 Baiduspider訪問您網(wǎng)站上的部分文件。 注意:禁止Baiduspider訪問您的網(wǎng)站,將使您的網(wǎng)站上的網(wǎng)頁,在百度搜索引擎以及所有百度提供搜索引擎服務(wù)的搜索引擎中無法被搜索到。關(guān)于 robots.txt的寫作方法,請參看我們的介紹:robots.txt寫作方法
您可以根據(jù)各產(chǎn)品不同的user-agent設(shè)置不同的抓取規(guī)則,如果您想完全禁止百度所有的產(chǎn)品收錄,可以直接對Baiduspider設(shè)置禁止抓取。
以下robots實現(xiàn)禁止所有來自百度的抓?。?
User-agent: Baiduspider
Disallow: /
以下robots實現(xiàn)禁止所有來自百度的抓取但允許圖片搜索抓取/image/目錄:
User-agent: Baiduspider
Disallow: /
User-agent: Baiduspider-image
Allow: /image/
請注意:Baiduspider-cpro抓取的網(wǎng)頁并不會建入索引,只是執(zhí)行與客戶約定的操作,所以不遵守robots協(xié)議,如果Baiduspider-cpro給您造成了困擾,請聯(lián)系union1@baidu.com。
Baiduspider-ads抓取的網(wǎng)頁并不會建入索引,只是執(zhí)行與客戶約定的操作,所以不遵守robots協(xié)議,如果Baiduspider-ads給您造成了困擾,請聯(lián)系您的客戶服務(wù)專員。
7. 為什么我的網(wǎng)站已經(jīng)加了robots.txt,還能在百度搜索出來?
因為搜索引擎索引數(shù)據(jù)庫的更新需要時間。雖然Baiduspider已經(jīng)停止訪問您網(wǎng)站上的網(wǎng)頁,但百度搜索引擎數(shù)據(jù)庫中已經(jīng)建立的網(wǎng)頁索引信息,可能需要數(shù)月時間才會清除。另外也請檢查您的robots配置是否正確。
如果您的拒絕被收錄需求非常急迫,也可以通過反饋中心反饋請求處理。
8. 我希望我的網(wǎng)站內(nèi)容被百度索引但不被保存快照,我該怎么做?
Baiduspider遵守互聯(lián)網(wǎng)meta robots協(xié)議。您可以利用網(wǎng)頁meta的設(shè)置,使百度顯示只對該網(wǎng)頁建索引,但并不在搜索結(jié)果中顯示該網(wǎng)頁的快照。
和robots的更新一樣,因為搜索引擎索引數(shù)據(jù)庫的更新需要時間,所以雖然您已經(jīng)在網(wǎng)頁中通過meta禁止了百度在搜索結(jié)果中顯示該網(wǎng)頁的快照,但百度搜索引擎數(shù)據(jù)庫中如果已經(jīng)建立了網(wǎng)頁索引信息,可能需要二至四周才會在線上生效。
9. Baiduspider抓取造成的帶寬堵塞?
Baiduspider的正常抓取并不會造成您網(wǎng)站的帶寬堵塞,造成此現(xiàn)象可能是由于有人冒充Baiduspider惡意抓取。如果您發(fā)現(xiàn)有名為Baiduspider的agent抓取并且造成帶寬堵塞,請盡快和我們聯(lián)系。您可以將信息反饋至反饋中心,如果能夠提供您網(wǎng)站該時段的訪問日志將更加有利于我們的分析。
- 小程序開發(fā),看完這六條,我秒懂了!
- 有哪些靠譜的小程序開發(fā)公司?
- 小程序SaaS 平臺是什么?
- 定制開發(fā)一款小程序的步驟是怎樣的
- 開發(fā)一個小程序需要掌握哪些知識和技術(shù)?
- 小程序定制開發(fā),哪幾個步驟需要注意?
- 盤點小程序開發(fā)5大“坑”,可別再踩了
- 企業(yè)為什么一定要開發(fā)小程序,有什么優(yōu)勢和特點?
- 微信怎樣開發(fā)小程序「公司企業(yè)小程序開發(fā)」
- 小程序開發(fā)注意事項,趕緊收藏起來吧
- 微信小程序開發(fā)的注意事項,看完這個你全都懂了!
- 微信小程序開發(fā)的幾個注意事項,看完這個你全都懂了