經發現,雖然wget遵循 robots.txt 規則,但是那個還是可以繞過去,現在把我自己使用的屏蔽方法分享給大家:
1. 屏蔽下載任何文件
.htaccess
SetEnvIfNoCase User-Agent "^wget" bad_bot<Limit GET POST> Order Allow,Deny Allow from all Deny from env=bad_bot</Limit>
2. 屏蔽下載部分文件
.htaccess
SetEnvIfNoCase User-Agent "^Wget" bad_botSetEnvIfNoCase User-Agent "^Wget/1.5.3" bad_botSetEnvIfNoCase User-Agent "^Wget/1.6" bad_bot<Files ~ "/.(html|pdf|mp3|zip|rar|exe|gif|jpe?g|png|php|jsp) $">Order Allow,DenyAllow from allDeny from env=bad_bot</files>
新聞熱點
疑難解答