 |
台湾 行销企划部
电话:(02) 2704-1758
传真:(02) 2704-0372 |
| |
USA Service Dept.
ADD:5138 Parkfield Ave.
San Jose, CA95129
Tel:408-2034565 |
|
|
|
我们经常在找寻数据的时候,常常会看到一些很奇怪的网页数据。 例如有些页面是预先设计制作,尚未完成或着是尚未到达公布的时间,但已预先放置在网站下。这种情况都有可能被搜寻引擎找到。
该如何做才能让搜寻引擎不要检索这些不应该出现的页面呢? 其实方法很简单,只要写个简单的文字文件(robots.txt),放在网站的根目录即可。 当这些搜寻引擎crawler到达web服务器的时候,会先去根目录寻找是否有robots.txt这个档案。robots.txt里面的内容就是告诉搜寻引擎哪些数据夹或者是哪些网页不要检索。当spider或者crawler看过这个档案之后,就会依循robots.txt内容的指示,略过这些数据夹或者网页,而检索其它网页。
以Yahoo来说,Yahoo!的crawler名称叫做Slurp,因此如果不想让Yahoo检索你的网页,在robots.txt里面就应该这么写:
User-Agent:Slurp Disallow:/test/
然后储存成为robots.txt就可以了。User-Agent是用来告诉搜寻引擎crawler的名字,而Disallow则是告知搜寻引擎不可以做哪些事情。因此如果你不希望所有的搜寻引擎检索test数据夹,可以使用万用字符(*)代表所有的搜寻引擎。写法就变成: User-Agent:* Disallow:/test/
可以加上更多的Disallow陈述,说明不要检索哪些资料夹。
如果你只希望某个搜寻引擎检索这个数据夹,但不许其它搜寻引擎检索的话,那么写法就会变成:
User-Agent:* (所有的搜寻引擎) Disallow:/test/ User-Agent:Slurp (Yahoo搜寻引擎) Allow:/test/
如果只是想设定某张网页不要被检索,那么就更简单了。只要在网页的meta里面加上以下这一段程序代码即可:
一个网站只需要有一个robots.txt档案,放置在网站根目录底下即可实行
|
| 文章整理: |
网绎数码科技 Denise |
| 关键词: |
搜寻引擎 |
|
|
|