SEO从入门到精通34-24（转载如本站资源侵犯您的权利请告知，本站将立即予以删除。）.txt

2022-07-15 80酷酷网 80kuku.com

</configSections>

<Rules>

<SendTo>~/user/default.aspx?link=$1</SendTo>

</RewriterRule>

</Rules>

</RewriterConfig>

<system.web>

<!--

需要在IIS 里面增加html 引用，改成aspx 的引用

-->

<add verb="*" path="*.aspx"

type="URLRewriter.RewriterFactoryHandler, URLRewriter" />

<add verb="*" path="*.html"

type="URLRewriter.RewriterFactoryHandler, URLRewriter" />

</httpHandlers>

5. 在地址栏输入

例如：Google，里面的函数名称只有 1 个或者2 个字符。

2. 将网页的公共部分转换为脚本并存于js 文件里。这样可以减少文件大小，加快下载速度，同

时也方便管理。不过不能将导航等等优化的关键代码转换成js ，否则搜索引擎搜索不到。

转换方式：

原来：<h1>天天收藏夹</h1>

脚本：document.write(“<h1>天天收藏夹</h1>”);

例如：华军软件园源代码，将标题、导航等等都放着js文件里，将导航放在js里面就不太好

了。

3.使用base 标签：

Base 标签是一个全集控制的标签。

比如：

其中 http://www.supercss.com 和 target=”_blank”: 多次重复，增加无用的代码。

修改为：

<head>

</head>

<body>

</body>

4.慎用网页减肥工具

通常的网页减肥工具，对htm 减肥具有一定的破坏性，常常为了减肥将标签的后半个标签删除，

造成网页的不完整。

处理前：<table><tr><td>第一行</td></tr><tr><td>第二行</td></tr></table>

处理后：<table><tr><td>第一行<tr><td>第二行</table>

处理后 </td></tr> 被去掉了，使页面不完整。

5.删除空格和回车

如果要更加苛刻的减肥，那最后一步就是删除空格了，还可以使文件大小下降很多。

不过删除空格后的页面由于没有阶梯排列，将很难读懂。

例子：百度首页的代码就非常紧凑。

不同位置的网页优化

网站首页优化：

1．关键词选择

《搜索引擎优化(SEO)从入门到精通》第 28 页

----------------------- 页面 29-----------------------

首页的关键词应该选择核心关键词。通常这些词优化难度比较大，需要大量的外部链接。交换

链接的时候以网站名称或者核心关键词命名链接。参见：域名及网站名称中的关键词

例如：在搜索引擎优化行业，首页的关键词应该是 SEO。

2．网页链接

首页大部分都是链接，最新的链接要放在网页的前面，便于搜索引擎收录。

3．更新频率

蜘蛛第一个来到的页面就是首页，首页一定要经常更新，蜘蛛就会来的比较频繁，链接的页面

将会更快被收录。

栏目页优化：

1. 关键词选择

栏目页的关键词，相对首页，可以选择次一些的关键词，以核心“SEO”为例，栏目也可以是“SEO

培训”，“SEO 教程”等。

2. 内部链接

栏目页一定要链接到首页，为首页建立内部链接。同时和其他栏目页也要相互链接。

栏目页大量的链接内容页，链接数量控制在 100 个以内。

内页优化：

1. 关键词

内页可以不特别关注关键词，可以将Meta Title 设置成相同的内容。在页面里更多的利用H1，

IMG、STRONG 标签优化关键词。

2. 内容

网页要以内容为主，大于5K 时，可以做翻页处理。内容最好是原创，内页收录的越多，从搜索

引擎来的流量才能越多。

3. 链接

通常内页很少有外部链接的，除非内容非常好，被人转载。内页要链接栏目页和首页，大量的

内页链接，有利于栏目页和首页的关键词排名。内页最好能链接内容相关的其他内页，这样可

以增加网页的相关度，同时方便用户浏览，增加网站的PV。

Robots.txt

搜索引擎通过一种程序robot （又称spider），自动访问互联网上的网页并获取网页信息。

您可以在您的网站中创建一个纯文本文件robots.txt，在这个文件中声明该网站中不想被robot 访问的

部分，这样，该网站的部分或全部内容就可以不被搜索引擎收录了，或者指定搜索引擎只收录指定

的内容。robots.txt 文件应该放在网站根目录下。

robots.txt 文件的格式：

"robots.txt"文件包含一条或更多的记录，这些记录通过空行分开（以CR,CR/NL, or NL 作为结束符），

每一条记录的格式如下所示：

"<field>:<optionalspace><value><optionalspace>"。

在该文件中可以使用#进行注解，具体使用方法和UNIX 中的惯例一样。该文件中的记录通常以一行

或多行User-agent 开始，后面加上若干Disallow 行,详细情况如下：

《搜索引擎优化(SEO)从入门到精通》第 29 页

----------------------- 页面 30-----------------------

User-agent:

该项的值用于描述搜索引擎 robot 的名字，在"robots.txt"文件中，如果有多条User-agent 记录说

明有多个robot 会受到该协议的限制，对该文件来说，至少要有一条User-agent 记录。如果该项的值

设为*，则该协议对任何机器人均有效，在"robots.txt"文件中，"User-agent:*"这样的记录只能有一条。

Disallow:

该项的值用于描述不希望被访问到的一个 URL，这个 URL 可以是一条完整的路径，也可以是

部分的，任何以 Disallow 开头的 URL 均不会被 robot 访问到。例如"Disallow:/help"对/help.html 和

/help/index.html 都不允许搜索引擎访问，而"Disallow:/help/"则允许robot 访问/help.html，而不能访问

/help/index.html 。任何一条Disallow 记录为空，说明该网站的所有部分都允许被访问，在"/robots.txt"

文件中，至少要有一条Disallow 记录。如果"/robots.txt"是一个空文件，则对于所有的搜索引擎robot，

该网站都是开放的。

robots.txt 文件用法举例：

例 1. 禁止所有搜索引擎访问网站的任何部分 User-agent: *

下载该robots.txt文件 Disallow: /

例 2. 允许所有的 robot 访问 ( 或者也可以建一个空文件 User-agent: *

"/robots.txt" file) Disallow:

User-agent:

例3. 禁止某个搜索引擎的访问 BadBot

Disallow: /

User-agent:

baiduspider

Disallow:

例 4. 允许某个搜索引擎的访问

User-agent: *

Disallow: /

例 5.一个简单例子

在这个例子中，该网站有三个目录对搜索引擎的访问做了限制，User-agent: *

即搜索引擎不会访问这三个目录。 Disallow:

需要注意的是对每一个目录必须分开声明，而不要写成 /cgi-bin/

"Disallow: /cgi-bin/ /tmp/"。 Disallow: /tmp/

User-agent:后的*具有特殊的含义，代表"any robot"，所以在该 Disallow: /~joe/

文件中不能有"Disallow: /tmp/*" or "Disallow:*.gif"这样的记录出现.

Robot 特殊参数：

1. Google

允许 Googlebot：

如果您要拦截除 Googlebot 以外的所有漫游器访问您的网页，可以使用下列语法：

《搜索引擎优化(SEO)从入门到精通》第 30 页

----------------------- 页面 31-----------------------

User-agent:Disallow:/

User-agent:Googlebot

Disallow:

Googlebot 跟随指向它自己的行，而不是指向所有漫游器的行。

"Allow"扩展名：

Googlebot 可识别称为"Allow"的 robots.txt 标准扩展名。其他搜索引擎的漫游器可能无法识别此

扩展名，因此请使用您感兴趣的其他搜索引擎进行查找。"Allow"行的作用原理完全与"Disallow"

行一样。只需列出您要允许的目录或页面即可。

您也可以同时使用"Disallow"和"Allow"。例如，要拦截子目录中某个页面之外的其他所有页面，

可以使用下列条目：

User-Agent:Googlebot

Disallow:/folder1/

Allow:/folder1/myfile.html

这些条目将拦截 folder1 目录内除 myfile.html 之外的所有页面。

如果您要拦截 Googlebot 并允许 Google 的另一个漫游器（如 Googlebot-Mobile ），可使用

"Allow"规则允许该漫游器的访问。例如：

User-agent:Googlebot

Disallow:/

User-agent:Googlebot-Mobile

Allow:

使用 * 号匹配字符序列：

您可使用星号 (*) 来匹配字符序列。例如，要拦截对所有以 private 开头的子目录的访问，可使

用下列条目：

User-Agent:Googlebot

Disallow:/private*/

要拦截对所有包含问号 (?) 的网址的访问，可使用下列条目：

User-agent:*

Disallow:/*?*

使用 $ 匹配网址的结束字符

您可使用 $ 字符指定与网址的结束字符进行匹配。例如，要拦截以 .asp 结尾的网址，可使用

下列条目：

User-Agent:Googlebot

Disallow:/*.asp$

您可将此模式匹配与 Allow 指令配合使用。例如，如果 ? 表示一个会话 ID，您可排除所有包

《搜索引擎优化(SEO)从入门到精通》第 31 页

----------------------- 页面 32-----------------------

含该 ID 的网址，确保 Googlebot 不会抓取重复的网页。但是，以 ? 结尾的网址可能是您要包

含的网页版本。在此情况下，可对 robots.txt 文件进行如下设置：

User-agent:*

Allow:/*?$

Disallow:/*?

Disallow:/ *?一行将拦截包含 ? 的网址（具体而言，它将拦截所有以您的域名开头、后接任意字

符串，然后是问号 (?)，而后又是任意字符串的网址）。

Allow: /*?$ 一行将允许包含任何以 ? 结尾的网址（具体而言，它将允许包含所有以您的域名开

头、后接任意字符串，然后是问号 (?)，问号之后没有任何字符的网址）。

Sitemap 网站地图：

对网站地图的新的支持方式，就是在robots.txt 文件里直接包括 sitemap 文件的链接。

就像这样：

Sitemap: http://www.supercss.com/index.xml

目前对此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。

不过，我建议还是在Google Sitemap 进行提交，里面有很多功能可以分析你的链接状态。

Robots.txt 带来的好处：

1. 几乎所有的搜索引擎 Spider 都遵循robots.txt 给出的爬行规则，协议规定搜索引擎 Spider 进

入某个网站的入口即是该网站的robots.txt，当然，前提是该网站存在此文件。对于没有配置

robots.txt 的网站，Spider 将会被重定向至404 错误页面，相关研究表明，如果网站采用了自

定义的404 错误页面，那么 Spider 将会把其视作robots.txt——虽然其并非一个纯粹的文本文

件——这将给 Spider 索引网站带来很大的困扰，影响搜索引擎对网站页面的收录。

2. robots.txt 可以制止不必要的搜索引擎占用服务器的宝贵带宽，如email retrievers，这类搜索

引擎对大多数网站是没有意义的；再如 image strippers，对于大多数非图形类网站来说其也

没有太大意义，但却耗用大量带宽。

3. robots.txt 可以制止搜索引擎对非公开页面的爬行与索引，如网站的后台程序、管理程序，事

实上，对于某些在运行中产生临时页面的网站来说，如果未配置robots.txt，搜索引擎甚至会

索引那些临时文件。

4. 对于内容丰富、存在很多页面的网站来说，配置 robots.txt 的意义更为重大，因为很多时候

其会遭遇到搜索引擎 Spider 给予网站的巨大压力：洪水般的 Spider 访问，如果不加控制，甚

至会影响网站的正常访问。

5. 同样地，如果网站内存在重复内容，使用robots.txt 限制部分页面不被搜索引擎索引和收录，

可以避免网站受到搜索引擎关于 duplicate content 的惩罚，保证网站的排名不受影响。

robots.txt 带来的风险及解决：

1. 凡事有利必有弊，robots.txt 同时也带来了一定的风险：其也给攻击者指明了网站的目录结构

和私密数据所在的位置。虽然在 Web 服务器的安全措施配置得当的前提下这不是一个严重

《搜索引擎优化(SEO)从入门到精通》第 32 页

----------------------- 页面 33-----------------------

的问题，但毕竟降低了那些不怀好意者的攻击难度。

比如说，如果网站中的私密数据通过 www.yourdomain.com/private/index.html 访问，那

么，在robots.txt 的设置可能如下：

User-agent: *

Disallow: /private/

这样，攻击者只需看一下 robots.txt 即可知你要隐藏的内容在哪里，在浏览器中输入

www.yourdomain.com/private/ 便可访问我们不欲公开的内容。对这种情况，一般采取如下的

办法：

设置访问权限，对/private/ 中的内容实施密码保护，这样，攻击者便无从进入。

另一种办法是将缺省的目录主文件 index.html 更名为其他，比如说 abc-protect.html，这样，

该内容的地址即变成 www.yourdomain.com/private/abc-protect.htm ，同时，制作一个新的

index.html 文件，内容大致为“你没有权限访问此页”之类，这样，攻击者因不知实际的文

件名而无法访问私密内容。

2. 如果设置不对，将导致搜索引擎将索引的数据全部删除。

User-agent: *

Disallow: /

上述代码将禁止所有的搜索引擎索引数据。

参见：页面收录减少，如何检查判断？

网页相似度

网页相似度是比较网页是否相似，通常有以下两种计算方式：

1. 根据网页摘要来比较，如果多个网页摘要的md5 值一样，证明这些网页有很高的相似性

2. 根据网页出现关键词，按照词频排序，可以取N 个词频高的，如果md5 值一样，证明这些网页

有很高的相似性。

网页相似度对SEO 的影响：

Google 对网页相似度限制在 60%，如果超过这个标准将导致页面不被收录，或者收录后排名靠后中。

参考：如何降低网页相似度？

404 页面