个人博客 SEO 优化（2）：站内优化-白红宇

个人博客 SEO 优化（2）：站内优化

阅读量：5983 次

发布时间：2019-06-20

本文共 5531 字，大约阅读时间需要 18 分钟。

文章首发于我的博客：

对于搜索引擎原理不清楚的可以看第一篇文章：

SEO 优化可以分为站内优化和站外优化，而站内优化又分为：网站结构优化和网站页面优化。从 SEO 角度来看，做网站结构优化的目的在于：

提高用户体验

提高收录

更好的权重分配

优化锚文字分布

网站结构优化简单概括有下面几个要素：

物理及链接结构

清晰的导航

禁止收录机制

nofollow 使用

URL 静态化

URL 设计

网址规范化

复制内容

网站地图 sitemap

内部链接及权重分配

404 页面

网站结构优化

物理及链接结构

物理结构指的就是网站真实目录及文件所在的位置决定的结构。一般来说，比较合理的两种物理结构是扁平式和树形结构。扁平式就是所有的页面都放在一级，一般来说，这种方式只适合页面数量少的网站。更多的都是采用树形结构的方式。比如利用 hexo 构建的博客就是采用树形结构:

链接结构指的是网站内部页面的链接所形成的结构。链接结构通常也是树形结构：

H 代表着网站首页。C1 和 C2 代表着网站的分类首页。P1~4 则是具体的每个页面。这只是演示的结构，实际的结构会比这个更加复杂。

对于搜索引擎来说，链接结构会比物理结构来得更有意义。在上一篇中有介绍到，与首页点击距离越近的页面被 spider 爬行的概率也大，即权重越高。这里的点击距离指的就是链接结构的距离。比如同样是属于第三层级的 P3 页面，由于被首页直接链接指向，它的首页点击距离比其他页面来得短，因此会有更高的权重。

设置合理的网站的链接结构有利于页面权重的分配。

清晰的导航

清晰的导航系统是网站设计的重要目标。毕竟你肯定不想你的用户进入你的网站首页后，面对混乱的导航，难以找到想到的页面。对于搜索引擎的 spider 也是如此，混乱的导航会降低 spider 爬行概率。

在设置网站导航应该注意下面几点：

文字导航。尽量使用 HTML 静态文字作为导航，不要使用 JavaScript 生成的动态导航。这样对 spider 来说，爬行阻力最小。导航系统链接是整个网站收录最重要的内部链接

点击距离及扁平化。导航的一个目标就是让所有的页面与首页点击距离越短越好。像权重普通的网站，内页一般不要超过首页 4、5 次点击。所以要尽量在链接结构上做到扁平化。

锚文字中包含关键词。导航关键词尽量使用目标关键词。

面包屑导航。对于中大型网站，面包屑是必不可少。它是帮助用户和搜索引擎建立页面在网站整个结构中的位置最好的方法。

避免页脚堆积。近年来对于页脚堆积关键词的做法似乎不受搜索引擎欢迎了，尽量避免这种做法。

子域名和目录

搜索引擎通常会把子域名当成独立的站点。而目录就是该域名名下的一部分。比如http://api.chenhuichao.com 只是 http://www.chenhuichao.com 的一个子域名。

http://www.chenhuichao.com/tags 就是一个目录。

因此对主域名所做的优化，对于子域名的网站而言，同样需要再做一遍。一般的网站和博客不需要子域名。只有大型的网站才会需要。

禁止收录机制

你如果你不想某些具体的页面不被收录，可以通过 robots 文件或者 Meta Robots 标签来指定，确保页面不会被搜索引擎收录。

robots 文件

该文件是搜索引擎爬行网站第一个访问的，用于告诉搜索引擎那些内容可以爬取，哪些内容禁止爬取。如果没有写规则或者没有 robots 文件的话，就是默认全部没有都可以爬取。

但是由于有的网站服务器设置问题，如果不存在 robots.txt 文件的时候，会返回 200 状态码及一些错误信息。可能会导致 spider 错误解读信息。所以建议，至少也要放一个空的 robots.txt 文件在网站根目录下。

robots 的格式如下：

User-agent: *Disallow: /

上面的文件代表禁止所有搜索引擎爬取所有内容。User-agent: * 表示运行所有的搜索引擎。我们知道，不同的搜索引擎的 spider 名称也不同。在 User-agent 上你也可以设置名称，只允许特定的搜索引擎爬取。如 User-agent: Googlebot

Disallow 不添加任何路径就表示运行爬取任何内容。需要注意的是：如果要 Disallow 多个文件夹或者文件，需要写成多行。每一行 Disallow 只能写一个。

meta robots 标签

通过 <meta name="robots" content="noindex,nofollow"> 也可以设置禁止搜索引擎索引本页的内容，禁止跟踪本页的链接。其中 content 的参数有：

noindex: 不索引本页内容

nofollow：不追踪本页链接

nosnippet：不要在搜索结果中显示说明文字

noarchive：不要显示快照

noodp：不要使用开放目录中的标题和说明

每个参数中间需要已逗号隔开。

nofollow

格式如下：

nofollow

nofollow 标签是由 Google 领头创新的一个“反垃圾链接”的标签，并被市场上其他主流搜索引擎广泛支持。nofollow 是 a 标签的一个属性值。用于告诉搜索引擎不要追踪此链接，因为这个链接不是作者所信任的。这里的 nofollow 与上面说的 meta 标签上的 nofollow 区别在于：a 标签上的 nofollow 是指单个链接，而 meta 上的 nofollow 是指整个页面所有的链接。

nofollow 通常用于博客评论、论坛帖子、社交网站、留言板等地方。因为这些地方的内容都是用户可以自由留下链接，站长并不知道这些链接是否可信。经过测试发现，你在 segmentfault 或者掘金发表文章时，文章的外部链接都会加上 rel="nofollow"。

同时对于网站内部一些重复内容的页面或者是一些无需被收录的链接都可以加上该标签，可以防止网站权重浪费。比如像联系我们、隐私政策等页面，就可以使用 nofollow 标签了。

URL 静态化

我们都知道，对于动态页面对应 spider 爬取是不友好的。因此需要将 URL 静态化才能更好的让 spider 爬取。

这点对于 hexo 博客来说不成问题。毕竟本身都是静态博客，所有的页面都是 HTML 页面。

网址规范化问题

网址规范指的是尽量使用唯一的 URL，而不要使用多个 URL。比如下面的 url 虽然访问都是同样的内容，但是搜索引擎会把他们当做不同的页面

复制内容

复制内容也称重复内容，指的是多个 URL 的内容相同或者非常相似。复制内容既可能发生在同一网站内，也可能发生在不同网站上。

如果一个网站的复制内容过多的话，会带来害处。一是有可能使搜索引擎对网站的质量产生怀疑，导致惩罚。另外一种情况就是，同一个站内的复制内容过多的话，会分散权重。

那么该如何消除复制内容？

确保 URL 的唯一性。每个页面只有一个 URL。

对于某些确实需要多个 URL 页面可以使用 301 跳转

使用 cannoical 标签

内部链接及权限分配

一个网站的首页权重是最高的，接着是二级分类页面，与我们前面提到的链接结构一样，也是成一个树结构。内部权限分配有几个原则：

重点内页可以通过直接链接到首页提高权重

非必要页面设置 nofollow 不分散权重

锚文字对于内部权限分配也是非常重要的一个手段。这方面维基百科绝对是做得最好的。

404 页面

当访问的页面不存在时，需要一个专门的 404 页面。404 页面的设计需要注意几点：

保持与网站统一的风格

应该在醒目的位置显示错误信息，明确提示用户，访问的页面不存在。

错误页面还可以提供几种跳转：比如回到首页和其他你引导让用户访问的链接

404 页面与外链的一个小技巧

由于搜索引擎并不会无缘无故得爬行一些不存在的原因的。肯定是有外部链接指向这些地址，比如别人的博客页面引用等，而原文可能你已经删除或者更换 url 了。所以我们可以通过 Google 网站站长工具发现我们网站存在的错误链接，将错误地址做 301 跳转到正确的页面或者直接在本来不存在的 URL 上新建一个页面，接收这些外部链接的权重。