我的博客一直没有做SEO,也没有关注收录量流量什么的,最近心血来潮看了一下google的收录,发现收录了很多tag、category、日期的页面。这些基本上对seo是没什么用的,砍掉之后看起来会整洁很多。于是把所有文章都移到“articles”目录下,统一文章的固定链接,把独立页面移到到"pages"下,用robots.txt限制只允许抓取articles和pages下以html结尾的URL,其它链接全部不允许抓取,这样就达到了只允许收录文章和独立页面的目的。同时为了有更好的SEO效果,允许首页、归档页和网站的css(谷歌已经能抓取css和js,并提供页面预览)。虽然更改文章固定链接是大忌,但是谷歌基本上很快就全部更新了。百度和国内的“引擎”直接无视,爱收录不收录。整个过程配合Google站长工具测试很愉快。
下面是我现在用的robots.txt:

User-agent: *
Allow: /pages/*.html$
Allow: /*.css$
Allow: /articles/*.html$
Disallow: /*/
Disallow: /*?*