都时兴WEB2.0了,我还打算谈SEO,确实有一点落伍。事情是这样的,我最近要写一个无聊的方案书,提纲已经拟了一个月了,就是懒得写正文。所以我决定把内容拆开了写,独立成章,这样可以发挥我离题万里的特性。如果万幸,我能写完这一系列文章,那每篇删去50%,就可以组合成那个预想中的方案书。这个方式如果多人合作来做的话,似乎就有那么点WEB2.0的意思了。好象说远了。
HAO123的性质我以为应该是非常的明显,但后来发现即使是很多IT人士,甚至是高手都得出了错误的结论。当然这更大的可能是说明我错了,但我是那种死不认错的人,你们拿我没办法。
最开始看的一篇文章,是说HAO123充分照顾了初学者的需求,用简单的页面罗列最常去的站点LINK,对网友十分友好、方便,所以很多人都把它当主页。我当时简直要喷饭,稍微有点常识也不会如此吧?我很刻薄,在评论里说作者即使只去个人站长圈子的论坛里看两天,也不会发出如此无知的言论。
但最近我发现几位大腕级别的IT人士,竟然对HAO123也有类似的看法。一人是说中国网民水平低,但他相信如果有更好的站点出现,大家是会接受的,不会只用HAO123。另一人更直接,说他的网站目标就是HAO123,是让那些连后退键都不会使用的网民也能上的网站。
HAO123到底是什么?是低水平网民爱用的,但IT高手看起来傻的站点么?虽然我没见过,但我不排除有人会喜欢HAO123,并主动把它作为起始页。不过,我觉得把它定位为低水平者爱用的站点,主要是满足大家了大家当高手的心理:我还是比很多低水平的人强啊。有多少人(比例)会主动使用HAO123?每一个人都说低水平的人喜欢,可低水平的人在哪里呢?
HAO123是随着搜索引擎成长起来的站点。搜索引擎已经铸造了一代人的上网习惯。想一想我们自己,突然想起什么事,或是遇到一个不懂的词,都会立刻用GOOGLE或者百度来搜索一下。在搜索过程中,我们经常“误入”类似HAO123的站点:你要去下载软件,搜到的是一个有一堆该软件LINK的页面。当然这也对我们有用,但搜索引擎直接搜索到最终页面,不是更好么?为什么需要这么一个中间的页面呢?用术语来说这叫“桥页”。
桥页是SEO常用的手段。所谓SEO是Search Engine Optimization的缩写,搜索引擎优化的意思。就是说用的手段可以使用户搜索东西的时候,让你的网站排列在靠前的位置。搜索引擎既然成为了大家的上网习惯,那排列在搜索结果前面的站点自然会得到更多的流量。HAO123类的站点不仅仅是让自己站点在一两个关键词搜索中排在前面,它首先要让基本所有热门搜索词的结果中都会出现它的结果,而即使这个条目列到很靠后的位置,因为搜索引擎的使用者惊人,还是会带来些许的PV。而当你被收录的和热门搜索词符合的页面非常多的时候,你的站点流量就会很快上去了。
要是一个一般网站要做到这个,需要非常大的人力。比如你是软件下载站点,那要跟踪很多流行软件的更新,发现最新开发的软件,并且要有安装、使用等一系列常识。而且没有人可以在各个方面都做到优秀。一个做软件下载好的站点,不见得做得好MP3,即使也能做MP3,总不能铃声图片也能做?游戏网址 ,宽带电影,软件下载,爱凊交友……
HAO123能做到。因为他们根本不关心最终结果,即使有错误也不影响。它要做的就是预先分析最可能的搜索词,然后搜集做这些的网站网址,来一个大汇总。这样搜索什么关键词,它都有一个页面等着你,这虽然也要花精力,但比维护一个“正常”站点要省力多了。而这些页面即使不正确,对用户没帮助,对HAO123也是没损失的。
这样的页面为什么会在搜索结果中排列的还比较靠前呢?首先要说搜索引擎的收录机制。你的网页做的再好,搜索引擎不知道也是白搭。搜索引擎会派出它的“爬虫”,一个自动收集网页的程序,在网上顺着连接,把遇到的每一个页面带回去放到搜索引擎的数据库中。当它遇到HAO123时,它会发现找到了一个“富矿”。
搜索引擎的爬虫不象人那样聪明,它只能按照固定的规则来收取页面。这样它就会比较偏好简单的、好分析的页面。如果一个连接是动态的,后面有太多的参数,比如http://www.tianyaclub.com/New/PublicForum/Content.asp?flag=0&idWriter=0&... 爬虫处理起来就会很累,有的爬虫索性不收录这样的页面,因为这样的动态页面可能都是从数据库中读取的,理论上可以随着你的参数不同,变出无数的页面。也许会构成一个爬虫永远走不出的迷宫。现在搜索引擎都能对付一些动态页面,但它们都更喜欢简洁的固定页面,比如 http://www.hao123.com/music.htm
爬虫喜欢更有效率的工作,收集完一个页面会沿着页面上的LINK再收集下级的页面。这样我们就能判断出它偏好的页面样子:简单,没什么多余的看不懂的结构、程序,最好上面有很多的LINK,可以让自己继续收集。如果这LINK通往的下级页面也是这样,我们可以想象爬虫会高兴的说:可找到你了。我太拟人化了。其实这些是编写爬虫程序的工程师们的想法,他们把这写进了爬虫的工作规则。HAO123类的桥页就符合这样规则。
爬虫有多厉害呢,我曾经做过的网站,有一个类似这样的桥页系统。平常的访问很低,40000左右,但有时会突然暴涨到8万。不用说,我知道,昨天百度的爬虫来访问过了。如果你做的对它的胃口,它会老来,每天吃掉你给它提供的页面。这对搜索引擎来说是可以理解的,它也希望收集更多的页面来提供给用户。(当然我做的不是垃圾站点,这后面还要说)
解决了收录这一步,剩下的要由搜索引擎分析,什么样的站点会排到前面。首先同样它喜欢简单的页面,因为它自己智力有限。其次它喜欢符合规则的页面,有规则它才能判断。桥页因为简单,这两点都会做的很好。然后因为搜索引擎没法用自己使用这些页面凭感觉来判断好坏,所以它重要的参考就是如果别处有更多的这个站点连接,那么说明这个站点更重要。这道理成立,但是桥页很容易做到了这点,因为它是专门做连接的。它添加了一个站点,要求对方也做它的友情连接是很正常的互换。不过它是专门做这个的,它可以得到的友情连接要比“正常”网页要多的多。而且这是相互影响的,当它在搜索引擎地位提高了,它要求别的站点做友情连接时就更可能得到回应,于是形成正循环。
这还是比较“台面”上的技巧。具体到HAO123来说,它还有一系列同类型的站点。它们之间互相做连接,搜索引擎也会因此提高所有这些站点的等级,互相促进。据说ALEXA前列的站点中,HAO123的所有者还有至少10几个同类型的站点。
若这些还算只欺骗搜索引擎的话,剩下的行为就更让那些要学习HAO123的IT大腕考验自己的良心了。HAO123早期是靠病毒修改用户主页的。不仅仅它这么做,它的一系列站点也都这么做,据说它还用过QQ病毒传播。这些现在已经找不到痕迹,它已经成功洗白了自己。但有一点还存在,就是网页总会跳出来提示,让你把HAO123设为主页。即使现在HAO123本身不这么做了,它的子站点依然还有这么做的痕迹。你可能访问一个看起来无关的站点,而把HAO123设成了主页。HAO123就是靠它SEO的一系列站点,成功的让很多计算机把它设成了主页。
这也是某些观察家们所说的,低水平用户欢迎,甚至喜欢到会把它设成主页的地步。我们去网吧看看,也确实能发现很多机器这样,因为大家对网吧的机器更不在乎,让我按“确定”我就按呗。网吧确实是中国特色,但我不认为HAO123是某些IT人士理解的中国特色。顺便说一句,要了解一般网民习惯的IT人士请抽出时间,定期去网吧。先观察大家在干什么、比例,然后再着重看某一个浏览页面的人,看他上网具体的点击习惯,和遇到的困惑。最后找台机器,把历史记录考下来,发到自己邮箱里,回去做网站访问分析。多做点基本功,别老畅想。
又说远了。
SEO手段还有很多,很细致具体。我只重点说了桥页。一方面我不可能详细介绍,这可以写专著了。另一方面很多技巧我也不知道。但大家只要想一下,很多站长靠这个就可以吃饭了,就明白这是一个很复杂的系统。
所以说HAO123类站点在某种程度上是寄生在搜索引擎上的,而不是为了满足低水平用户需求。某种意义上我们说“纯洁”的GOOGLE其实也助长了垃圾站点的产生。我要是GOOGLE,早把此类站点手动清除了。但GOOGLE 的原则是相信程序,不会人工干预。另外它们虽然反对(并准备惩罚)桥页类的SEO,但可能对中国类型的桥页应用还不是很重视吧,做起来确实没看到什么成效。百度就更奇怪了。HAO123已经靠流量卖广告实现了赢利,被收购也不奇怪。但谁收购它也不应该是百度收购,因为SEO站点的技巧,搜索引擎最清楚。谁需要SEO的站点,也不该是百度需要。那些说百度需要一个静态目录站点来帮助完善的人,完全混淆了dmoz.org类的INDEX服务和HAO123类站点的区别。但这些外人可能混淆,做搜索引擎的人不会混淆。那么为什么收购HAO123呢?
我不喜欢简单嘲弄收购傻,能花几千万的人都不会太傻。回忆一下,那些我们曾经见过的最傻的网站烧钱行为。嘲笑他们傻?但谁傻了呢?每个过手的人都可能赚的脑满肠肥。谁傻?是他们还是我们这些没赚到钱的看客?呵呵,看出来了吧,我开始往恶意度人的道路上引导大家。
最会SEO的是谁?当然是掌握全部搜索引擎规则的人。谁掌握全部规则?要是这个人后来又收购了该SEO站点,他傻?呵呵,我本能的反射是:洗钱。当然了,我没有说我这感觉是对的。反射嘛,不走脑子,也不负责任。只不过暴露一下我的阴暗心理。
第N次说远了。
SEO是不是一无是处?不是。搜索引擎已经成为用户习惯,适应用户习惯本来就是我们应该做的。搜索引擎是告戒大家不要去适应引擎,只要适应用户,自然会在引擎上体现。理想情况当然是这样。但我可以举例。某个很有名的BLOG,当别人问为什么搜索到该BLOG文章时,列出的不同文章标题都是一样的?答:因为工程师图省事,是用一段JS程序来改写某个页面的TITLE。
TITLE就是我们打开浏览器显示在左上角的东西,这个如果显示的是具体内容的标题,当然比千篇一律的显示该站点的名称要符合用户习惯。但用JS来实现该功能,开发上更省事,对用户来说也没什么大区别。按照搜索引擎的只要适应用户原则,应该对该做法一视同仁。但搜索引擎不是人,它很笨。它不会看JS显示的结果,它对JS的态度是直接跳过,只去读它读的懂的简单东西。
而很不幸,一般来说TITLE是搜索引擎判断页面是否符合搜索词的重要因素。所以用这个很方便的对用户也很友好的方式,对网站访问却很吃亏。如果你想改进,就一定不能只考虑用户,而要专门考虑搜索引擎,也就是SEO。
所以,我前面说的要学习HAO123的大腕其实他的网站是很适合SEO的网站,只要他不认为HAO123确实方便用户,他去采用SEO技巧其实是很对路的----只要你做的本身对网民有用,而不仅仅是垃圾,那么期望通过搜索引擎带来更多的网民访问就无可非议。
又比如桥页,我说的我曾经做的类似桥页,其实是一个排行列表。它是有一个无数LINK的,假静态页。但这个页对用户来说是有价值的,从这个页面找所需要的东西就是很方便。虽然我做了专门对搜索引擎的优化,但不能说我的SEO是不对的。这个页成为搜索引擎收录这个站点的入口。因为每个LINK后面对网民都有价值,所以希望他们从搜索引擎找到这些页,就不是垃圾SEO。
其实所谓WEB2.0(我非常讨厌这个词)的一些东西恰恰无形中适应了SEO要求。比如RSS,这样规范的XML语言对搜索引擎非常友好。所以BLOG类的站点在GOOGLE相关结果上都会排的比较高(当然了GOOGLE的规则本身也对这类站点有利,这个从其他地方能看出来,就不深说了)。还有WEB2.0站点代码都很规范、简洁,不为SEO考虑,这本来也是我们应该做的。早期国内门户繁杂的页面,混乱的代码,影响了大家的审美是小事,代码混乱对开发、再组织,都会是很头疼的事。所以某种意义上,我们的大站、门户,还不如HAO123做的好。
我们看FLICKR,没有人会说它试图SEO吧?但你看,它分给每个人地址就是http://www.flickr.com/photos/xba/ 这样简单。仅仅这个很多站点还能做到,但它里面所有的连接,都是这样 http://www.flickr.com/photos/xba/sets/608668/ 假静态的地址形式,这就很考验工程师的水平和耐心了。难道它不知道http://www2.tianyablog.com/blogger/post_show.asp?BlogID=18398&PostID=180370... 这样的连接,开发起来要简单的多么?对于FLICKR的细致我们不能只佩服,要去学到它每一点小地方的用意。
所以SEO虽然产生了很多垃圾站点,但一个优秀的站点,它也应该去学习SEO技术,帮助搜索引擎,也同时帮助网民,最重要的是这会帮助它自己。
好的一方面,是终于写完了。坏的一方面是这好象对我要写的方案书帮助不大。