听说过刘韧和老白在比赛GOOGLE排名,昨天天又查到了刘韧的文章说Google排名很难,查“毛主席语录”,翻10页也找不到他自己和老白。不过,我使劲翻了翻结果是刘韧现在比老白的排名高一点(曾经有过老白暂时领先),确实挺难查到的。俺就他们比赛中涉及到的Google排名有关的技术细节进行分析一下,涉及URL优化、关键字密度、内容窃取(scraper)、相似页面、PageRank值(PR)、外部链接等方面。纯技术探讨,当抛砖引玉吧。(2006年1月31夜完成全部分析,全文约3,800字)
十来天前小月告知,donews的二位大佬刘韧和老白在用“毛主席语录”做Google排名竞赛,在狂找友情链接呐。当时心里“格登”了一下,
小月
说在MSN上查刘韧当时的外链就50多比老白的20多了,后来也没太在意。
今天又查到刘韧的这篇文章
http://xwt.donews.com/donews/article/9/90449.html
,就起意分析一下。
比赛开始于:1月14。
目标关键词:毛主席语录
几乎同时他们发布了各自的比赛用页面:
刘韧:
http://blog.donews.com/liuren/archive/2006/01/14/694354.aspx
老白:
http://blog.donews.com/laobai/archive/2006/01/14/694366.aspx
对二位选手Google Cache的分析:
刘韧的页面最被Googlebot抓取在 2006年1月19日 06:17:10 GMT 网页大小约104K(104,354 bytes)
内容中止于:[u]一条是群众的自愿,由群众自己下决心,而不是由我们代替群众下决心。 《文化工作中的统一战线》(一九四四年十月三十日),《毛泽东选集》十二、政治工作[/u]
Googlebot抓到,放入cache的链接总数:约为7个,全部指向自己,没有真正的外出链接。
老白的页面最被Googlebot抓取在 2006年1月19日 05:08:37 GMT 网页大小约104K(104,354 bytes)
内容中止于:[u]没有历史知识,没有对于实际运动的深刻的了解,要取得胜利是不可能的。——《中国共 产 党在民族战争中的地位》(一九三八年十月),《毛泽东选集》第二卷第五二一页。[/u]
Googlebot抓到,放入cache的链接总数:72个链接,其中链向自己的有6个左右,外出链接60多个,主要是跑向wikipedia。
分析: googlebot似乎只愿意抓你内容的前100K。 在这100K中,刘韧的外出链接是0个,老白72个外出链接。显然过多的外出链接数,是不利于自己页面排名的。 应该尽量控制一张页面的链接总数在100个以内(google的建议),内部链接数与外出链接数比例约在80:20。
比较Google抓取到的内容,刘韧的页面在优化上要好于老白。
用
META TAG ANALYZER
分析刘韧、老白原始网页
刘韧网页分析:
[u]Your site displayed on a search engine page.
刘韧Blog
http://blog.donews.com/liuren/archive/2006/01/14/694354.aspx [/u]
[u]本页共发现关键字"毛主席语录"计79次,关键字的密度为3.04%[/u]
锚点中关键字及出现次数:
[u]《《毛主席语录》》 - 2次
《毛主席语录学习》 - 1次
《毛主席语录》 - 1次
毛主席语录 - 1次
写在墙上的毛主席语录现在仍然依稀可辨 - 1次
《毛主席语录 google 比赛老白暂时领先刘韧》 - 1次[/u]
在图片文件alt属性中发现关键字及次数
[u]写在墙上的毛主席语录现在仍然依稀可辨 - 1次[/u]
[u]The size of the web page is to big.
The size of the web page is 667532 bytes.
The web page load time is 13 seconds.[/u]
文件太大,达667KB,下载时间正常,达13秒。
[u]Found 204 urls from where 191 unique.[/u]
页面分析,链接URL太多,总计191个链接,共出现204次。
老白网页分析:
[u]Your site displayed on a search engine page.
老白说真话|LaoBai's Blog
http://blog.donews.com/laobai/archive/2006/01/14/694366.aspx[/u]
页面内容关键字分析:
本页共发现关键字"毛主席语录"计91次,关键字的密度为2.89%
链接锚点中关键字的出现次数 (Keywords found in the Anchor tags)
[u]《毛主席语录》 - 1次
毛主席语录 - 1次
《学习《毛主席语录》》 - 1次[/u]
[u]The size of the web page is to big.
The size of the web page is 1041762 bytes.[/u]
文件大小分析,本页文件尺寸太大,达1.04M。
[u]The web page load time is to long.
The web page load time is 18 seconds. [/u]
文件下载时间过长,达18秒。(与服务器、文件本身复杂程度有关)
[u]Web page analysis.
This page contains too many URLs.
This tag contains 225 urls. Some Search Engines have problems with more than 100 urls on a page. [/u]页面分析,链接URL太多,总计197个链接,共出现225次。
共同的结果:
[u]Title: Title meta tag contains no errors.
The Title relevancy to page content is 100%.
Description: Found no description meta tag.
Keywords: Found no keywords meta tag.
Robots: Found no robots meta tag.
Author: Found no author meta tag.[/u]
产生如此结果,是因为他们用了同个BLOG程序,当然都是DONEWS提供的,
HEAD部分的分析结果:标题没问题(机器分析,其实这篇文章的标题是有问题),与页面内容100%相关。描述、关键字、ROBOTS、Author四个META TAG均未标记。
问题分析及优劣比较:
1, DONEWS的BLOG程序,IE浏览到的每张文章的TITLE都是用JS调出来,而GOOGLEBOT抓到的却是统一的,固化在标准的HEAD TAG中TITLE部分,即每个BLOGER自己给博客起的名,而非不同网志的标题;
2, 刘韧和老白都为了力求大而全,COPY了WIKIPEDIA的语录内容。 刘韧使用的是直接COPY文字,而老白连人家的源码都COPY过来,因为laobai的文件足足比liuren的大了400KB。下载速度也慢了许多;
3, Laobai在COPY源码时,未将WIKIPEDIA的链接去除,造成页内链接数比LiuRen更多;
4, LiuRen网页中的关键字密度为3.04%,在理想的范围内(3~8%),而Laobai则在2.89%;密度上略显吃亏(PS:和二位被CACHE内容关键字密度差距比,这个没有大问题,见后文);
5, Liuren网页中的锚点关键字是多变的,Anchor Text中“毛主席语录”以6种形式共出现7次,并且有一个图片ALT标签出现目标关键字;而Laobai的网页中Anchor Text目录关键字以3种形式,共出现3次,没有在图片ALT中写入关键字;
6, 一般搜索引擎喜欢索引200K以内的网页内容。因此二位的网页大小都超标了。
META TAG ANALYZER对原始文件的分析中,刘韧的网页在关键字密度,锚点关键字多变,文件下载速度,链接数上占优势,(即“优化”的更好一点)。
接下来,俺将对二位作品在
GG
中的CACHE进行一点处理,然后再用进行分析。
采取点技术措施把
GG
的CACHE取出来,分别放在自己的网站上,让META TAG ANALYZER再去分析
GG
spider抓到并CACHE的部分,我觉得这东东更具代表性。
用META TAG ANALYZER对gg CACHE到的内容分析
结果:
刘韧的网页CACHE链接中出现的目标关键字次数是1,内容中出现目标关键字的次数是:9次,密度约在1.5%,链接总数7个,真正的外出链接数为0。
老白的网页CACHE链接中出现的目标关键字次数是2,内容中出现目标关键字的次数是:31次,密度约在11.0%,链接总数80个,真正的外出链接数为76个。
二者被CACHE到的内容比较分析:
刘韧网页的关键字密度低,外出链接数少;老白网页的关键字密度高于推荐上限(8%);全文真正被当成文本的字数仅为3,000个左右,而刘韧网页中的文本字约为31,000,高上10倍。十分有利于稀释关键字密度。重要的是老白网页外出链接太多,几乎没有内部链接;gg一般认为这种网页的价值不大。
分析完Google cache后,俺再说说有关网页内容盗取(Content Scraper)的问题。
二位Blogger的网页内容盗取问题
从2005年中,Google加大了对网页内容盗取行为的“打击”,主要采取算法上的过滤、惩罚机制。对于判断出现内容相同或相似的A网页与B网页,哪个是原创,而个是COPY,算法是不公开的,容易推测出来的影响因素有:
1,A、B网页哪一个先被收录;
2,A、B网页哪个PR值更高;
3,A、B网站哪一个更权威(PR、域名后缀)
对于刘韧和老白的相似网页(similar_pages)问题,当然他们没有时间各自去手工敲入《毛主席语录》,即使是亲自敲入的,网上也会有别人早就敲好的东东。因为他们都是SCRAPER,都是COPY内容,那如何把COPY来的内容在Google中排上去呐。单独把他们二位的网页内容提出来说,他们都COPY了WIKIPEDIA内容,刘韧网页在gg索引的100K范围内,没有链接指向内容的源出处,而老白有好几十条链接指向了源头WIKIPEDEA。这为gg判断老白内容为SCRAPER提供了非常好的“证据”。gg有很好的算法判断网页之间的相似性,一般在做一些可能和其它站点上网页内容相似的页面优化时,要进行一下页面相似度比较,如果二者相似度>80%,那就非常不妙,如果和别人相似,会被认为是COPY来的SCRAPER内容,受惩罚,如果是自己站内网页相似,则被判为站内dup内容,从页损害目标关键字的排名。
外部链接比较
刘韧和老白都在发布BLOG后,号召哥们和网友链接自己的网页,找链接。(PS:好象他们还在IM工具里呼吁朋友链接自己)。
那么他们的链接效果如何呐。让俺用MSN分析分析,GOOGLE提供了LINK命令查询反向链接(Backward Link,BL),那为什么还要使用MSN呐?因为:1,GOOGLE的BL目前1个月更新一次,对于新发布的内容gg BL查不出来; 2,Google已经明确表示BL更新,并非把BL全盘托出,而只是显示出了
GG
最近一个阶段抓到的部分BL。
而MSN目前推出了自己的
中文搜索引擎Beta版
,提供出非常有用的
几个查询命令
,功能较强,MSN的数据库更新也比较快,查出来的内容有许多非常新鲜,因为非常适合在短期内验证
SEO
的工作。
用MSN中文BETA搜索
刘韧:
包含 link:http://blog.donews.com/liuren/archive/2006/01/14/694354.aspx 的搜索结果,页数 1 / 944 (.22 秒)
包含 毛主席语录 link:http://blog.donews.com/liuren/archive/2006/01/14/694354.aspx 的搜索结果,页数 1 / 907 (.20 秒)
老白:
包含 link:http://blog.donews.com/laobai/archive/2006/01/14/694366.aspx 的搜索结果,页数 1 / 728 (.28 秒)
包含 毛主席语录 link:http://blog.donews.com/laobai/archive/2006/01/14/694366.aspx 的搜索结果,页数 1 / 726 (.39 秒)
结果: 在MSN中搜索,刘韧的网页获得的外链数要多于老白的. (944:728)
考虑到Google“外链为王”的排名神话,刘韧网页在GOOGLE中排名结果应该高。
刘韧和老白网页在GOOGLE里排名最新结果
那让俺来G一下: 最新G一下的时间:2006.1.31晚22点。
查询条件:
inurl:donews 毛主席语录
每页显示100个结果,不加任何过滤条件。
查询结果刘韧领先一点点,见图:
查询条件:
site:donews.com 毛主席语录
加过滤条件
第32位:老白
第42位:刘韧
(PS:位置跨度有点大,不方便截图。)
用SITE命令查之所以出现老白领先的原因,我认为是gg最近二个月来致力的
serp
组织结构调整引起的,当使用site命令时,gg会对结果进行“特殊”的排序。显著的改变就是site命令查任何一个站,不论主域名的PR值是不是一定高于内页,主域永远会第一位,而以前,用可能PR高的内页会在SITE搜索结果的NO.1,而低PR的主域名可能名落孙山。
当俺直接使用“毛主席语录”做为关键字时,可能搜索出来了不友好站点,造成网络断线,在GOOGLE里暂时无法查出谁比谁先。刘韧曾经发过BLOG说
老白暂时领先
,俺不太清楚他是怎么会想出主意用
毛主席语录 site:donews.net
作为查询条件的(避免断线?他们二位优化和
找链接
的网页都是在donews.com上的,如果想查结果也应该site:donews.com的,有人已经指出。)。如果谁在国外,可以切入GOOGLE中文语言搜索看看现在谁跑在前头。
最后总结:
刘韧网页,在外部链接数,关键字密度,页面内外出链接数三个重要方面优于老白的网页。 老白页面内目标关键字的出现数多于刘韧。 细节方面:页内链接关键字多变,ALT属性关键字方面刘韧占先。 二位都使用了DONEWS的BLOG,在页内的TAG级优化无明显差别(未深究)。
排名预测: 刘韧的网页如果能再加优化,半年内可以冲上GOOGLE首页TOP10。(这是俺随便忽悠的,排不上去不俺可不管。)
免费Tip: 无论刘韧还是老白,他们只要肯把自己的BLOG改名为“毛主席语录”,可能10天以后就上首页了。
附言:DONEWS目前用的aspx版Blog程序,从seo角度来看,可以说:“terrible”。 而新的my.donews.com博客,使用的WordPress则是著名BLOG软件,在
SEO
方面要好的多。
PageRank
值:PR,gg的独特网页评级办法,从0~10级,以前PR是一个网站(关键词)排名的“绝对”因素,由于能被容易地施加影响,目前已经变得“不太重要”了。据说现在gg使用TrustRank。 (DVOL本文转自:中国DV传媒 http://www.dvol.cn)