Google--PageRank技术解密(一)
时间:2006年12月14日 内容来源: 互诺科技 浏览量:0
  Google--PageRank技术解密(一)  
1. 什么是PageRank 
2. PageRank的决定因素 
3. 如何查知PageRank 
4. PageRank的重要性 
5. Google的前1,000项搜索结果 
6. PageRank与其它影响网站排名因素间的区别  
一:什么是PageRank(网页级别) 
  PageRank(网页级别)是Google用于评测一个网页“重要性”的一种方法。在揉合了诸如Title标识和Keywords标识等所有其它因素之后,Google通过PageRank来调整结果,使那些更具“重要性”的网页在搜索结果中另网站排名获得提升,从而提高搜索结果的相关性和质量。 

  简单说来,Google通过下述几个步骤来实现网页在其搜索结果页(SERPS)中的排名: 
  1) 找到所有与搜索关键词匹配的网页 
  2) 根据页面因素如标题\关键词密度等排列等级 
  3) 计算导入链接的锚文本中的关键词 
  4) 通过PageRank得分调整网站排名结果 
  事实上,真正的网站排名过程并不是这么简单,我们会在后面进行详细深入的阐述。  

二:PageRank的决定因素 
  Google的PageRank是基于这样一个理论:若B网页设置有连接A网页的链接(B为A的导入链接时),说明B认为A有链接价值,是一个“重要”的网页。当B网页级别(重要性)比较高时,则A网页可从B网页这个导入链接分得一定的级别(重要性),并平均分配给A网页上的导出链接。  

  导入链接(也叫逆向链接)指链至你网站的站点,也就是我们一般所说的“外部链接”。而当你链至另外一个站点,那么这个站点就是你的“导出链接”,即你向其它网站提供的本站链接。 

  PageRank反映了一个网页的导入链接的级别(重要性)。所以一般说来,PageRank是由一个网站的导入链接的数量和这些链接的级别(重要性)所决定的。  

三:如何知道一个网页的PageRank得分 
  可从http://toolbar.google.com上下载并安装Google的工具栏,这样就能显示所浏览网页的PageRank得分了。PageRank得分从0到10,若不能显示PageRank得分,可检查所安装版本号,需将老版本完全卸载,重启机器后安装最新版本即可。  

四:PageRank的重要性  
  搜索引擎网站排名算法中的各排名因子的重要性均取决于它们所提供信息的质量。但如果排名因子具有易操纵性,则往往会被一些网站管理员利用来实现不良竞争。例如初引入的排名因子之一--关键词元标识(Meta Keywords),是由于理论上它可以很好地概括反映一个页面的内容,但后来却由于一些网站管理员的恶意操纵而不得不黯然退出。所以“加权值”--即我们对该因子提供信息的信任程度是由排名因子的易操纵程度和操纵程度共同决定的。 

  PageRank无疑是颇难被操纵的一个排名因子了。但在它最初推出时针对的只是链接的数量,所以被一些网站管理员钻了空子,利用链接工厂和访客簿等大量低劣外部链接轻而易举地达到了自己的目的。Google意识到这个问题后,便在系统中整合了对链接的质量分析,并对发现的作弊网站进行封杀,从而不但有效地打击了这种做法,而且保证了结果的相关性和精准度。  

五:Google的前1,000项搜索结果 
  一般说来,网站排名因素包括网页标题(META TITLE),网页正文中的关键词密度,锚文本(也叫链接文本,指链接或超链的文本内容)和PageRank所决定的。 

  请记住:单靠PageRank是无法使你获得比较理想的网站排名的。PageRank只是网站排名算法中的一个乘积因子,若你网站的其它排名因子的得分是零,就算你的PageRank是两百亿,最后的得分还是零。但这并不是说PageRank就毫无价值,而是在什么情况下PageRank才能完全发挥其功力。  

  如果在Google上进行广泛搜索,看起来好象有几千个结果,但实际显示最多前1,000项结果。例如对“car rental”,显示搜索结果为5,110,000,但实际显示结果只有826个。而且用时只有0.81秒。试想一下,0.84秒的时间就可以计算这五百万搜索结果的每个排名因子得分,然后给出最终我们所看到的网站排名结果吗? 

  答案就在于:搜索引擎选取与查询条件最相关的那些网页形成一个子集来加速搜索的速度。例如:假设子集中包含2,000个元素,搜索引擎所做的就是使用排名因子中的两到三个因素对整个数据库进行查询,找到针对这两三个排名因子得分较高的前2,000个网页。(请记住,虽然可能有五百多万搜索结果,但最终实际显示的1,000项搜索结果却是从这个2,000页的子集中提炼出来的。) 然后搜索引擎再把所有排名因子整合进这2,000项搜索结果组成的子集中并进行相应的网站排名。由于按相性进行排序,子集中越靠后的搜索结果(不是指网页)相关性(质量)也就越低,所以搜索引擎只向用户显示与查询条件最相关的前1,000项搜索结果。  

  请注意,在搜索引擎生成这2,000项网页的子集中我们强调了“相关性”这个词。即搜索引擎找寻的是与查询条件有共同主题的网页。如果这时候我们把PageRank考虑进去,就很可能得到一些PageRank很高但主题只是略微相关的一些搜索结果。显然这有违搜索引擎为用户提供最为相关和精准的搜索结果的原则。 

  一旦理解了为什么会如此,就说明了为什么你应当首先努力在“页面”因子和锚文本上下足工夫,最后才是PageRank。所以关键在于: 

  你必须首先在页面因素和/或锚文本上下足工夫,使这些排名因子能够获得足够的得分,从而使你的网站能够按目标关键词跻身于这2,000项搜索结果的子集中,否则PageRank再高也与事无补。  

六:PageRank和其它排名因子之间的不同 
  
网页Title标识 仅能被列出一次。  
正文中的关键词 连续的重复只会降低关键词的重要性,重要的是接近度。  
锚文本 加权值极高,但存在上限,超过上限的锚文本信息将被忽略或降低权值。  
PageRank 潜质无穷,没有上限的限制,但需要大量工作。  
备注 其它排名因子都存在一个上限(阙值),超过上限部分其权值将降低或不再计分。PageRank则不存在此问题。