pagerank网页排序算法的特点(无所不能的算法)
pagerank网页排序算法的特点(无所不能的算法)决定网页PR值的主要因素是指向它的链接个数的多少。一个含有重要价值的新网页,可能因为链接数日的限制很难出现在搜索结果的前面,而不能获得与实际价值相符的排名。算法并不一定能反映网页的重要性,存在偏重旧网页现象。PageRank算法仅利用网络的链接结构,无法判断网页内容上的相似性;且算法根据向外链接平均分配权值使得主题不相关的网页获得与主题相关的网页同样的重视度,出现主题漂移。其中Mpi是所有对pi网页有出链的网页集合,L(pj)是网页pj的出链数目,N是网页总数,α一般取0.85。优点:pagerank算法通过网页的链接来评价网页的重要性,在一定程度上避免和减少了人为因素对排序结果的影响;采用与查询无关的离线计算方式,使其具有较高的响应速度;一个网页只能通过别的网页对其引用来增加自身的PR值,且算法的均匀策略使得一个网页的引用越多,被引用网页所获得的PR值就越少因此,算法可以有效避免那些为了
概述PageRank 即网页排名,又称网页级别、Google左侧排名或佩奇排名;是Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时提出的链接分析算法,自从Google在商业上获得空前的成功后,该算法也成为其他搜索引擎和学术界十分关注的计算模型。目前很多重要的链接分析算法都是在PageRank算法基础上衍生出来的。PageRank是Google用于用来标识网页的等级/重要性的一种方法,是Google用来衡量一个网站的好坏的唯一标准。在揉合了诸如Title标识和Keywords标识等所有其它因素之后,Google通过PageRank来调整结果,使那些更具“等级/重要性”的网页在搜索结果中另网站排名获得提升,从而提高搜索结果的相关性和质量。其级别从0到10级,10级为满分。PR值越高说明该网页越受欢迎。例如:一个PR值为1的网站表明这个网站不太具有流行度,而PR值为7到10则表明这个网站非常受欢迎。一般PR值达到4,就算是一个不错的网站了。Google把自己的网站的PR值定到10,这说明Google这个网站是非常受欢迎的,也可以说这个网站非常重要。
算法原理PageRank算法总的来说就是预先给每个网页一个PR值(下面用PR值指代PageRank值),由于PR值物理意义上为一个网页被访问概率,所以一般是1/N,其中N为网页总数。另外,一般情况下,所有网页的PR值的总和为1。如果不为1的话也不是不行,最后算出来的不同网页之间PR值的大小关系仍然是正确的,只是不能直接地反映概率;预先给定PR值后,通过下面的算法不断迭代,直至达到平稳分布为止。
如果假设有一个随机浏览网页的人,假定他有一个确定的概率会输入网址跳转至一个随机网站,则PR值可表示为:
在一般情况下,一个网页的PR值计算如下:
其中Mpi是所有对pi网页有出链的网页集合,L(pj)是网页pj的出链数目,N是网页总数,α一般取0.85。
PageRank算法计算方法- 幂法计算
- 特征值法
- 代数法
优点:pagerank算法通过网页的链接来评价网页的重要性,在一定程度上避免和减少了人为因素对排序结果的影响;采用与查询无关的离线计算方式,使其具有较高的响应速度;一个网页只能通过别的网页对其引用来增加自身的PR值,且算法的均匀策略使得一个网页的引用越多,被引用网页所获得的PR值就越少因此,算法可以有效避免那些为了提高网站的搜索排名而故意使用链接的行为。
缺点:算法在google搜索引擎的成功运用,说明其是高效、可行的。但由于完全基于链接分析,且链接信息相对静态,没有考虑网页使用的动态信息,因此算法还存在一些缺陷,主要归纳为:
- 主要漂移问题
PageRank算法仅利用网络的链接结构,无法判断网页内容上的相似性;且算法根据向外链接平均分配权值使得主题不相关的网页获得与主题相关的网页同样的重视度,出现主题漂移。
- 偏重旧网页问题
决定网页PR值的主要因素是指向它的链接个数的多少。一个含有重要价值的新网页,可能因为链接数日的限制很难出现在搜索结果的前面,而不能获得与实际价值相符的排名。算法并不一定能反映网页的重要性,存在偏重旧网页现象。
- 忽视用户个性化问题
PageRank算法在设计之初,没有考虑用户的个性化需要。个性化搜索引擎的兴起,对PageRank排序算法提出新的挑战。