在互联网上,一个网页被链接的越多,那么它就越重要. 我们可以使用矩阵 $A$ 表示网页与网页之间的关系. 其中 $a_{ij}$ 表示第 i 个网页是否被第 j 个网站链接,链接是 $1$ ,否则是 $0$ .

  1. \[
X^{(0)}=[1,1,1,\dots,1,1,1]
\]

表示初始时, 对所有网页都赋值是 $1$ . (X 是列向量)

  1. 每次计算都更靠近它们真实的分值.

\[
X_k^{(n+1)}=\sum_{j}a_{kj}X_j^{(n)}
\]

  1. 显然最终的结果就是

\[
X^{(\infty)}=A^{\infty}X
\]

这里就出现了特征变量

\[
X=A^{\infty}X
\]

  • 需要注意的是几百万网页的时候,计算量非常大,在早期的 PageRank 算法中,通常会进行几十次到几百次的迭代。然而,随着计算能力的提升和算法的改进,现代的 PageRank 算法通常只需要进行几十次迭代就可以得到较为准确的结果。
  • 在进行第二步的时候,随着计算次数的增加,网站的数值增加非常快,要采取某些手段使得第三步的时候,不至于每个分量都无限大.

待解决的问题

  1. 当一个新的网站出现的时候, 有没有快速的方式计算?
  2. 当一个已有网站被关闭后, 如何快速的计算?