| 1.3.1 搜索营销收录网站的原理
·探寻蜘蛛和探寻机器人 搜索引擎要知道网上的新生事物,就得派人出去搜集。在Yahoo创办初期,许多编辑天天泡在网上,访问新鲜网站,然后将搜集来的信息整理成序。当时的网站数量少,做起来比较容易;而现在新网站的出现数量、老网的更新都是爆炸式的,靠人工是不可能完成这个任务的。所以,搜索引擎的发明者就设计了计算机程序,派它们来执行这个任务。 探测器有多种叫法,也叫crawler(爬行器)、spider(蜘蛛)、robot(机器人)。这些形象的叫法是描绘搜索引擎派出的蜘蛛机器人爬行在互联网上探测新的信息。google把它的探测器叫做googleboot,百度就叫Baiduspider,MSN叫MSNbot,而Yahoo则称为Slurp。这个探测器实际上是人们编制的计算机程序,由它不分昼夜地进入访问各个网站,取回网站内容、标签、图片等,然后依照搜索引擎的算法给它们制定成索引。所以,这可不是“爬行”而是以光速来访问的。 一个搜索引擎会同时派遣出许多探测器,这些“机器人”或者从站主直接呈递的网站URL去访问,或者由一个网络用户所装的搜索引擎工具栏(比如google工具栏)得知用户去的网站,或者是从一个网站中指向另一个网站的链接过去。探测器不一定是从网站的首页进入访问,所以,如果你要探测器访问你其他的网页,那么这个进入页就需要和其他网页相连。达到这个目的最容易的办法就是在每一页都加入指向首页的链接。 这个现象告诉我们不要将网页设计得很长、很大。如何将网站设计得更佳方便搜索引擎来访,是搜索引擎优化的重要应用技术。 ·google的Freshbot和Deepbot google使用两个探测器来抓取网站上的内容:Freshbot和Deepbot。深度探测器(Deepbot)每月出击一次,受访内容在google的主要索引之中。刷新探测器(Freshbot)是持续不断地发现新的内容,例如新的网站、论坛、博客等。看起来,google是发现了一个新的网页,之后频繁地在放,来看看是否还有什么新的更新。如果有,这个新网站就被加入到刷新探测器的名单中进行访问。 刷新探测器取得的结果是汇编到一个单独的数据库里。每一次刷新探测器进行新的一轮循环的时候都被重写。刷新探测器和google主要的索引是合在一起提供搜索结果的。这就是说,新的信息可能很快就出现在搜索结果中然后就消失,直到一两个月后在google主要索引中重新浮现。如果一个网页在google主要索引中已经存在,刷新探测器取得的关于这一页的更新结果会出现几天,然后又退回原来的版本,直到深度探测器来访问这一页。 google的操作模式就是收集——采编/索引——反馈的工作程序。事实上,搜索引擎包括下列几个元素: 1.3.2 搜索营销如何提供搜索结果 ·搜索引擎的信息索引工作 前面我们知道了搜索引擎出击互联网去收集各个网页,力图带回最大值的信息。但是,这些信息回来之后,是暂时放在一个“仓库”的。在用户提出搜索问询的时候,并不是这些一手信息反馈给用户,而是加工后的有序网页。不经过这些加工,在服务用户问询的时候无法迅速给予回答。这个整理一手网页、编制索引的过程也是搜索引擎评判网站质量的过程。只有有价值的信息才会送入索引。举例说,搜索引擎设立一个索引叫“搜索引擎优化”,它就会在它的仓库里寻找有关“搜索引擎优化”的网页,把它们收录在“搜索引擎优化”这个标签下面,等有用户搜索“搜索引擎优化”的时候,它就在这一堆网页中寻找答案。 根据美国《google的佩奇等级及其他》一书的笔者蓝维尔和迈尔分析,这个索引有三种:第一种是内容索引,包括网页的关键词、标题、描述语句、链接源头文字都以一种反向数据结构被压缩,这种结构就好像一本书的索引总是在书的最后部分一样。更多的有价值的信息,如网页链接也被收集,放入结构索引之中,这是第二种索引。最后一种是特别索引,集中图片、PDF文件等供特别搜索问询,比如图片搜索。 ·搜索引擎的信息反馈工作 当用户在搜索框里面敲入搜索关键词按下搜索键的时候,搜索引擎便紧张地开始工作,争取在最短的时间(几百万分之一秒)提供搜寻结果。google一般将整个执行时间控制在半秒之内。 要在这么短的时间里提供准确的结果,临时计算是不可能的。因此,搜索引擎在内容索引和结构索引的过程中都有个预备计算。在搜索引擎执行了计算后,出来符合用户问询条件的网页太多。一般过去的搜索引擎就此打住,将信息就反馈给读者了。google进一步将结构交付给排名程序,请排名程序将相关信息按照从最相关到最不相关进行排列。排名程序于是从预备计算过的索引中排列进行比较,给网页的内容进行打分,将综合的结果提供给用户。 1.3.3 google排名原理 ·google的PageRank PageRank(佩奇等级)是google能在20世纪90年代后期超越其他搜索引擎的一个重要概念和法宝。“佩奇等级”是google算法的重要内容。2001年9月google被授予美国专利,专利人是google创始人之一拉里?佩奇(Larry Page)。因此,PageRank里面的Page不是指网页,而是指佩奇,即这个等级方法是以佩奇来命名的。 “佩奇等级”着重考察网站的权威性,即越有权威的网站越容易被其他网站主动链接。被链接的越多,就意味着被其他网站投票越多。这个就是所谓的“链接流行度”——衡量多少人愿意将他们的网站和您的网站挂钩。“佩奇等级”这个概念引自学术中一篇论文的被引述的频度——即被别人引述的次数越多,一般判断这篇论文的权威性越高。 佩奇的初衷是非常理想化的。他认为,一个网站的好坏不是由网站自己吹出来的,也不是网站自己做假做出来的,而是大家评选出来的。你链接一个网站,那个网站就获得了一个投票。这样的评比结果很难被操纵,网站的排名也就很难由作弊获得。但是,这个逻辑现在一样遭遇了挑战。搜索引擎优化者为了提升一个网站的“佩奇等级”价值,总是在试图获取最多的导入链接,因为一个导入链接就相当于一份投票。更多的网主靠虚假的链接来积累这个“投票”来作弊。因此,google现在对于搜索的排名并不像以前那样重视“佩奇等级”。 “佩奇等级”评价一个网页用1-10的数字来显示在google工具栏中,如下图所示,这个数字就是佩奇等级的值,简称PR值,PR值越大表示网站越重要。7就是指这个网页的PageRank值。
公式: 我们不鼓励可以去追求PR,因为决定排名的因为可以有上百种。但是网站设计者要充分认识佩奇等级在google判断网站质量中的重要作用,从设计前的考虑到后期网站更新都要给予佩奇等级足够的分析,很好地利用。 ·PageRank的清零 从2001年底,针对使用嫌疑手段的网站,google引入了一个制裁措施——给这个网站的PR变为零。不管这个网站有多少人链接它,它的所有网页或者至少许多页的PR在google工具栏中显示为零。出现这个现象还可能是因为一个网站太年轻,google还没有来得及给它评判。google PR一般一年更新四次,所以不可能新网站一上线就获得PR值。你的网站很可能在相当长的时间里面看不到PR值的变化,特别是一些新的网站。PR值暂时没有,这不是什么不好的事情,耐心等待就行了。 PR值为零的另外一个原因是一个网站缺少导入链接,即没有人来链接它。但是,如果一个网站之前的搜索排名都很好,并且没有其他的重大改变,而突然出现了PR=0的情况,我们认为,这个网站在接受google的惩罚。 google Dance是过去google剧烈更新网站排名的活动。在这个“跳舞”的过程中,google所储存的索引都被重新洗牌。有没有发生google Dance,搜索结果中的变化便一目了然。这个过程大概是每36天1次或者1年10次。Dance可以说是地震,一开始猛烈之后还有小震,要等1个月的时间才能平息。这就是google的索引更新叫做Dance的原因。 1.3.4 影响google排名的因素 ·利于google排名的因素
分类总得分: ·影响google排名的负面因素 |
