分析搜索引擎蜘蛛的抓取

2022-02-22 08:30:22
摘要:搜索引擎蜘蛛,在搜索引擎系统中又被称之为“蜘蛛”或“机器人”,是用来爬行和访问页面的程序。

一、了解搜索引擎蜘蛛爬行以及抓取原理

搜索引擎蜘蛛,在搜索引擎系统中又被称之为“蜘蛛”或“机器人”,是用来爬行和访问页面的程序。


① 爬行原理:搜索引擎蜘蛛访问网页的过程,就好比用户使用的浏览器。搜索引擎蜘蛛向页面发出访问请求,该页面的服务器则返回该页面的HTML代码。搜索引擎蜘蛛将收到的HTML代码存入搜索引擎的原始页面数据库中。


② 如何爬行:为了提高搜索引擎蜘蛛的工作效率,通常采用多个蜘蛛并发分布爬行。同时,分布爬行还分为两种模式:深度优先和广度优先。深度优先:沿着发现的链接一直爬行,直到没有任何链接。广度优先:先这一页面上的所有链接爬行完毕之后,才会沿着第二层页面继续这样爬行。


③ 蜘蛛必遵守的协议:搜索引擎蜘蛛在访问网站之前,都会先访问网站根目录下的robots.txt文件。搜索引擎蜘蛛不会去抓取robots.txt文件中禁止爬行的文件或目录。


④ 常见搜索引擎蜘蛛:百度蜘蛛:Baiduspider、谷歌蜘蛛:Googlebot 、360蜘蛛:360Spider、SOSO蜘蛛:Sosospider、有道蜘蛛:YoudaoBot,YodaoBot、搜狗蜘蛛:Sogou News Spider、必应蜘蛛:bingbot、Alexa蜘蛛:ia_archiver

二、SEO优化内链如何布局提升蜘蛛抓取

SEO优化中如何有效的布局内链,让蜘蛛抓取SEO优化,那么网站优化时,我们要如何合理分析内外链呢?


1、内页多关键词指向首页:现在还有很多网站在内容页搞了好多关键词,但是指向的全都是首页,这个小技巧在前几年还是有些用的,但是现在算是作弊的行为,切记。


2、是否有相关推荐:每个页面是否有推荐跟内容相关的内部指向链接,这个很重要,对用户,对蜘蛛都是非常有帮助的。


3、每个页面是否能链接到别的相关页面:内页要做相关的推荐,还有栏目页、专题页、首页都是一样的,只不过要从不同的定位角度来指向而已。那么如何检查外链呢?一般常用两种方法:

(1)通过domain指令:可以找出链接你的网站是哪些,检查一下是否有和不良的网站出现在一起,如果有要尽快处理掉,不然也是会有影响的。

(2)通过友情链接:查看友情链接是否正常,比如你链接了别人,别人却把你的链接给撤销了,或者别人的网站打不开了等等之类的情况,需要及时的处理。


4、发外链吸引蜘蛛的方法:

(1)很多站长发布外链都是带个网站的首页网址就算了,我认为这种优化方式比较单一,如果你的网站权重低,更新不频繁的话,可能蜘蛛通过链接到了你的网站就不再深入去爬行了。

(2)一般更新完文章,就可以去各大论坛和博客发布文章,然后带上刚刚发布的文章地址。这种效果是比较不错的,小伙伴们可以试试。


5、和一些更新比较频繁的网站交换链接:友链的作用大家也都知道的,友情链接对于网站的排名起到一定的作用,同时友情链接又引导蜘蛛在网站之间来回爬行的一种链接,对于网站的排名和收录都是非常有帮助的,所以我们要经常和一些更新比较频繁的网站交换链接。


6、网站站内文章之间的链接:不论是文章之间还是栏目和网站首页之间,全部要有一个或者几个链接的路径,这个路径是蜘蛛在你网站上面爬行的一种链接,同时也可以让用户点击的链接,对于网站的收录,排名和权重的提高都是比较不错的。

三、网站图片如何抓取

总结出了以下六种方法,协助我们优化网站和手机端的图片,以达到优化友好,迅速被录入的作用。


1、不要盗用图片尽量原创:尽量自己做图片,有很多免费的图片素材,我们可以通过拼接,做出我们需要的图片。在平时工作的时候,发现和自己网站相关的图片可以先保存下来,在本地做出分类和标记。网站需要图片的时候,看看相关的图片,自己着手做一个图片。这是一个长期积累的过程,随之时间的增加,自己的素材量也会越来越大。熟练了再做图片就得心应手了。


2、网站图片保存路径:这个问题很多站长都没有注意,图片在传到到网站的时候,尽量把图片保存在一个目录下面,或者根据网站栏目做好相应的图片目录,上传的时候路径要相对固定,方便蜘蛛抓取,蜘蛛在访问到这个目录的时候就会“知道”这个目录里面保存的是图片;图片文件命名最好使用一些有规律的或者意义的方法,可以使用时间、栏目名称或者网站名称来命名。其实这样是培养搜索引擎蜘蛛抓取习惯,方便将来更快的识别网站图片内容。让蜘蛛抓的顺心了,网站被收录的几率就增加了,何乐而不为呢!


3、图片周围要有相关文字:网站图片是能把信息直接呈现给用户一个方法,搜索引擎在抓取网站内容的时候,也会检测这篇文章是否有配图、视频或者表格等等,这些都是可以增加文章分数值的元素,其他的几个形式暂时不表,这里我们只说说关于图片周围相关文字的介绍。首先图片周边文字要与图片本身内容相符,例如你的文章说的是做网站优化,里面配图是一道菜谱的图片,这不是挂羊头卖狗肉么?用户的访问感会极差,搜索引擎通过相关算法识别这张图片以后,也会觉得图文不符,给你差评哦。所以,每篇文章最少要配一张相应的图片,而且在图片的周围要出现和你网站标题相关的内容。不但能帮助搜索引擎理解图片,还可以增加文章的可读性、用户体验友好度以及相关性。


4、图片添加alt、title标签:许多站长在添加网站图片时可能没有留意这些细节,有的可能觉得麻烦,希望大家千万别有这种想法,这是大错特错的。搜索引擎抓取网站图片的时候,atl标签是它首先抓取的,也是识别图片内容最重要的核心因素之一,图片的alt属性是直接告诉搜索引擎这是啥网站图片,以及这张要表达什么意思;

title标签是用户指向这张图片的时候,会显示的提示内容,这是增加用户体验度和增加网站关键词的一个小技巧。alt和title标签还有就是这两个属性,会给有阅读障碍的访问者提供访问的便利,例如:有盲人在访问你网站的时候,他看不到屏幕上的内容,可能是通过读屏软件来阅读的,如果有alt属性,软件会直接读出alt属性里的文字,给他们的访问提供方便。


5、图片的大小和分辨率:尽管两者看起来有些相同,但还是有很大的差别,相同大小的图片,分辨率更高的话,网站最终体积也会越大。这一点大家要搞清楚。网站的上的图片,一直以来都提倡用尽量小的图片,去最大化呈现内容。为什么要这样呢?因为小尺寸的图片会加载的更快,不会让访问者等待太久,特别是手机访问的时候,由于手机上网速度和流量的限制,用户更愿意访问能立即打开的页面,小尺寸图片就更有优势了。在这里我们尽量做好平衡,在图片不失真的情况下,尺寸最好尽量的小。现在有很多在线给图片瘦身的工具,各位站长可以去尝试一下,把网站的图片适当的压缩一下,一方面可以减少你服务器带宽的压力,另外还能给用户有流畅的体验。


6、手机端自动适应:很多站长都遇到过网站在电脑访问图片显示很正常,可是从手机端就会出现错位等等情况,这就是大尺寸的图片给不同尺寸的终端造成错位和显示不全的情况。其实这个问题很好解决,在添加图片的时候宽高最好不要使用绝对大小,使用百分比就解决了。具体说,CSS代码不能指定像素宽度:width:xxx px;只能指定百分比宽度:width: xx%;或者width:auto就可以了。这样做的目的也是为了让百度的移动蜘蛛抓取的时候有个良好的体验,这也是为了更符合百度移动落地页体验。


四、如何提高搜索引擎抓取频率?

1、网站内容更新:搜索引擎抓取内容,只是针对个别页面,而不是全部的页面,这也是搜索引擎对网页的快照更新时间变短的原因。比如说经常更新的页面,快照也会经常对其进行爬取,从而可以及时发现新内容与链接,删除不存在的信息,所以站长一定要长期坚持更新网页,才能使搜索引擎爬虫稳定前来抓取。


2、网站框架设计:对于网站的内部框架的设计,是要从很多方面进行的,其中,代码需要尽量简明清晰,代码过多容易导致页面体积过大,影响网络爬虫的抓取速度。在抓取网站时,同时网页flash图片尽量少一些,flash格式的内容影响蜘蛛抓取,对于新网站来说,尽量选用伪静态形式的URL,这样可以让整个网站的页面都容易被抓取。

在设计时对于锚文本文字要分布合理,不能全写关键词,要适当的增加一些长尾词链接。对于内部链接设计也要通畅,方便权重传递。


3、网站导航设计:网站面包屑导航是网站设计的时候很多企业都会忽视的一个地方,导航是蜘蛛抓取的关键,如果网站导航不清晰,那么搜索引擎在抓取时就容易迷路,所以导航一定要合理的进行设计。这里顺便提及锚文本建设,站内锚文本有利于网络爬虫发现和抓取更多站内网页,但是如果锚文本太多又容易被看成是刻意的调整,在设计时要把握锚文本的数量。


4、稳定更新频率:除了首页的设计之外,网站还有其他页面。爬虫抓取时不会对网站上的全部网页都建立索引,在它们找到重要的页面之前,可能已经抓取了足够多的网页离开了。所以要保持保持一定的更新频率,更新频繁的页面能轻易被抓取,因此能自动抓取数量很多的页面,同时我们要注意网站层级的设计,不能太多,不然也不利于网站抓取。


五、提升蜘蛛抓取效率

1、页面时间因子添加:众所周知,搜索引擎在没有任何辅助条件的情况下来判断更新频率是需要一段时间来观察的,而大量的时间消耗对搜索引擎和SEO来说并无益处,在这个时候就需要网站运营人员配合给出一个更新频率参照物,也就是页面时间因子。


①前端时间因子:这里的前端时间因子添加是便于蜘蛛在抓取过程中充分理解当前页面的更新时间。


②源码时间因子:而源码内的时间因子则是JSON-LD格式的提交方式,其作用是为了通知蜘蛛第一时间知晓页面的发布、更新以及互动时间,便于及时抓取。


需要注意的是,前端时间因子如果不是期望抓取频率在时、分、秒的策略中,建议只具体到日期即可,反之则具体到时分秒。


例如:更新时间:2020-9-1 和 更新时间:2020-9-2 13:11:42


2、页面更新频率设置:通常我们在网站建设的时候会选择合适的cms内容管理系统或者自行开发,而这些系统在便于对内容重复修改的基础上也具备更新功能,所以时间因子的触发就要与页面更新联系起来,选择合适的频次对模块进行更新效果事半功倍。


3、页面相关内容调取更新:当然,搜索引擎也不傻,它不会一味地只相信你告诉它的更新时间,搜索引擎自己也会对网页整体变化进行判断,而我们要做的就是通过页面调用逻辑给网页调取内容进行更新,就如同我们首页会在特定的时间范围内更新最新资讯的推荐入口一样。


六、如何提高搜索引擎蜘蛛抓取

那么我们如何做才能让蜘蛛经常过来抓取网站呢?那如何提高搜索引擎蜘蛛的抓取,也是就是怎么让百度蜘蛛多来爬行你的网站。


1、研究蜘蛛爬取习惯并优化习惯:至于后面谈到搜索引擎蜘蛛的爬取深度,饱和度,优先爬取,冗余度以及爬取路径都是对于蜘蛛爬取习惯和爬取策略的研究,因为自己也没有针对性的去实践分析,所以只能在理论上谈谈自己的一些搜索引擎优化的想法。


搜索引擎蜘蛛的爬取深度如果不够深,主要是因为网站在结构布局的时候没有考虑到这蜘蛛是否能够充分抓取或者是否按照一层一层的抓取,这里就涉及到链接入口的布局,也就会考虑到蜘蛛爬取优先的一些入口,很多时候对一些大的网站做诊断,来提升其流量和收录主要的策略布局就是优化蜘蛛抓取优先的入口,实现的方法就是采用nofollow标签屏蔽一些页面。还需要分析的可能是爬取的饱和度,因为对于单个页面的爬取太多是在浪费蜘蛛资源,我们如果能够适当的控制这些资源的分配,那么对于页面的抓取和收录的提升肯定有很大的帮助。


2、分析爬取率验证模糊经验理论:分析搜索引擎蜘蛛首先会考虑的一个参数就是爬取量,一般我们考虑蜘蛛爬取量的单位是以一天为一个时间段,那么我们很多时候考虑的就是一天时间内的爬取率。当然,你也可以根据自己的需要调整时间段的限定,如划分到每个小时,来充分了解各个时间段的蜘蛛的抓取情况,然后针对性的做一些调整。其中我觉得一类分析可以给我们带来很多的成就感,即对于一些模糊经验理论的验证。


例如我们经常听到这样一句话:“做网站内容的时候要定时定量的更新,培养搜索引擎蜘蛛的抓取习惯,随意的改变更新时间,可能影响蜘蛛对网站内容的抓取”,这句话到底正确不正确呢?这里就可以运用网站的日志进行分析搜索引擎蜘蛛的抓取率来解释。具体的操作方法就是对一个月内每天每个小时段的蜘蛛抓取情况进行拆分统计(注意数据样本选取的合理性),然后对每个时间段进行分析,对比就可以发现哪个时间段搜索引擎蜘蛛来的比较勤,再和自己做内容更新的情况进行一个对比就可以很快的得出结论。


3、提高爬取频率提高提升收录:搜索引擎蜘蛛的爬取频率很多时候是由网站内容质量决定的,因为只有网站有更新鲜更好的内容,才能更吸引蜘蛛来反复抓取,例如很多大型的内容型网站,每天更新大量的内容,这样就把蜘蛛一直留在了站内,页面抓取的频率自然会提高。而提升了爬取频率,对于页面中内容和链接的更新就会被搜索引擎蜘蛛更快的抓取到,能够更充分的收录网站的页面内容信息。


你觉得这篇文章怎么样?

82 0

我们立足于合肥面向安徽乃至全国全球市场,我们拥有一支经验丰富、创意独到、团结协作的专业技术团队。我们立志把最好的技术通过最有效、最简单的方式提供给客户,为客户提供最佳的解决方案,我们将通过不懈努力成为客户在信息化领域值得信任、有价值的长期合作伙伴,帮助客户在新经济时代下,把握商机和发展空间,并获得绝对的竞争力!我们专注于高端网站定制、系统开发、商城开发、外贸网站建设、公众号开发、小程序开发、网站优化推广、安全运维等技术领域。是高端定制网站领域著名服务商!

扫描二维码与小二CMS创始人沟通

7*24小时为您服务

小二CMS专注于高端网站定制、系统开发、商城开发、外贸网站建设、公众号开发、小程序开发、网站优化推广、安全运维等技术领域。是高端定制网站领域著名服务商!

本文标题:分析搜索引擎蜘蛛的抓取
免责声明:文章《分析搜索引擎蜘蛛的抓取》来至网络,文章表达观点不代表本站观点,文章版权属于原作者所有,若有侵权,请联系本站站长处理!
关于我们

小二CMS专注于高端网站建设服务及定制,拥有丰富的企业网站建站经验。 近年来制作并完成了许多网站建设案例,企业品牌官网、营销型网站的建设、B2C网上商城系统开发、行业门户网站等平台开发,我们还提供了网站的策划、设计、开发、布署、安全等一站式专业的网站建设解决方案。小二CMS致力于研发国内最专业、功能最强大,扩展性能最自由灵活的高端行业通用的网站系统。我们做的不仅仅是网站系统,更多的是成就您的成功!

我们的优势

十二年建站服务经验
服务1800家企业
资深行业分析策划
前沿视觉设计、研发能力
前端代码深度符合SEO优化
千家成功案例

独家源码出售
具有完备的项目管理
完善的售后服务体系
深厚的网络运营经验
时刻新技术领先研发能力
方便二次开发

我们的不同

我们是一个年轻且富有激情的团队,我们沉迷于代码并陶醉在设计之中。我们非设计,不生活;无兄弟,不编程!可年轻并不意味着没有经验。团队成员均来自各顶尖设计公司及软件公司,我们对网站设计及开发驾轻就熟,有着数百个成功案例。我们坚信用心服务,用实力说话!我们的使命:通过我们的努力,让技术改变命运!我们的宗旨:客户第一,品质至上!我们的信念:唯有客户的成功,才是我们的成功!

不忘初心,方得始终
中高端网站定制开发服务商
与我们取得联系

好作品自己会说话,

我们敬畏您给予的点滴信任 !

期待携手合作,请立即咨询我们:
QQ咨询
微信咨询
我们用心,期待您成为我们的客户
联系QQ客服

QQ扫码联系客服

联系微信客服

微信扫码联系客服

微信号:
添加微信好友, 详细咨询相关信息。

复制并跳转微信
19810950281