网页收录是SEO工作的核心之一,尽量提高网页的收录,是SEO日常工作的重点。为了提高网页的收录可能性,需要做如下的工作。
首先为网站设置一个Sitemap文件。网站的Sitemap文件就像生活中的地图一样,告诉蜘蛛网站有哪些重要的文件,获取这些文件的路径在哪里。关于Sitemap的制作可以查阅本书有关Sitemap的章节。
制作好Sitemap文件,可以把Sitemap文件上传到网站,一般放在网站的根目录下。下一步就是把“地图”提交给搜索引擎,让蜘蛛顺着“地图”过来。关于如何提交Sitemap给搜索引擎,每个搜索引擎的做法有一些差别,但是一般要求注册一个搜索引擎的站长账号,然后验证网站属于你以后,在站长管理板块有一个提交Sitemap的区域,直接提交网站Sitemap的LIRI_.就可以了,蜘蛛会顺着提交的URL爬到网站页面来。
除了提交Sitemap,为了促进收录,在网站建设时设置良好的内链也非常关键。网站内部的结构就像一棵纵向的大树,不断向下植根、发散。如果页面没有良好的内链,蜘蛛就无法从一个页面爬到另外一个页面,即网站存在很多“孤岛”,搜索引擎根本无法发现这些“孤岛”的存在,也就无法把这些页面收录到索引库中来。因此,设法避免“孤岛”页面的存在,对于收录来说,是一项非常重要的工作。另外,部分良好的内链其实起到一种锚文本的作用,对于提升关键词的排名是非常重要的。
蜘蛛在爬行网页的过程中,遇到页面异常的情况,比如因为服务器原因无法访问或者页面已经不存在,会返回提示,SEO人员需要分析这些反馈信息,尽量修复导致蜘蛛无法正常爬行进而收录页面的各种异常。
收录分析是对网站的页面收录进行一个系统的分析,通过分析收录比例,可以看到SEO的空间。比如页面数量是100,而收录页面是5%,那么收录比例5%,即100个页面只有5个页面被搜索引擎收录,起不到SEO的作用,这个情况就非常不乐观。反之,如果页面数量是100,而收录页面是80%,意味着在100个页面中,被搜索引擎收录的页面总数已经达到80个,收录状态就比较理想。
收录分析可以按照两种方式进行,第一种是按照URL的层级进行分析,第二种是按照频道进行分析。
按频道进行分析,一般要求每个频道下的URL是唯一的,而且和别的频道URL不重合,这样分析出来的结果才比较精准。比如新闻频道下的所有页面都是/news/下的页面,而且整个网站其他页面没有在/news/下的页面。如果遇到一个频道下有多个URL模式,只能通过列举方法,统计每个频道下的URL规律,然后把相关页面进行汇总计算得到分析结果。
蜘蛛抓取分析是对蜘蛛爬行网站的页面的行为进行分析,目的是分析蜘蛛爬行的网页占网页实际数量的百分比,用于检测网站内链的连通性和洞悉蜘蛛的爬行规律。蜘蛛爬行一般按照URL的层级进行分析。