一般情况下,一个页面内导出链接不能过多,超过某个值蜘蛛就不抓了。之前的经验是100,但是这个数值还是跟网站和具体页面有关。在网站层级和单页导出链接总量两个约束条件下,还有一点文章可做,那就是时间。单个页面导出链接最多是100,如果我每天换掉其中的50个呢? 一个最简单的实现方式是借助于缓存机制,固定的取50个,另外再在全集中随机取50个,这50个设置缓存时间1天,1天后失效,再随机取50个,这样可以最大化导出链接的时效性,就像广告的分时段轮播一样。这里的数字可以根据实效进行调整。站内如此,对于批量交换的外链,也可以按照类似的方式实现。
对于移动页面,有两种主要的机制通知到蜘蛛PC页与移动页的对应关系,一是在PC页头部加上mobile-agent的meta属性,二是在站长工具提交PC/移动页对应关系的正则(也可以提交全量的URL地址对)。
抓取这个环节至关重要,站长平台的抓取频次,和通过accesslog分析得到的抓取明细,都需要时刻监控。小站的log文件,市面上有些一些日志分析工具,自己写也OK。对于大站的log,很多都存储于hadoop这样的分布式存储上,一般需要定制程序去分析处理。为了即时分析处理,快速反馈,可能需要接入流式计算框架(kafka+storm)。
对于蜘蛛抓取行为数据的使用,可以用来评估蜘蛛对于站内页面价值的评定,可以用来反馈辅助抓取所做的一些优化的效果,可以预估新生成页面被搜索引擎接受的程度,等等。没有使用价值的数据是没用的,数据跟具体的应用场景结合起来,才能体现其价值。
对于抓取的页面,蜘蛛建立倒排索引后,会进行价值判定,按照价值高低,存储在分级索引库中。高级别的索引库才会参与最终的搜索排序。
一般SEO开始学的时候,都会接触到site语法,基本上所有常见的搜索引擎也都支持site语法去查询域名或者目录级的收录量查询。在site查询语句的后面加上一个词,可以查询得到该域名与这个词相关的页面。比较有价值的是,site语法查出来的结果,按照网页的价值倒序排列。这个特征便使得依据相关性内链,提升第二页/第三页落地页的排名成为可能。
【排名与流量】
对于有搜索量的词,获得好的排名,几乎确定了能获得流量。这里说几乎,因为还有一个点展比(点击量除以曝光量)的概念。按照谷歌的规律,PC搜索结果中,前四位获得点击的几率是42%,12%,9%,6%。
先说排名。说到搜索排序,有很多场景下可以用到,比如在搜索结果页中的推广链接区域有个排序;在淘宝里面搜索,商品返回的结果列表有个默认的排序;App Store中搜索也会按照一定的规则返回结果列表;同样的,在广告投放中候选广告创意去竞争一个展示机会时也有一个排序。这些排序与自然搜索的排序有一个共同点,即为了用户体验,将最好的,最符合用户需求的排在前面,从而提升用户体验。
【流量到转化】
SEO流量获取的问题解决以后,就要考虑怎么去承接这些流量了。与广告类似,流量的目的一般是两个,品牌曝光,直接效果。品牌曝光一般难于做效果监控,所以本篇主要聊直接效果。
实际上,承接的效果如何,对于获取流量的能力又有很大的影响。外部来说,内容不满足搜索用户的需求,跳出率高,搜索引擎里面的排名会掉。内部来说,老板看的是最终目标,曝光量大,转化多,成单多,可以让老板更重视SEO,给更多资源,有了资源,就可以更好的做SEO,从而形成一个良性循环。
以直接效果为目标的流量,转化可能受到四个因素的影响,
1.流量的质量,或者说流量背后的用户跟自身需要服务的用户的重叠程度,把不相干的流量引来,可能是做无用功,用术语说,就是要做到精准营销;