那么,百万伪原创数据,如何提升收录量?
根据以往提高网站索引量的经验,将通过如下内容阐述:
1网站诊断
通常来讲,影响页面收录的一些核心因素,主要包括:内容、结构、速度,在这里我们开篇已经非常明确,内容是全网采集伪原创,简单看了一下,基本上是整合各大知名网站的内容。
通过伪原创工具,进行批量伪原创整理的内容,甚至有些页面内容结构,都没有得到合理的调整。
基于现状而言,一个月的调整周期,我们短期改变内容质量本身,很明显是不现实的情况,因此,我们只能从另外两种渠道审查原因,比如:结构。
经常审查,我们发现:
①整站结构呈现多目录的情况,一级目录多达84个。
②网站内容百科主体页面,不存在任何内部链接。
③网站列表页面存在侧栏调用缺失的情况。
④网站新增内容,部分页面并没有明显的时间因子。
⑤网站页面标题,多级分类名称展现,使得标题文字展现超长。
⑥每日新增内容,很难在首页与站内非相关页面展现。
⑦页面访问速度3-4秒PC端。
⑧没有HTML网站地图。
⑨网站改版过,存在大量的链接,数据量在1万左右。
简单来看,实际上网站结构性问题,也并不是特别大,初步定位问题的核心更多的是基于内容采集与伪原创问题,但我们仍然需要给出解决方案,帮助用户提高页面收录量,刚好我们之前操作过一个非常类似的网站,情况大致相同,于是在短期我们迅速调整了相关站内策略。
2解决方案
①标准化页面标题
采用:内容、列表、tag名称+品牌词的形式,比如:SEO标题-品牌词
将整站所有页面标题统一调整成简短的形式,这个时候有的小伙伴会担心大量调整标题出现降权的情况,我们不能完全保证这个情况不发生,但我们基于有限时间周期内,就需要强势推进调整。
出现问题在根据实际情况来解决。
②调用词库搜索结果
采用这个策略主要是“一石二鸟”的策略,前期为提升页面收录量做辅助,后期为提升整站权重打伏笔,整合行业词库之后,我们选择调用与生成30万个长尾词的搜索结果页。(采用同一目录)
由于对方网站前期分类目录众多,这给我们创建搜索结果页面,提供了一定的页面结构做支撑,使得搜索结果页面看起来相对丰富。
每个搜索结果页面匹配的目录调用当下相关性结果。
同时,确保搜索结果页面是动态变化的,我们在搜索结果页面中,增加调用当天最新内容,随机性内容,随机性搜索结果页面。
新增页面内容列表确保时间因子展现。
③建立HTML版本地图
在这个过程中,由于早期分类目录数量众多,我们短期内,进行有效的目录合并非常不现实,因此,在实际操作的过程中,我们创建了5个HTML版本的网站地图。
每个页面平均展现20个分类,每个小分类调用最新与随机性内容,进行合理的展现。
单页面顶部导航展现5个HTML版本的链接入口,提供搜索引擎蜘蛛进行爬行。
④搭建网站内链结构
内链结构我们主要分为两个部分,一部分就是现有站内核心排名关键词需要的栏目与内容页的关联,其次,一个策略主要是在15万个页面中,识别长尾关键词新增页面,将这部分页面导入到现有页面中。
这样我们在站内基本形成一个相对性的循环状态,单页->搜索结果聚合页->展现的每一个单页,然后再次循环下去。
采用这个策略的核心目的就是希望站内的每一个页面都存在多次被爬行与抓取的几率,从而提升页面的收录量。
⑤制定输出频率
网站原因API自动提交的时间周期相对的集中,调整之后,我们采取两个策略,白天提交日均新增的1万个页面,进行每个一个小时平均分配,而晚上时间我们同样提交一万个长尾词的搜索结果页,采用的策略同样是平均分配。
⑥调整网站速度
深入和对方运营的技术沟通,合理的优化了数据库维护的策略,同时,升级网站配置和带宽,本打算启用百度云加速,后来我们实测页面打开速度可以有效的控制在1.5秒-2秒PC端。
3策略结果
调整运营时间周期:35天。
网站收录量新增:7.8万与现有共计快10万。
网站收录率:近乎13%,15+30+30=75万,已经提交页面。
实现现有收录量翻倍:近乎7倍。
新增索引量:采集伪原创页7万,搜索结果页8千。
网站基础权重:1变2