采集网站经验分享,排名、内容、权重、域名等优化建议
首先百度的逻辑其实很尴尬,就是通过百度搜索进入站点的流量百度会认为用户对网站的认可度比较高。所以会逐渐提高排名。
这就是最尴尬的地方,比如教程类的文章,其实用户追求的是最新发布的教程,但是由于百度的算法问题,所以年代越久的,被用户点击最多的,常年一直排名很高,而新发布的教程基本上看不到踪影。
原创与伪原创:
根据我的经验,伪原创(这里指用工具伪原创)最好一点都不要做,百度现在ai很强大,只要发现不符合正常人理解的伪原创内容,肯定K。
这段主要说原创问题:百度对标题非常强调原创性,所以如果是采集的文章,肯定需要修改标题,而且是大修改。
而title,keywords,description这三个,根据我自己测试,没有keywords同样收录很好。title必须与你的h1标签对应的标题一致,至少大体上是一致才行。而description,需要与文章第一段一致。
这里就是个关键:百度搜索列表的简介部分也会参与用户输入关键词的匹配,所以如果是采集站,文章第一段就是百度判断是否为原创的关键内容。至于如何构造出来是你自己去分析了。
关于权重:
百度肯定有自己的权重算法,但是肯定不是aizhan,5118,chinaz的所谓权重算法了。第三方的权重都是根据他们自己抓取到的关键词,然后模拟查询看你的排名位置来计算权重的。
但是百度自己的权重算法肯定比第三方全面,每个关键词都有权重的。如果是自己的站点,当然可以看统计报表来判断,我一个aizhan权重1的站点流量却非常高,原因是第三方站点没有把用户搜索的关键词抓取到,导致无法统计权重而已。
你根本无法想象到用户都是搜索什么关键词进来的。所以如果你的站点被百度收录就肯定有机会被用户百度搜索点击到,也肯定就会被百度的权重算法慢慢提高权重的。
如何查看其它网站的权重:
根据我的经验,site:一个域名,如果看到索引几十万,但搜索列表却空空如也。那基本上就是被百度降权了。比如www.hostloc.com已经被降权。而hostloc.com却还算正常。这是第一步。第二步就是随便拷贝你看到的site:出来的标题,直接去百度搜索,如果能看到,起码前10页能看到,就说明这个站点流量还是有的。
刷排名:
刷排名是有用的,其实就是强行刷一个关键词,模拟用户点击逐步在百度数据库中建立搜索量,然后如果这个关键词热度达到一定级别,就会在百度下拉框出现了,很多第三方查权重的关键词库都来自于百度下拉框这些热词的。所以你就会看到这些站点在第三方查出来权重都非常高。
但是:其实都是假象,百度肯定也有监控用户行为的算法,如果刷太多,被百度算法识别,会给你K的干干净净的。而且,这个关键词是刷的,如果停止刷了,基本上立马掉权重,因为根本没有多少真实用户会搜索这个关键词。所以如果是网站交易,特别注意这个站点是否是刷出来的。
域名优势:
确实老域名与新域名来比优势是有的,但是老域名是指曾经建立过站点的域名,不是注册年限多久的域名。因为百度发现这个域名无法访问,只会取消索引,其实内部数据库是有信息的。
新域名:百度确实有沙盒,上面说的老域名如果再次建站,由于早已经通过沙盒,所以基本上你建立的站点很快就会被收录。而新域名肯定需要通过沙盒期才算被百度正式认为是可靠的数据来源。其实百度虽然没有明说,但是你去神马搜索和搜狗搜索。他们都明确说了,你的域名在系统中评级为1-10.
评级达到多少,你才能做一些高级的数据提交等等。。。也就证明,一个域名在百度中也肯定有评级的。
所以:如果在沙盒期的域名,或者评级非常低的域名,一定要真实的原创内容,才会大概率通过沙盒评级。如果一开始就采集,基本上你采集5年都一个卵样了。
当然,有些内容肯定不适合原创的,比如小说站。你怎么原创呢?都是一个作者写的。。。。所以小说站的玩法根本就跟上面一切概念无关了。小说站其实竞争非常激烈,内容页根本一点伪原创都没办法做到。。所以很多站点都是在列表页做文章。小说站的列表页可以构造一些冷门一点的搜索习惯长尾词,只要百度收录,还是有一定机会流量起来的。
但是:真实的竞争其实不是这样。。。。小说站由于有版权问题,所以基本上都是一些老站看时间差不多了,直接全站301重定向到新的域名站点。这样被301重定向的新域名,会很快接替老域名权重的。所以你会发现经常排名靠前的小说站都是莫名其妙的新域名。至于你也想301就别想了,除了用黑客手段以外。。其实这些老站长不可能让你动了他的奶酪的。这也是站长圈很苦逼的地方。。。权重代表一个站长的级别,你级别太低,人家根本理都不会理你。。。我以前有个电影站权重5.任何关键词基本首页前5位。。当时那站长圈多少人加我。。。后来自己收到太多邮件投诉,怕了就关闭了。。从此进入人生低谷,再去找这些老站长,根本不会再理你了。。
关于采集:
某贴说得没错,靠火车头采集的才是真正的垃圾站。真正有流量的站点,不管他是不是采集的,基本上都有自己的爬虫系统。所以建议多学点爬虫技术,自己弄,并不难。关键是数据来源问题了。这算是商业保密了,任何能通过网站赚钱的站长,都不可能发布出来的。所以你看到的seo教程也好,采集源码也好,站群系统也好,只要愿意在网上发布的,都是已经被玩烂了的东西了。不要抱太大希望。
我再补充一点:
经过日志分析,百度已经新增了可以读取外部链接的js,css蜘蛛,站长圈讨论下来,估计正在模拟ajax数据抓取,以及js,css,html原创度判断。。。意思是,如果采用网上同质化很严重的主题,排名也会受到影响。所以建议自己布局页面,包括js,css,html
作者:kaleok