如何防止网站被采集,防止网站被采集有那些方法?

发布时间:2022-05-05浏览次数:463 次
很多新站,起初的时候是没有多少权重的,为了增加收录,提升网站权重,站长会努力的增加原创文章。但是有一些“聪明”的老站,专挑小站新站下手,你刚发布的文章,转眼就被

很多新站,起初的时候是没有多少权重的,为了增加收录提升权重,站长会努力的增加原创文章。但是有一些“聪明”的老站,专挑小站新站下手,你刚发布的文章,转眼就被采集到了别人的网站上,而且可恨的是,对方采集的收录了,你的原创的还没收录,即便后期会被收录,也会被搜索引擎认定为非原创文章。

类似这种小网站的优质原创文章,被大网站采集,抄袭。导致小网站没啥排名,做了“活雷锋”,这种事情,是行业内非常常见的一个问题,那么有什么办法可以防止网站被采集么?

如何防止网站被采集,防止网站被采集有那些方法?

防止网站被采集,那么我们就得先看下一般的网站是如何采集的,正所谓,知己知彼,百战百胜。要学会防,必须了解攻。

以前很多的CMS开源程序,如织梦(dedecms)、PHPCMS等程序内都带有网站采集的功能,单独的工具如火车头采集器这些,都几乎是为了采集而诞生的,而随着互联网技术的发展,现在采集方面的工具是越来越多了。而且随着Python语言的火热,使用爬虫进行抓取别人网站内容也成为一种流行的方法,不过基本的采集原理都大致相同。

采集网站的原理,即:先通过抓取文章列表页,设置规则,批量抓取内容页的网址,然后再设置内容页的匹配规则,比如一般标题都被包含在H1标签内,很多站长内容区域页会用很明显的标志性标签。诸如此类,即找到目标站上找到采集的规律。开始采集后,程序会在短时间内多次访问目标站。

我们总结下采集的规律:

  • 1、目标网站页面标签规律性强;
  • 2、短时间内网站被大量访问;

针对以上采集的规律,我们再来整理出防止网站被采集的方法。

目前比较有效的防止网站被采集的方法有如下一些:

1、文章详情页内增加锚链接,和品牌词

比如在我们的文章页内,出现一些切图匠相关的词语,这样即便网页被对方采集了,对方也需要付出一定的需改成本,而如果对方不需改的话,虽然破坏了我们的原创性,但至少也可以帮我们起到一定的宣传作用。

锚链接有时候会被程序自动过滤掉,但偶尔有时也会被保留下来,几年前有一次我发现我们的网站多出很多外链,一查居然都来自一个权重比较高的网站,他采集了我们带锚链接的网站内容。

2、使用随机class、id标签名,破坏页面的规律性

比如,很多前端切图人员在写文章详情页时,都会把文章内容包含在class为article、artBox等的标签内,这样对方采集的时候就会非常方便。但是如果我们在后端程序处理阶段,加上一些无意义的混淆标签,比如class='EopGuYBmv artBox uKBoWfEJdR',这样的Class名,那么对方使用采集工具时,就不会那么容易找寻到规律了。

传送门:ThinkPHP生成模板随机字符串方法

3、限制IP在短时间内访问次数

恶意攻击及采集都是短时间内发起多次请求,目前很多程序都在使用这种方法,比如短信验证码等,这块属于服务器端的防守,一般需要专业的运维人员,或者安装专业的服务器软件,门槛较低的有宝塔服务器管理面板。

4、页面内增加网站专属的slogan等宣传文案

比如小编就见过很多网站,每篇文章的底部都会有一些专属的slogan宣传语,如:”切图匠,专注前端切图,业务包含PSD、AI、Sketch等UI设计稿转前端HTML开发,从业十余年。代码精简,编码规范,语义化强,方便对接后端程序“,诸如此类等等,当然,如果增加slogan,最好要结合上面讲到的第二点,要不然,slogan本身也会被作为采集的规律。

5、增加禁止用户复制、禁止使用F12调试模式的JS限制

不可否认,也有很多使用人工半自动采集网站的,这类基本都是手工复制,那么这种情况下,我们只需要在前端开发阶段给页面增加限制用户复制文字,禁止使用F12等操作的JS做限制即可过滤掉一大批用户。

但是这种操作对用户体验有一定的伤害,建议在网站运营前期使用,后期收录正常后去除。

6、向搜索引擎投诉(效果几乎无用)

先说明,这条方法不是切图匠的观点,是切图匠交流群内用户反馈来的。怎么说呢,可能有用,但几乎无用。每天新上线的网站那么多,有那个搜索引擎会良心到认真处理这些鸡毛蒜皮的事情。而且这些问题几乎是所有新站都要面临的事情。

当然,道高一尺魔高一丈,使用这些方法只能限制掉大部分的网站采集,不能绝对保证网站被采集,比如说,即便你做了各种限制,别人通过拍照,然后进行OCR识别再转为文字,也不是不可以,只是对方要花费更大的力气。另外,凡是防守,必然要从进攻的思路去反推,就像我们做网站安全防护,也是需要懂得黑客们常用的一些攻击方法和思路的。以上就是切图匠关于如何防止网站被采集的一些方法和思路,希望对各位网站运营者有所帮助。

扫一扫,在手机上查看