首页 > 代码库 > 百度云离线下载含有违规内容检测方法分析

百度云离线下载含有违规内容检测方法分析


  最近国家开始一轮净网行动,清除网上的淫秽色情信息。各大互联网厂家纷纷开始行动,比如当年很好用的百度云离线下载就一度关闭。后来再次开启后,就出现了这句经典词,因含有违规内容被屏蔽无法下载。

  其实被屏蔽的不一定都是不健康视频,有些仅仅是因为文件名含有一些字眼而已,比如一些美国大片的枪版就几乎都不能通过百度云的离线下载检测。据说这种方法还在迅雷等地方都有检测,因此我们来分析一下,这个检测到底是如何进行的。

  首先上传了一个BT文件,BT文件里面的内容为大闹天宫的电影,但是我把文件名改成了含有敏感词汇的文件名,图片就不上传了,百度云果断的提示我,因含有违规内容不予下载。但是我的种子明明是大闹天宫嘛,莫非孙悟空也成了敏感内容?呵呵,无语。下面我们再把种子文件名改回来,改成大闹天宫,上传完毕后果断成功,很嗨皮。

  从这里我们是否可以说明,百度云的检测就是简单的基于文件名的检测?回答是否定的。百度那么牛逼的互联网公司,怎么可能仅仅使用那么小儿科的方法进行屏蔽,那样岂不是改改文件名就可以轻易的唬过去了?我们来做个试验。我找了一个不健康种子测试一下,文件名打乱为一堆数字和字母的混合,发现百度云无情的提示我,含有违规内容。这里可以证明,百度云还会认真的读取种子内的文件的,挨个文件盘查文件名。

  要想绕过这个,网上貌似有人说了可以使用BEncode Editor进行编辑种子文件,但是经过试验,成功率并不高,而且这个软件属于高科技,使用起来好高端,完全不接地气。不过修改种子内部的参数貌似科技含量挺高,在某博客看到了一个网站 http://www.bteditor.com,很完美的实现了对BT文件内部信息的修改。经过我测试了几个,完全可以过屏蔽。

  但是貌似一些种子文件即使过了屏蔽也是无法离线的,而且貌似经过清洗后,种子的hash code变化了,导致云盘进行文件hash认证的时候找不到原来的资源信息,导致一些种子还是依然无法下载。还有一些tracker服务器貌似也挂掉了,这样的原因貌似都可以导致资源无法获取,貌似还是很复杂的。

  下一篇准备研究一下磁力链接的获取,堪称BT2.0的应该会比单纯的种子好很多。