math

2013年8月27日星期二

新网络时代的信息流

最近各大网盘都提供了越来越大的容量,同时对中国经济看衰的人越来越大。

这个时候,从理论上来说,网盘带来的第一个好处是备份,第二个就是分享。包括微博,微信都给现在的信息传播提供了极大的便利,但同时,对想控制信息流动的一方来说,也是极大的挑战。

之前在长微博的分享的情况有,有人提出既然二维码可以负载这么多的信息,与其发图片不如再发一些更简单的二维码图片。

其实在当前的网络管理下,更多的网站是用显性的文本查询的方式,也就是关键字或者是正则匹配的关键字来限制一些信息的发布。因此只要改字就可以戏弄这个系统,从GOOGLE Trend上查一下“目田”、“河蟹”等词都能看到一个神奇的趋势变化,再查最近热门的“不厚”的趋势。这些变体词对于一个关键字的数据库就能简单的克服掉,如果对其进行管理,最后只是可用词越来越少。

但从另一方面,这种管理模型之所有效,核心在于其是自动的,人工的微博小秘书可以更为精准的对点删除一些认为不适宜的微博,但这种劳动量不是人可负担的,同理之所以长微博的图的形式能保留得更长久的原因之一,也是由于其审查上不能自动化。

但是二维码正是有这个方面的缺陷,我们几乎所有的二维码都不能人工阅读,都依赖于扫描器,对于这个系统,只需要后台先对图形扫描一次,然后再对文本进行分析就可以。

但是另一个问题是,在现在的情况下,对于未知的图片,包括微信的语音,还包括未知的文件。这些载体中包含的信息监测和阻断是一个最麻烦的事情。

在长久以来,管理者的思路都在想,我要知道你说什么,然后我再去判断你说的这个是不是我想让你说的,然后再决定让不让你通行。这也是报刊审查和出版的所有模式。但是在网络的情况下,如果管理者做为一个管制者,自由传播的东西都是自己的假想敌的话。那么除了这个思路还有一个方法,就是看传播路径。如果传播越广泛和越快的,就是他们越不希望看到的。

对于GOOGLE来说,要翻译几个变形词完全不是问题,比如“”不厚“在网页中的容量,几乎可以说和薄就是同时发生的,完全数字化的翻译系统就可以把中文那些异体词完全翻译过来。不是因为他们知道这些异体词是什么意思,而是因为这些异体词总是出现在原词该出现的地方。

对于文件和图片的分享,只需要了解人们对某些管理者不喜欢的信息的分享模式,得到一个分享增长的模型。然后再分析现有文件系统中哪些是在按这些模式在增长的,其实就是一个简单的网络成长的模型。举例来说,同样是百度云的分享,如果是电影,很多人会直接转存或是在线看,如果是图书,有一部分人会转存,有一部分人会下载。这涉及的行为学的问题。就如同传染病一样,某些群体其实是某些信息的易染者,也是这些信息的主要传播的节点。当监控了某一个网络,发现这个网络里某些节点在迅速增长的时候。同时也和原无测定的风险节点有高度重合。就可以认为这个信息载体是风险载体。然后再加以人工判断就可以。

就如同电话,监听通话内容在现有的语音识别技术下几乎是不可能的,但可以推测的是,某些信息需要广泛的传播,那这些人的行为就会反映为接到信息以后愿意以若干级数的层次发布这个信息。最后一个本来联系比较松散的圈子,突然在一两天内互相完全联结起来了。从这些网络分析的特征上。可以在不需要知道直接内容的情况下直接判断是不是一个对信息流控制者有危胁的信息。那么对于有足够的人力,信息水平的控制者而言。最重要的是先将这些信息增长的节点监控起来。 

对于一个文件共享系统的话,这个系统里每个文件都是可识别的,按照独有的HASH即可以。监控者只要简单的看一下,若干小时内每个HASH值,进行加总,识别总的访问量,传播数,然后再按分享节点进行风险判断。也就是一个分类器的问题。在基本分类上再加上人工辅助。人类还是没什么办法突破的。

这种方法的问题就是,信息阻断之前已经知道的人不可测定。信息控制者没能从0来百分之百的控制信息。但是只需要保证不是大的群体性事件就可以了。不是么。

有条件的大数据商们,事实上已经可以开始尝试这种模式了。我看到了更大的可能是,信息管制者,又增加了自己可以监控的网络的数量。

没有评论:

发表评论