math

2013年8月27日星期二

新网络时代的信息流

最近各大网盘都提供了越来越大的容量,同时对中国经济看衰的人越来越大。

这个时候,从理论上来说,网盘带来的第一个好处是备份,第二个就是分享。包括微博,微信都给现在的信息传播提供了极大的便利,但同时,对想控制信息流动的一方来说,也是极大的挑战。

之前在长微博的分享的情况有,有人提出既然二维码可以负载这么多的信息,与其发图片不如再发一些更简单的二维码图片。

其实在当前的网络管理下,更多的网站是用显性的文本查询的方式,也就是关键字或者是正则匹配的关键字来限制一些信息的发布。因此只要改字就可以戏弄这个系统,从GOOGLE Trend上查一下“目田”、“河蟹”等词都能看到一个神奇的趋势变化,再查最近热门的“不厚”的趋势。这些变体词对于一个关键字的数据库就能简单的克服掉,如果对其进行管理,最后只是可用词越来越少。

但从另一方面,这种管理模型之所有效,核心在于其是自动的,人工的微博小秘书可以更为精准的对点删除一些认为不适宜的微博,但这种劳动量不是人可负担的,同理之所以长微博的图的形式能保留得更长久的原因之一,也是由于其审查上不能自动化。

但是二维码正是有这个方面的缺陷,我们几乎所有的二维码都不能人工阅读,都依赖于扫描器,对于这个系统,只需要后台先对图形扫描一次,然后再对文本进行分析就可以。

但是另一个问题是,在现在的情况下,对于未知的图片,包括微信的语音,还包括未知的文件。这些载体中包含的信息监测和阻断是一个最麻烦的事情。

在长久以来,管理者的思路都在想,我要知道你说什么,然后我再去判断你说的这个是不是我想让你说的,然后再决定让不让你通行。这也是报刊审查和出版的所有模式。但是在网络的情况下,如果管理者做为一个管制者,自由传播的东西都是自己的假想敌的话。那么除了这个思路还有一个方法,就是看传播路径。如果传播越广泛和越快的,就是他们越不希望看到的。

对于GOOGLE来说,要翻译几个变形词完全不是问题,比如“”不厚“在网页中的容量,几乎可以说和薄就是同时发生的,完全数字化的翻译系统就可以把中文那些异体词完全翻译过来。不是因为他们知道这些异体词是什么意思,而是因为这些异体词总是出现在原词该出现的地方。

对于文件和图片的分享,只需要了解人们对某些管理者不喜欢的信息的分享模式,得到一个分享增长的模型。然后再分析现有文件系统中哪些是在按这些模式在增长的,其实就是一个简单的网络成长的模型。举例来说,同样是百度云的分享,如果是电影,很多人会直接转存或是在线看,如果是图书,有一部分人会转存,有一部分人会下载。这涉及的行为学的问题。就如同传染病一样,某些群体其实是某些信息的易染者,也是这些信息的主要传播的节点。当监控了某一个网络,发现这个网络里某些节点在迅速增长的时候。同时也和原无测定的风险节点有高度重合。就可以认为这个信息载体是风险载体。然后再加以人工判断就可以。

就如同电话,监听通话内容在现有的语音识别技术下几乎是不可能的,但可以推测的是,某些信息需要广泛的传播,那这些人的行为就会反映为接到信息以后愿意以若干级数的层次发布这个信息。最后一个本来联系比较松散的圈子,突然在一两天内互相完全联结起来了。从这些网络分析的特征上。可以在不需要知道直接内容的情况下直接判断是不是一个对信息流控制者有危胁的信息。那么对于有足够的人力,信息水平的控制者而言。最重要的是先将这些信息增长的节点监控起来。 

对于一个文件共享系统的话,这个系统里每个文件都是可识别的,按照独有的HASH即可以。监控者只要简单的看一下,若干小时内每个HASH值,进行加总,识别总的访问量,传播数,然后再按分享节点进行风险判断。也就是一个分类器的问题。在基本分类上再加上人工辅助。人类还是没什么办法突破的。

这种方法的问题就是,信息阻断之前已经知道的人不可测定。信息控制者没能从0来百分之百的控制信息。但是只需要保证不是大的群体性事件就可以了。不是么。

有条件的大数据商们,事实上已经可以开始尝试这种模式了。我看到了更大的可能是,信息管制者,又增加了自己可以监控的网络的数量。

2013年8月4日星期日

调研的好处

刚刚看最高法的会议讲话,看到这段"北京高院还提出其受理的大部分案件直接侵权人都不在北京,能否确定相应的地域管辖标准,解决相关案件的审理。根据民事诉讼法和最高法院有关司法解释的规定,只要符合规定的管辖联结点,当事人可以选择管辖。恐怕对有选择管辖权的不好一律不受理。根据情况,对于确实认为案件应由其他有管辖权的法院审理更合适方便的,对当事人也方便的,受理案件的法院可以将案件移送管辖,受移送的法院不能再次将案件移送。要协调好管辖,防止互相"踢皮球",形成新的告状难。当然还可以做调研,成熟的也可以报请最高法院作出相关的司法解释。"不由得直接笑出来了。可以想到当时北京一二中民三庭的人的表情,在我们调研的时候确实不少企业都是趁侵权企业在北京做生意的时候把企业告的,一方面是调虎离山,避免地方保护,另一方面也是可能北京做为首者在知识产权保护方面也有许多人才和资源方面的优势。

但是这种博弈最后还是不能轻易改的。于是这种斗争就留给了当事人之间互相斗智斗勇。具体说来就是在合适的时候起诉到合适的地方。

了解一个东西的途径,一个是穷举遍历,一个是设身处地的去当一次。作为办公室学科之一,要牢记这两个原则。

2013年8月1日星期四

烛龙是一家聪明的公司

过几天古剑2开始正式了。游侠上骂得一塌糊涂。据说古剑的试玩被大家看透了其质量,然后买的人大约会少很多,另外一个大的问题,就是全程联网。这可能是最让玩家诟病的一个内容了。

说来好玩,我却没下试玩,而是在等着古剑和轩6一起看看,虽然两个游戏的建模和上古真是完全没法比。但是作为很多中国文化融在其中的游戏,也是没得挑,轩6还是那种婴儿肥的主角脸,实在不理解大宇这么多年怎么理解中国传统和当代的审美的。

但是这中突然想到,全程联网,除了正版验证,还有什么好处呢? 还可以传输信息。信息,在这个时代就差不多是一切。我刚刚才被两个网站封了IP。所以感受更深。

在游戏中什么数据是重要的呢? 玩家在哪个情节会退出游戏,哪个场景会不断按鼠标切对话,哪个场景会完全停下来看完动画。还有情节进行的全程,大概多少小时能到哪,哪个环艺会卡住玩家。

一个游戏好不好,关键要看玩家愿不愿一口气打下去,还是玩个开头就骂娘当钱被偷了。然后对单机厂商而言,情节都是类似的,但玩家在什么情节上更愿意花时间,是现在需要知道的了。全程联网,也就意味着某个联网的时候可以上传那么一些夹私的数据,但是会不会有这个胆呢? 

我不知道烛龙会怎么传这个数据。但我应该会抓下那些包来分析一下。好运。国内的单机厂商。