math

2013年9月11日星期三

继续昨天中文企业名的匹配思路

现在两个要匹配,除了已经匹配上的之外,python实现的基本流程。
1、分别读入左边和右边要匹配的字符。
2、左右大分词,比较所有分词元素出现的次数。
3、将左右逐行分成元素,对每个元素进行分词。
4、逐一比较每个元素中在总内容出现最少的词或第二少的词。这可能就企业名中最核心的名字。
5、将左右两边按这一关键词进行分类加总,得到每个名字下面的元素
6、将两个元素逐一比较。若其中子元素部分只有一个子元素不对应,就视为是已经模糊匹配。

本方法与之前K次变换得到相同字符串的模糊匹配方法在于,中文里 京东 东京 兴康,康兴这些完全是不同的意思,不能简单匹配。但是北京市兴康药业有限公司 和北京兴康药业公司 虽然差别很大。但还是可以看出是同一家公司。所以需要先进行一定的元素处理,对不同的子字符串赋予不同的匹配权重。得到的结果会更为合理。

字符串模糊匹配的问题

这个问题想了很久都没有很好的办法。但现实当中,人眼是能看出两个字符串的同义的。

我的数据量也不够大。现在怎么办呢?还是中文字符。

我的思考是,我们要匹配的一般是企业名字。这些内容里面有很多东西都是不重要的。比如说企业的所在地,有限公司等字词。

如"苏州XX造纸有限公司"和苏州XX造纸用品有限公司。这两个公司几乎可以确定就是同一家公司。但是用字符串完全匹配是不可能的。

那么我们需要做的是,是利用分词,把两个原字符分成若个元素。其中XX是最重要的,也就是名称元素,结尾是公司元素。其他的符号则是不重要的。

如果两个名字的所有元素都分别对应,同时所在地一致,那可以认为这是同样的公司。
如果两个名字的名字元素对应,但有一项其他元素不对应,也可以认为这是同样的公司。

剩下的写code的干活。

2013年9月10日星期二

从谣言的定义来说厉王时代

从学理上来说,理性人为何会传播一些未经证实的消息?

这件事的收益是,由于这信息当中包含有部分的真实信息,信息接受方能够通过这些真实信息提前预防或准备获得收益,进而愿意由于这种收益而愿意回馈。

简单的来说是这样一个事,你看到一个天气预报说今天会下雨,然后转头告诉你的朋友说今天可能会下雨,记得带伞。

这个事件中,今天是否下雨是不确定的,你说的可能下雨是一种推测和臆断。但是为什么你愿意和你的朋友分享呢?因为你觉得如果下雨,你的朋友可以妥善应对,避免被雨淋湿生病等情形,这对你是有好处的,或者是通过朋友在下雨时心里的嘀咕,或者是通过有一个健康的朋友。

但这个行为的不良影响是什么呢,你朋友可能无谓地带了伞。会在中午的时候因为东西多携带不便而埋怨你。

但是你两相权衡之下,觉得好处大于坏处,还是朋友的健康要紧,所以你会告诉朋友这个事。

信息的传播也是这样的,每个人传播信息的行为都是由于自己能够得到正反馈,这当中包括,推销自己的观点,商业利益,情感收益,关系促进,信息交换等。

人类文明的存在,在于超越世代的信息的保留与交流,因此我们才能优于其他飞鸟鱼虫,很多动物并非没有能够类比人类的大脑,但是他们无法和人类一样高速有效分享和创造信息。在当前的信息流和社会化过程中,一个人到三四岁间接收到的信息,包括重复的信息,远远超过一些动物终身会接受收的信息流。

在这种情况下,为什么大家不认为一个错的信息是有问题的呢?因为人类整体接受的信息是巨大的,多数信息对于多数人而言是过目即忘的,人类需要不断清理自己的短期记忆,只随机性的保留内容进入长期记忆。

从个人而言合理的信息交流,是否会严重影响社会利益呢?这就涉及言论自由的迫切性原则,一个言论合理与否,主要看其场所,在电影院里叫起火是很严重的,在大操场上叫起火则会是完全不同的结果。

因此谣言的有效性与否,在于是否能够准确地传播到一部分会轻信这些谣言的受众,同时这些受众会基于这些虚假的信息做出对社会不利的事情,但是这只是负面,还要看这谣言其中包含的正确信息,是否能够其他受众一个合理避免某些不利后果的机会,社会总收益,等于回报减成本。

举例来说,转头告诉朋友今天下午可能下雨是合理的,但如果在一个只能在阳光下施工的工地上说今天下午会下雨,那影响就不同了。后者需要更多的核对停工的影响和这个消息的准确性。

但是这所有的问题在于,信息是不完全的,我们不会知道自己能活多久,直到我们死的那一天,每一条信息里都是成比例的包括正确的信息和错误的信息,区别只在于比例,同时这个比例也是不能被第二人所判断的,因为大家都处于一个信息不完全的社会,比如我说基因食品危害性不大,可以推广,另一人说基因食品危害性很大,不可以推广。我们两者之间的信息的真实与错误的比例是不能在当下就百分之百的确定的。

但是从谣言这两个字来看,谣用作贬义是在《离骚》"众女嫉余之娥眉兮,谣诼谓余以善淫"中,这句话当中谣与诼连用。有捏造之意,谣言的本质也即是认为信息不实,但一个经济社会,不实的信息都当错的信息,有缺陷的产品都当不能用的产品,有瑕疵的人都当成不值得要的人。这是不合理的。经济生活在于追求边际转化率的相等。即边际收益等于边际成本。某人曾在我们学科的几大刊物都发过文,不会不知道这种边际的取舍。

除了经济学上的成本收益分析外,对谣言的定义还要一个重要的问题,举证责任的归责。在自诉案件中,受害人有举证责任证明对方信息不实,这是由于受害人对自己的信息掌握更为完善,占优势地位,但是在本次活动中,如山东某地要求信息传播者举证,这会使得信息传播者处于一个更不利的地位上。即使信息为真,但是伪受害者有能力也有动机去隐瞒相关信息的时候,伪受害方有更强的意愿将这种信息定义为谣言,因此要求传播者自己说明自己传播的不是谣言是不合理的。

我无意于祈求厉王的德政,我只知道道路以目,社稷何安?经济活动的前提在于信息的透明和真实,参与方能够合理的预测风险和回报,才能对应的调整自己的经济行为,也才会增加整体的经济的活跃程度。对一一个不知道当地地下水是否被污染, 不知道某地的经济社会指标的经济人,最佳选择是不在这些地方进行投资生产,就如巴菲特所言,不懂的不要碰。但是现在有了更多的努力让外人不懂。那经济前路又在何方?