math

2016年7月6日星期三

定下心来。安心熬些年

最近心里很不放心。主要是未来的很多东西看不准。患得患失。

其实想好了。很多东西还是可以争取试试的。努力加油吧。

只要最终能力上来。其他都好说。

自由还是自己最终追求的东西啊。

所以选的时候,如果有机会,一定要再自由的去学习一些东西。

加油。

2016年6月22日星期三

AI时代研究工作的重要性

在可预见的时间内,同当前大量的数据开放获取便利化一样,研究工作被计算机或者AI帮助的情况也会越来越多。

在这种情况下,人的普通性劳动价值会不断下降,人的作用会变成当前主编的作用,即使机器的工作能力超强,资源趋近于无穷了,但时间有限,是由于我们的时空定律决定的。时间的稀缺性不会在AI增强的情况下降低。AI能力越强,也就是资本的配置越高,生产工具的生产率水平越高,就会造成资本或AI的机会成本越高。

在机会成本极高的时候,agenda setting会成为更重要的问题。人的作用,在于使用直觉与感情的判断,决定资本应用的方向和时空分布。在时间线上确定不同的资本作用。最大化的配置时间的价值。

机器无法在有限的时间内计算出无限时间内的最优工作次序,而只能趋近。这如同上帝不能造出一块自己举不起的石头一样。人类对美感的追求,对无穷的字词组合中的诗意的感受与即时的抽取回应。正是人类在时空处理上的配置的直觉优势。具备这种优势的人,意识到什么问题重要,能够将不同事物在时空中合理排序,会成为未来最重要的劳动力资源。




2016年6月19日星期日

工企数据的核心问题

工企数据张冠李戴,把分公司,分厂的数据放回总公司,总厂。如果能和组织机构代码的数据完全对照一次就会好很多。但是有点难。

加油


2016年5月17日星期二

高考公平的一点想法


我自己从西部出来,也做过一点这方面的研究。西部的教育资源少,录取机会低一方面是历史欠账,一方面是经济的自然集聚,前面是国家有责任的需要调整的,后面是经济现实,市场规律,政府可以出于社会公平的理念调整,但也要承认保留地方一定的自主性。但总的来说这种本地偏好不应该由国家公币多年投入的资源来实现,而应该在放开高等教育自主权的情况下,由各省自主投入调整。另一方面,西部的面临的高考名额的缺失,既是绝对量的不均衡,更有结构上的不平衡,具体表现在高考毛入学率上,上海本专科升学率100%,西部省份50%甚至70%,表面上看差别不大。但优质的高等教育资源,211(非政策照顾高校),985,特别是C9或者清北复交四大院校的录取率上,省份之间差别仍在5倍到十余倍。 从人才的角度来看,关键考虑现在的成绩表现来源于天赋还是后天,如果西部学生是一等的天赋,但由于三流的环境而错失了一流高校的机会,那对高校也是损失,顶尖院校不单觊觎西部的人才,还觊觎全球的人才。但对于二+三或者三+二,基本就是利益分配的问题。高校并不太在乎。但是人才出现的重要一点是人口基数,不管这个基数是怎么来的,移民也好,超生也好,都一样,特别是天才,和家庭、经济的关系相当有限,经济水平达到基本门槛以后,只有人口大国才容易出不世出的天才,省份也类似。因此高考名额必须按报名人数动态调整,即使弹性可以不为1(事实上也远未接近1)。江苏现在闹的要求高考名额和规划僵化固化,肯定是不行的。从院校来说,你人口下降一半,我要保持招生名额不变,进来的学生水平就降低一半。

另外从人才的角度来看,因为现代教育学快速发展,后天教育能够弥补大量先天天赋的差距,从而导致了家庭经济水平与能力的相关性增加,就如何化妆和整容技术水平的能力使得外貌也同样和经济条件关系越来越相关一样,未来还可能有生物技术进一步拉大家境和区域不同的地区的考生的能力差距。 但从人才利用的角度来看,这种后天的教育够不够,专业岗位是否愿意使用能力表征更好的人,而非天赋更好的人,可能取决于具体工作模式的变化。是把最好的教育资源+匹配最好天赋的人,还是用最好的教育+最好表征的人。求实还是质,这个只是一个理念问题了。

指标不可能公平。就看各个集团的博弈,也看中央有多大的推进公平的决心了。

2016年3月13日星期日

关于Alpha Go Match4的BUG棋——原始数据的相关和因果

今天特别开心李世石终于赢回一局。

然后很多人不能理解阿尔法那种走法。但是我想从训练的原始数据来分析,这一种情况是很有可能的。


核心在于原始数据里没有权重。无论任何一种训练方法,都给定了原始数据一个样本,即是已有分类标签是对的。换句话说,所有在原始样本里面有结果的局,里面的人下的手都是有意义的。

事实上呢?不是的,你取胜有两个原因,一个是你做对了
另一个是你对手做错了。

但是围棋里不同的是,因为你做对而胜的棋谱千千万,因为对手做错(特别是大错)而胜的棋是有限的。

这种是什么样的棋谱呢。举例,一个小朋友,上手拍天元,然后送两手,最后还赢了,可能吗?
可能的话,是因为他有一个更好笑的对手,完全不知道规则吃子,在对手送分的情况下还投子了。

对吗?
对的。
事实上大家都觉得今天黑93手不对,101手傻。
高手不会这样下对吧,所以你们有走过101走的棋谱吗?
没有。
但是这种对局会不会出现呢?有消息说这次来源的棋谱是奕城的。一个新的新手下出这种棋是完全可能的。
因为下这一步棋的人一定不会对上一个真正的高手,所以下一步棋,其实是可能胜率很大的(因为训练集中的棋谱)。
换句话说,在这一瞬间,阿尔法狗的战略是(把你拉到和我一样幼稚的水平,再用我丰富的经验战胜你)。
因为在这一过程中,阿尔法的训练集告诉它,只要我傻气的走一步,对手就会比我更傻,或者是至少这样的对手不能完全执行之前的小李子的战略。

从经验上来说,这是一个个别样本由于稀缺变量的存在性而导致其显示结果有很大变动的问题。
而阿尔法没有想到的是,对手不应。
好处是,他的集里只有这两步是弱手了。所以其后又回复了正常。

因为有些人失误也能赢,故意走错棋也能赢,但是这是相关,不是因果。但这里面的失误是自选择效应还是真实的战略结果GOOGLE不清晰。

是的。这也是相关分析不能代表因果分析的原因。大数据,机器学习就是这样。

其实处理不难,只要在原始数据处理这些稀缺战略,应该就可以了。可以降低权重或者剔除。因为按照贝叶斯的话,这些样本大概是永远不会从数据里删掉的。他们始终可以发挥作用,但是他们一旦发挥作用的话,就是问题所在了。

这点也说明了为什么阿狗遇强则强,遇弱则弱,因为你能够下出的棋,他最熟悉的反馈是和你差不多水平的人的反馈。在非遍历的情况下,原始数据的朴素贝叶斯效应非常严重。



想到这一个算法本身可能就还存在漏洞。还是很开心了。

真心祝贺,今天下午开心。见到了那种好奇心满足而显现出的真正的开心。



2016年3月3日星期四

另一个网址

最近觉得压力比较大,可能又要进行心理咨询了。事实上其实自己就能够说得差不多。所以发到了另外一个blogspot的地方


这边想来也问题不会很大的。就先备份放着吧。

2016年1月30日星期六

关于婚恋市场的问题

最近到师门聚会等等,年关将近,又看豆瓣也在讨论婚恋问题。

其实这里面还是核心问题是信息不对称,然后百合网和世纪佳缘这种本来应该通过消除信息不对称来创造消费者剩余的网站,却可能事实上形成了信息的垄断优势,或者甚至于提供一些顾客希望的虚假信息来获得短期利益。因此重视服务产品,但却轻视信息匹配和核实成了其一个致命的问题。

其实这里面有几个点可以突破,第一个,信息匹配对等,最终还是要实现较大规模的信息公开,透明,包括我们自己在经历都是,可能世界上有对的人,但是找到这个人是很难找的,中间各种链接都不清晰,信息传递不到位。

破解这个模式直接就有的商业模式就是,只建平台,前端收费,而收费不提供任何服务,只提供认证信息的成本,包括认证学历信息(学信网、学位网,这一结果很有可能,因为当前接近婚姻年龄的,主体的学历学位信息都已经上网,而年纪再大一些的钻石王老五们,也必然已经有一个在职的MBA或EMBA学位,其实学历、学籍等等信息,既可以保证一个人的基础真实,也可以作为婚恋匹配知识结构的最基本前提,其实婚恋双方对对方的学历要求是有的,介绍的学历不真实往往也是核心的体验缺失)。其次,是大数据背景下的,个人愿意提供供核查的就职信息,幼儿园到小初高的学历信息,因为同读一个中小学对两人之前的信息背景的匹配也无疑是有助力的。此外,对于高学历人士,发表论文,网络活动报道,都是完全可以提供核实的。而工商登记信息也同样。这对于一个人的社会地位,资产,虽然不能百分百的给予核对,但可以说对这些的核查,能够保证大家有一个基础的了解。

再次,则是个人出行记录,旅行信息,出入境记录,甚至于纳税记录与五险一金和信用记录等等。对于小清新来说,是否"喜欢旅行","游历世界"这些都不应该是描述性的。而应该在于全面的数据支撑的真实的。同时个人的支付宝年账单、基金年账单、淘宝年单等等各种,无不反映一人一时的消费观念,消费层次,甚至于出行所住的宾馆等级,也与其社会资本和个人价值有千丝万缕的关系。

所以在这些上述信息提供之后,收费进行核查公示,给大家明确双方的知识结构、成长环境,游历经历,模糊或者精确的资产水平与消费层次,那匹配的可能性则可能进入大家软性要求。

当然这当中还有相貌,这个大约需要在一定的公信力的前提下,每个人要提交若干照片,包括生活照,艺术照,证件照,身份证照,毕业证照等,重要是要有一个全身照能看出一个人最丑的时候长啥样。则大概问题不大,如愿意提供还可以提供父母的照片说明家庭基因。当然附基金测序结果大概也问题不大。

正是这种看似刺骨的无视隐私,而又在双方完全免进一步费用,只有核查认证过程的平台,就可以实现相关的市场的信息调节创造价值了。对于隐私的尊重,在于对每个人的详细信息都按双方社交互动的意愿提供,在基础上只提供基本的标签,如211,游历欧洲,游历美洲,全国达人等等,感兴趣后,选择回复提供几层的信息,包括托福 GRE 雅思 SAT一切成绩等等。信息分层,但是公开的主动权完全在用户手上。简单说你相亲对象不愿意告诉你他读过什么专业的话,这事也没必要进行下去了不是。当然感兴趣的时候就可能需要提供一些比公开信息更进一步的隐私信息了。

对这里面还要设置一个条件,因为基础上在婚恋市场的原则是赢家通吃,也是一个明星效应,大家感兴趣的一定是条件最好的,但是条件最好的人的缺点一定要突出出来,大家才会慢慢降低要求去找和自己匹配的。这就是要提供一个人拒绝各种互动层次的次数,包括感兴趣不回复,见面后无下文的次数,让大家明确这个人虽然条件很好,但是人家拒绝过千百个人,也就避免了无用的追逐。同时虽然不能像淘宝一样完全开放评价,但是可以提供与该用户见过面的其他用户的联系按钮,让用户可以问旧人的评价(当然这个要减少对前面用户的打扰程度,要容易忽略或拒绝,但也可以有Two and a half men里面对查理的评价的威慑力,这也会要求用户认真对待每一次相亲,买卖不成仁义在)。

所有这些的前提在于,现代社会其实可以通过多种手段构建出一个人的全貌了,包括接触到相亲对象的时候,介绍人的千万说法大概都不够去看一次他的微博,校内等等了解得深。当然能够得到公开信息核实的人群可能不多,包括拿到本科学位的大概只占全国婚恋人数的一半不到吧。但是这一细分市场应该是最好的市场,可以让土豪二代们拿着工商登记证进来。如此即可。

版权所有,勿转。


2016年1月18日星期一

人类种族的自由性

今天读了桑德尔的《反对完美》,里面讨论的恰是我也之前在考虑的问题,就是人类基因工程学的发展带来的人类间的不平等和这种选择的相对基础.

在这方向,连我自己也是矛盾的,一方面我们希望从人类的各方面来看,我们社会平均都越来越好,我们希望自己健康、强壮,美好,但是从种族来看,对于从社会统一的单方面需求,我们是有深深的恐惧的,特别是这种追求和社会资本,权力以及金钱等相关。钱能够换来基因方面的(绝对)优势的时候,有钱人与普通人之间就会产生种族隔离的可能性,尽管现在钱已经能换来基因的很大优势,比如在择偶时更高,更白,精神状态更稳定,以及更多的基因留传下去的可能性,但是这当中不可否认的是当前的智力、冒险精神等等还有待于社会总体的偶尔性。因而这种结果造成了尽管强调门当户对,社会阶层之间还是有广泛的通过婚姻和孕育后代的过程实现阶层交融。但是一旦当相关基因工程实现,包括上层有钱阶级基因自复制和完善,同时优质基因与资源分配互为因果,则资源的不公会带来种族的分裂,这种分裂不仅仅可能是文化意义和社会意义上的分层或分裂,可最终的可能是生殖的主动隔离,最终形成种群差异。

但是从另一个意义上来看,这种种群差异是不好的吗?从社会整体来看人类平均身高一直在增加,人均寿命在延长,人均的脂肪比,智商,情商,或者皮肤的光滑程度,在一定意义上都是与我们的祖先有着显著的不同的。如果基因工程只是加速并改善了这一进程有什么问题呢?这里面存在两个可能的问题,其一是不可知论的解释,其二是群体心态的改变。不可知论会回到进化论的原始,即适者生存并不是强者生存,种族基因的多样性与个体的丰富性是对抗外在冲击的最有效的防御,我们大量的特征并不利于我们的生存,包括心理上和生理上的和主流偏好的对比,我们有各种内向,羞涩等等表征,有身高,体重,力量的种种弱势。但是我们并不能完全知道这些表征中内在的价值,包括可能某些神经质的内向敏感,自闭孤独,可能意味着创造力的增长和艺术感知力的增长,又或者某些笛奢弱小的基因,带来一个人的敏感羞涩的同时,给予一个人在判断过程中更加保守和稳健的特质。万物有正负,当一个社会和种族的多样性降低,大家渐渐统一到同一种类型的时候,固然可能会在审美和偏好上更加偏向自己表征的群体,但也可能最终会在外部环境变化的时候遭受更大的牺牲。其二,则是社会心态的变化,当一个社会都是健美,自信,如书中所说的特定发色,带酒窝,高大聪颖的人的时候,最大的可能性是社会过度自信,从而视各种资源获得为理所当然,就如当前所说社会上层其实并不能完整理解下层的生存逻辑,一方面也是由于大家的资源差异太大。但从社会心态来看,一个富裕充足的社会,过度自信的结果往往会是过度扩张,一个强壮,良好,自信并分化而不能包容的种族,在面临外部更强大的文明的时候则往往受到的心理冲击过大而难于恢复。

在这一意义上来说,基因工程的广泛运用和优生的过度粗细化,同质化,在满足特定人群的意愿的时候,会增加社会的风险。

2016年1月13日星期三

要为爷爷,外公外婆立传,至少要放在网上

从纪念长辈的角度,也许最大的希望就是能够让其作为一个平凡人也能够在知识的长河中不消逝。当然现代网络发达,能写字的多,想要达到如哈佛的数据纳入的程度怕是不容易。希望能够先写完,然后再发tweeter,不为师长亲讳隐。

则大概可行也。