math

2012年5月6日星期日

研究杂感

最近数据库快搭建起来了,前期工作比较繁顼,希望后来会有一些方便快捷的东西。

关于数据存储:
这两天在下WDI,发现WDI整个非常的小,每个国家都是寥寥几百K就结束了,与平常习惯用的动辄几百M的数据形成了非常强烈的对比,再细看的话发现是因为WDI的数据都是用二维表示的,横置了变量名,并把时间也放进了变量名中。从而实现了较少的重复字符串变量的保存,而重点是在时间序列的具体的值上上。进一步思考就知道,双精度的浮点数据也不过是8个字节保存,但是一个字符就需要2个字节,一个三个字符的国家代码就已经是很长的一个存储值,而平素的序列名等再加标签远超三个,可见保存不易。若要有效的存储的话,应该还是需要通过指定而非存储,把数据在多维空间中进行保存,指定程序到特定的低维空间中去找数据,而非对每一个数据保存其所在的空间位置。 这一问题就是寻路速度与直读速度之间的区别。一是硬盘大小,一是读取速度,也是有待权衡。

关于数据查找:
这些天也在写了脚本在采集一些数据,刚开始颇有雄心壮志打算或者是RCURL或者是PYTHON,然后做不出来狗急跳墙用个按键精灵来拟人操作。两台电脑虚拟了六台XP来跑精灵也是笑柄。然而最终回忆起VB的写法,写半个下午跑了两天,十余个并发线程也还是较虚拟机省资源多了。数据已经下到百分之三四,若无意外可在一周内下完。想来数据的问题最主要还是一个信念,"数据有没有,存不存在"。有时大家说数据不能分享,但是虽不分享只要公布自己有什么数据,则别人知道这数据存在于这世界上,便有了可努力的方向,正如数学定理,若不知是可证或是不可证的时候,对于大家都是难的,若是说必可证,而只是方式未知。则又是大为不同的局面,数据方面还是要特别感谢导师的,若没有她一句话问能不能找到,大约两年时间也是一事无成吧。

关于软件:
回忆自己的经历,高中理科,大学文科,到了硕士生又转成了伪理科生做着码农的活,生活中也真是不可知的东西太多,回忆10年入学时,虽然写着自己会各种软件,然而终究是虚空之物多,宿舍兄弟介绍R、LATEX、UBUNTU的时候自己丝毫不为所动,而最终自己却也不断地往这方面靠拢。虽然和真正计算机出身的完全不可比,但却也算基本能用特别幼稚的程序减轻自己的机械劳动了。应该还是比10年的自己强了吧。强一点也是好的。

关于想法:
导师一直强调数据不是问题,关键是思想,是假说,技术上的问题总是容易克服的,只是花时间的问题。但是有些不从技术层面领悟的东西是不好弄的。自己这两年时间花的不够。还是要尽快写东西尽快出东西。加油。