math

2013年9月11日星期三

继续昨天中文企业名的匹配思路

现在两个要匹配,除了已经匹配上的之外,python实现的基本流程。
1、分别读入左边和右边要匹配的字符。
2、左右大分词,比较所有分词元素出现的次数。
3、将左右逐行分成元素,对每个元素进行分词。
4、逐一比较每个元素中在总内容出现最少的词或第二少的词。这可能就企业名中最核心的名字。
5、将左右两边按这一关键词进行分类加总,得到每个名字下面的元素
6、将两个元素逐一比较。若其中子元素部分只有一个子元素不对应,就视为是已经模糊匹配。

本方法与之前K次变换得到相同字符串的模糊匹配方法在于,中文里 京东 东京 兴康,康兴这些完全是不同的意思,不能简单匹配。但是北京市兴康药业有限公司 和北京兴康药业公司 虽然差别很大。但还是可以看出是同一家公司。所以需要先进行一定的元素处理,对不同的子字符串赋予不同的匹配权重。得到的结果会更为合理。

没有评论:

发表评论