知依舍: 继续昨天中文企业名的匹配思路

2013年9月11日星期三

继续昨天中文企业名的匹配思路

现在两个要匹配，除了已经匹配上的之外，python实现的基本流程。

1、分别读入左边和右边要匹配的字符。

2、左右大分词，比较所有分词元素出现的次数。

3、将左右逐行分成元素，对每个元素进行分词。

4、逐一比较每个元素中在总内容出现最少的词或第二少的词。这可能就企业名中最核心的名字。

5、将左右两边按这一关键词进行分类加总，得到每个名字下面的元素

6、将两个元素逐一比较。若其中子元素部分只有一个子元素不对应，就视为是已经模糊匹配。

本方法与之前K次变换得到相同字符串的模糊匹配方法在于，中文里京东东京兴康，康兴这些完全是不同的意思，不能简单匹配。但是北京市兴康药业有限公司和北京兴康药业公司虽然差别很大。但还是可以看出是同一家公司。所以需要先进行一定的元素处理，对不同的子字符串赋予不同的匹配权重。得到的结果会更为合理。

没有评论:

发表评论

订阅：博文评论 (Atom)