这个问题想了很久都没有很好的办法。但现实当中,人眼是能看出两个字符串的同义的。
我的数据量也不够大。现在怎么办呢?还是中文字符。
我的思考是,我们要匹配的一般是企业名字。这些内容里面有很多东西都是不重要的。比如说企业的所在地,有限公司等字词。
如"苏州XX造纸有限公司"和苏州XX造纸用品有限公司。这两个公司几乎可以确定就是同一家公司。但是用字符串完全匹配是不可能的。
那么我们需要做的是,是利用分词,把两个原字符分成若个元素。其中XX是最重要的,也就是名称元素,结尾是公司元素。其他的符号则是不重要的。
如果两个名字的所有元素都分别对应,同时所在地一致,那可以认为这是同样的公司。
如果两个名字的名字元素对应,但有一项其他元素不对应,也可以认为这是同样的公司。
剩下的写code的干活。
没有评论:
发表评论