知依舍: 文本提取

2014年2月24日星期一

文本提取

最近自己把闲的时间都放在处理判决书文本了，想看从中能提取什么信息。第一想法是想从中提取一些结构化的信息可以进行量化分析，之前做的工作对这个有一些帮助，当时主要是人工判断再加上正则提取得到的，现在学了一些自然语言处理的分词词频之类的内容反而觉得混乱了。很多词不知道有什么用，也不知道从词频当中如何分别一些内容。又想起了过去做过的一些项目，包括先识别词，再识别词在不同文章当中的出现频率，看哪些词之间是相关的。从词频大概能推断一个判决的结果么，一个民事案件如果说了大量"不予采信"，"驳回"之类的词，那这个案件很可能就已经输掉了。而一些正成的词汇，如赔偿，停止，这些则往往意味着当事人赢了。但是这些都是不准确的。相对来说可能直接提取结构化信息还是更有希望的事情。

知依舍

math

2014年2月24日星期一

文本提取

没有评论:

发表评论

关注者

博客归档

我的简介