最近自己把闲的时间都放在处理判决书文本了,想看从中能提取什么信息。第一想法是想从中提取一些结构化的信息可以进行量化分析,之前做的工作对这个有一些帮助,当时主要是人工判断再加上正则提取得到的,现在学了一些自然语言处理的分词词频之类的内容反而觉得混乱了。很多词不知道有什么用,也不知道从词频当中如何分别一些内容。又想起了过去做过的一些项目,包括先识别词,再识别词在不同文章当中的出现频率,看哪些词之间是相关的。从词频大概能推断一个判决的结果么,一个民事案件如果说了大量"不予采信","驳回"之类的词,那这个案件很可能就已经输掉了。而一些正成的词汇,如赔偿,停止,这些则往往意味着当事人赢了。但是这些都是不准确的。相对来说可能直接提取结构化信息还是更有希望的事情。
没有评论:
发表评论