博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
<知识库的构建> 2-3 消歧 Disambiguaion
阅读量:5988 次
发布时间:2019-06-20

本文共 817 字,大约阅读时间需要 2 分钟。

引自Fabian Suchanek的讲义。

 

总结:主要讲了消歧的2种方式,即停止词,上下文,大语料库和小语料库消歧的方式是不同的,文章中的实体要注意协调一致标准。

 

消歧Disambiguation:找到有二义性的单词的含义来消除歧异

 

停止词Stop word:语料库中经常出现但没有搜索价值的词

       大部分词都是停止词,除了:名词,形容词,非辅助动词

消除停止词的理由:当给出一个问题,我们根据在文章中找到问题中相同的词的个数来决定谁是答案,若有停止词,很有可能因为某篇文章停止词过多而和问题有很多重叠单词而被选为答案,所以删掉停止词是必要的。

小练习:删掉下列句子中的停止词

Don’t come here!                       come

Homer was hit by Marge.             Homer hit Marge

Homer ate a few doughnuts.       Homer ate doughnuts

 

单词的上下文Context of words:在该单词附近不是停止词的多组单词

实体的上下文Context of entities:该实体周围的实体的labels

基于上下文的消歧Context-based disambiguation:把语料库里的一个名字映射到KB中找到对应的实体entities,这些实体的上下文与原文重叠最多的即为该文章的标签

 

上面消歧的方式是针对于大一点的语料库,若语料库过小,不易找到对应实体的上下文与语料库重叠的次数,此时我们用另外一种消歧的方式:优先消歧

优先消歧Prior Disambiguation:看问题中单词与语料库中单词重叠的单词,看该单词能在维基百科上找到多少篇相关的文章,进行加权,谁得多谁就是答案

 

一致性标准Coherence Criterion:在文章中提到的实体要在KB中是相关的

转载于:https://www.cnblogs.com/mengzizhao/p/8378720.html

你可能感兴趣的文章
《Java 多线程编程核心技术》- 笔记
查看>>
劣质代码评析——《写给大家看的C语言书(第2版)》附录B之21点程序(六)...
查看>>
ashx的学习
查看>>
Installing ODIConsole application using weblogic server
查看>>
hp警告Creating default object from empty value 问题的解决方法
查看>>
C#游戏开发中快速的游戏循环
查看>>
如何高效快捷检索得到核心文献?
查看>>
使用MVC写模式jsp连接到数据库操作
查看>>
模拟电路创新设计
查看>>
win10安装blueCFD
查看>>
C# 计算两个字符串的相似度
查看>>
linux 遇见错误Could not get lock /var/lib/dpkg/lock
查看>>
MySQLdump常用命令
查看>>
如何才能正确的关闭Socket连接
查看>>
MongoDB基本操作
查看>>
[转]微擎(微赞)学习之 -- 模块开发:目录结构
查看>>
css 手机适配
查看>>
5个界面效果很炫的JavaScript UI框架
查看>>
根据标准word模板生成word文档类库(开源)
查看>>
Html网页表格结构化标记的应用
查看>>