机器认知的核心能力之一:自然语言理解。机器理解自然语言需要类似知识图谱这样的背景知识。自然语言是异常复杂的:自然语言有歧义性、多样性,语义理解有模糊性且依赖上下文。机器理解自然语言困难的根本原因在于,人类语言理解是建立在人类的认知能力基础之上的,人类的认知体验所形成的背景知识是支撑人类语言理解的根本支柱。人类彼此之间的语言理解就好比是根据冰山上浮出水面的一角来揣测冰山下的部分。人们之所以能够很自然地理解彼此的语言,是因为彼此共享类似的生活体验、类似的教育背景,从而有着类似的背景知识。冰山下庞大的背景知识使得我们可以彼此理解水面上有限的几个字符。举个参加国际会议的例子,经常遇到一个尴尬的局面,就是西方学者说的笑话,东方人很难产生共鸣。因为背景知识库不同,东方人早餐吃烧饼、油条,西方吃咖啡、面包,不同的背景知识决定了我们对幽默有着不同的理解。所以语言理解需要背景知识,没有强大的背景知识支撑,是不可能理解语言的。要让机器理解人类的语言,机器必需共享与人类类似的背景知识。
实现机器自然语言理解所需要的背景知识是有着苛刻的条件的:规模足够大、语义关系足够丰富、结构足够友好、质量足够精良。以这四个条件去看知识表示就会发现,只有知识图谱是满足所有这些条件的:知识图谱规模巨大,动辄包含数十亿实体;关系多样,比如在线百科图谱DBpedia包含数千种常见语义关系;结构友好,通常表达为RDF三元组,这是一种对于机器而言能够有效处理的结构;质量也很精良,因为知识图谱可以充分利用大数据的多源特性进行交叉验证,也可利用众包保证知识库质量。所以知识图谱成为了让机器理解自然语言所需的背景知识的不二选择。
大会中文网站:2018.n*** ✚ 大会英文网站:www.h***