文章摘要
CauseNet致力于构建一个包含所有人类因果知识的知识库,旨在区分真实的因果知识与单纯的因果信念,以推动大规模因果推理研究。通过从半结构化和非结构化网络资源中提取,CauseNet收集了超过1100万条因果关系,构建了首个大规模开放领域的因果图,并展示了其在基础因果问答中的优势。未来可应用于因果推理、计算论证和多跳问答等领域。
文章总结
CauseNet:构建全球因果知识库
CauseNet致力于创建一个包含全人类因果知识的数据库,并将其与单纯的因果信念区分开来,旨在推动大规模因果推理研究。因果知识被视为推动人工智能发展的关键要素之一。然而,由于验证工作复杂,目前很少有知识库包含因果知识。尽管如此,CauseNet通过从各种半结构化和非结构化的网络资源中提取数据,收集了超过1100万条因果关系,估计提取精度为83%,并构建了首个大规模、开放领域的因果图。
数据下载 CauseNet提供了三个版本的因果图: 1. CauseNet-Full:完整数据集,包含11,609,890条关系和12,186,195个概念,文件大小为1.8GB。 2. CauseNet-Precision:高精度子集,包含199,806条关系和80,223个概念,文件大小为135MB。 3. CauseNet-Sample:小型样本数据集,包含264条关系和524个概念,文件大小为54KB,适合初步探索和实验。
数据模型
CauseNet的核心是因果概念及其之间的因果关系。每条因果关系都包含详细的来源数据,说明其提取的位置和方式。例如,因果关系可以表示为:
json
{
"causal_relation": {
"cause": { "concept": "disease" },
"effect": { "concept": "death" }
}
}
数据来源 CauseNet从多种来源提取数据,包括: - ClueWeb12句子:提供页面ID、页面引用和访问时间戳。 - 维基百科句子:提供页面ID、标题、修订ID和时间戳,以及句子所在的章节信息。 - 维基百科列表:提供列表所在的章节标题和嵌套级别。 - 维基百科信息框:提供信息框模板、标题和参数。
加载到Neo4j CauseNet提供了将数据加载到图数据库Neo4j的示例代码,方便用户进行进一步分析和可视化。
概念识别数据集 为了构建CauseNet,使用了因果概念识别器,确保因果概念(如“全球变暖”或“缺乏运动”)在句子中的准确识别。训练和评估数据分为80%训练集、10%开发集和10%测试集。
相关论文 CauseNet是CIKM 2020论文《CauseNet: Towards a Causality Graph Extracted from the Web》的基础,论文详细介绍了其构建方法和应用前景。
许可 代码采用MIT许可证,数据采用Creative Commons Attribution 4.0国际许可证。
联系方式 如有问题或反馈,请联系: - Stefan Heindorf(帕德博恩大学) - Yan Scholten(慕尼黑工业大学) - Henning Wachsmuth(帕德博恩大学) - Axel-Cyrille Ngonga Ngomo(帕德博恩大学) - Martin Potthast(莱比锡大学)
评论总结
评论内容主要围绕一个因果知识库项目展开,观点多样,既有支持也有批评。以下是总结:
支持观点: 1. 技术潜力:部分评论者认为该项目具有创新性和潜力,尤其是在语义网和开放数据链接方面。 - "It's nice to see more semantic web experiments... This is such a cool schemaless approach and has so much potential for open data linking, classical reasoning, LLM reasoning." (maweki) - "this will be super cool if it can be done!" (daloodewi)
- 应用前景:一些评论者期待该项目能在实际应用中发挥作用,并希望看到更多用例。
- "The tech looks cool and I'm excited to see how I might be able to work it into my stuff and/or contribute." (bbor)
- "A cool idea, in desperate need of an example use case." (athrowaway3z)
批评观点: 1. 因果关系的复杂性:许多评论者指出,因果关系难以量化,且存在多样性和不确定性,项目可能无法准确捕捉这些复杂性。 - "Alcohol causes anxiety. At the same time it causes relaxation... Codifying causality will involve a certain amount of bias and belief." (koliber) - "Causality is literally impossible to deduce..." (bbstats)
数据过滤和偏见:评论者担心项目可能无法有效过滤错误的因果信念,导致偏见和错误信息的传播。
- "this example in their sample is really quite awful if the idea is to give AI better epistemics... seems like some stronger filtering of which beliefs to adopt ought to be exercised." (thicknavyrain)
- "Unfortunately, frequency is the primary way AI works, but it will never be accurate for causality..." (ivape)
技术局限性:一些评论者认为,现有的本体论和图形数据库技术过于脆弱,难以应对复杂的因果关系。
- "Ontologies and all that have been tried and have always been found to be too brittle." (tgv)
- "the graph databases are just not that fast and also not fun to program." (maweki)
其他观点: 1. 历史类比:部分评论者将该项目与历史上的Cyc项目类比,认为其可能面临类似的挑战。 - "Isn't this like Cyc?" (rwmj) - "the cyc of this current ai winter" (huragok)
- 不确定性处理:有评论者建议引入不确定性概念,以更好地处理因果关系的复杂性。
- "I think that a causality graph like this necessarily needs a concept of uncertainty to preserve nuance." (TofuLover)
总结:该项目在技术上具有潜力,但在处理因果关系的复杂性、数据过滤和偏见等方面面临挑战。评论者对其未来应用持谨慎乐观态度,并建议引入更多技术手段来应对这些挑战。