摘要:在分析国内外已有的非相关文献知识发现用数据集的基础上,研究构建用于非相关文献知识发现的农业经济领域数据集的可行性。运用软件技术辅之于少量人工干预的方法,构建出完整的农业经济学领域非相关文献知识发现用数据集,包括汉语文献题录库和完整的词表体系。通过实证研究,发现3条农业经济领域的新知识,验证了该数据集的正确性和可用性。 关键词:知识发现;非相关文献;汉语文献;农业经济;数据集 1、非相关文献知识发现 知识发现技术产生于人们“被数据淹没,却饥渴于知识”的尴尬现状,并伴随着这种现象日渐严峻而得以蓬勃发展。知识发现技术中基于文献的知识发现也于上世纪八十年代得以诞生。 1986年,Swanson提出了非相关文献知识发现的思想,并以充分的文献证据论证了基于非相关文献知识发现思想的可行性与正确性。Swanson的思想在学术界产生了广泛的影响,各个领域的研究人员包括Swanson本人在以后的二十多年中对非相关文献知识发现的理论基础、算法模型及具体应用进行了持续、深入地研究。但在汉语社会科学文献中,至今还没有非相关文献知识发现的成功实践。 Swanson的理论可以归纳为:设有概念A、B和C,若文献组S1报道了A和B之间有意义的关联,文献组S2报道了B和C之间的关联,但已知文献中没有任何文献报道A和C之间的关联,则S1和S2被称为“互补”文献,并称A与C通过B存在关联。A与C的关联只有把S1和S2放到一起考查才能得出,而单独考查S1和S2则得不到这种关联。A和C之间的关联为新知识的发现提供了线索。 2、国内外非相关文献知识发现用数据集的建设 所谓非相关文献知识发现用数据集,即非相关文献知识发现过程用到的数据对象,包括文献库和词表。文献库即用于非相关文献知识发现的文献集合,根据知识发现对象不同包括文献的题名、摘要、全文和引文。词表即知识发现过程中用到的各种词表,包括停用词词表、通用词表、专业词表和同义词表等。 非相关文献知识发现的思想最初产生于医学、生物学领域,直到现今绝大多数研究者也仍以医学、生物学领域作为非相关文献知识发现算法的文献源。在医学、生物学领域,以Medline为代表的文献数据库标引质量很高,为开展非相关文献知识发现工作提供了极大的便利。因此,国外医学、生物学领域的非相关文献知识发现,都直接以Medline数据库为文献集合,采用MeSH词表,部分算法用到了UMLS,个别用到了OMIM、HGNO、LocusLink等数据库中的词汇。 可以看出,所有算法的文献集合都采用Medline,大部分算法以Medline数据库记录中的题名为分析对象,部分算法分析对象扩展到摘要,词表中应用得最广的是MeSH,其次是UMLS。 北京大学计算语言学研究所的刘耀、段慧明、穗志方成功构建了中医药领域的非相关文献知识发现用数据集,包括中医药文献标注语料库、切分词典、中医药语义词典。这是国内在非相关文献用数据集建设方面最初的也是仅有的尝试。 3、农业经济领域非相关文献知识发现 用数据集建设的可行性虽然汉语科技文献只占了世界科技文献总量的很小一部分,但在某些特殊学科与领域汉语文献在国际上具有不可替代的独特优势,非常适合开展非相关文献知识发现工作,如中医中药和人文社会科学。农业经济学就属于这样的学科。 中国以不足全球10%的耕地养活了全球近1/4的人口,农业经济学方面的研究功不可没。在一定意义上,汉语农业经济文献在世界各语种的农业经济学文献中具有先进性。此外,农业经济学常常要将某种理论、模型、方法应用于某一具体区域、产业、案例,这样就与非相关文献的A词集合与C词集合的要求完全一致了。即农业经济中存在大量的A词集合与大量的C词集合,且A词与C词的关联丰富多样。因此,汉语农业经济学文献完全适合应用Swanson的非相关文献发现思想发现新知识。 中国期刊网、维普、万方三大国内期刊论文数据库,基本上收录了改革开放以来国内农业经济学术期刊的全部论文,符合非相关文献知识发现方法对文献源的要求。在词表方面,国内的大型综合性词表《汉语主题词表》、《中国分类主题词表》、《社会科黄水清等:农业经济领域非相关文献知识发现用数据集的构建193学检索词表》和农业部情报所编制的《农业科学叙词表》中都收有农业经济学词汇。农业经济期刊论文的作者关键词也是很好的词汇来源。 综上所述,建设用于农业经济领域非相关文献知识发现的数据集,具有可行性。 4、农业经济学领域非相关文献知识发现用汉语文献库的构建 4.1文献源的选择 到目前为止,以Medline为代表的已成功应用于非相关文献知识发现的数据库收录的文献类型都是期刊论文(或含部分会议论文)。因此,农业经济领域用于非相关文献知识发现的文献集合也宜以期刊论文为收录对象。 国内的重庆维普资讯、北京万方和中国期刊网三大检索科技期刊数据库各有优劣。通过对比三者在收录量、数据质量以及报道时差等方面的优缺点,综合各项因素,农业经济领域用于非相关文献知识发现的文献数据库选定从维普数据库下载题录数据。 为加大知识发现的范围,用于农业经济学领域非相关文献知识发现的汉语文献集合拟以题名加文摘为收录对象。为此,须从维普数据库中下载所有分类号标识为农业经济(即《中国图书馆图书分类法》的类号为F3)及下位类、发表在核心期刊(既可以是农业经济核心期刊,也可以是其他学科的核心期刊)上的论文的题录。 4.2下载程序的设计 维普数据库收录的数据从1989年开始。若以2008年底为界,20年间,维普数据库收录分类号标识为F3(即农业经济学)的核心期刊论文共有87000多篇。为此,作者用JAVA自行开发了模拟浏览器的维普题录下载程序客户端。首先通过开源的工具分析获得在手工下载过程中产生的HTTP/HTTPS头信息、cookies以及通过GET和POST提交的数据,然后设计程序模拟了浏览器的下载过程,实现了维普题录信息快速高效的获取。具体设计过程不再赘述。 |