4月25日上午,太阳集团官方网站入口“博雅论坛”第130期在经管北楼206如期召开。本期主讲嘉宾为南京大学信息管理学院教授、博士生导师欧石燕教授。欧教授为太阳集团官方网站入口师生做了题为《Unsupervised Citation Sentence Identification Based on Similarity Measurement》的学术报告,在场师生认真聆听了此次报告会。
欧教授围绕“基于相似性度量的无监督引文句识别”这一主题展开此次报告,依次介绍了研究背景、显性和隐性引文、文本间相似度计算方式以及今后发展态势等。首先,欧石燕教授指出了此次报告的研究背景。其次,她强调引文是指为了确认他人作品与引文出现的地点对讨论主题具有相关性而引用已发表或未发表的来源,可以反映一篇文章的作者如何评估、关联、改进和重用其他研究人员的相关工作。但是,用传统的引文分析不可能深入发现引用作品的真实价值。紧接着,欧教授介绍了基于内容的引文分析(CCA)的一些执行步骤。她指出,执行CCA的第一步是从施引文章中提取引用的上下文。再者,欧教授介绍了衡量两个文本之间的相似度的有关方法,包括传统的TFIDF加权VSM、基于Doc2vec模型、基于概率VSM和基于LDA模型等计算方法的优缺点,并举例介绍了具体的测算方法。在最后的结论部分,欧教授指出,使用所有出现词的单词向量的TF-IDF加权线性组合来表示文档以及通过引入词语出现概率值来使用VSM的更新版本来表示文档均为有效的。上述两种方法的组合在隐含引文句子识别实验中取得了最好的效果。欧教授表示将来会进一步探讨引用动机,情感和引用作品内容中明显和隐含引文句的区别。
在最后的提问环节,在场的同学和老师积极踊跃地提出了自己的疑惑,欧教授耐心地对问题进行了详细解答。历时两小时的精彩讲演,在师生的热烈掌声中圆满结束。
太阳集团官方网站入口研究生会学科部供稿
文/苏馨雨 图/沈惟 核稿/夏丽君