百人牛牛 先生。王斌现代信息检索2012年秋季期末考试问题_Internet_IT /计算机_专业信息

日期:2021-02-27 14:14:32 浏览量: 104

中国科学院研究生院考试专用试卷课程编号:71258-Z-2课程名称:现代信息检索讲师:王斌—————————————————————————————————————————————————————— ———————————————————————————————————————————————————— ———————————————————————————————————————————————————— ———————————————————————————————————————————————————— ———————————————————————————————————————————————————— ———————————— 30分))0)1 1、创建反向索引时,只能将文件用作索引单位。 (2、术语集和术语集有时可能完全不同,甚至交集也是一个空集。(3、圆索引和k-gram索引都可以支持通配符查询的处理。(4、倒序索引的构造与硬件环境密切相关(5、γ的编码序列是唯一的,但解码序列不是唯一的。()0)1)1 6、在向量空间的计算中模型,余弦相似度和欧几里得距离的相似度是相同的,也就是说,如果两个向量的余弦相似度大,则欧几里得距离必须小,当余弦相似度小时ag真人 ,欧几里得距离就大。(7、信息检索系统Structure中只有一个索引。()0)0)0 8、在隐式相关性反馈中分析用户的行为,因此肯定会提高检索效果。(9、在BM25检索模型中,考虑文档长度以实现检索()11 0、基于多项式模型和伯努利模型,在朴素贝叶斯分类器的实现中使用了完全相同的假设。

(1 1、特征选择函数MI(Expected Mutual Information)考虑了缺少词法项对分类的影响。(1 2、 SVM分类的速度与支持数量无关()0 1)1) 01 3、 K-means聚类算法的结果取决于初始种子质心的选择。(1 4、 GAAC分层聚类算法的结果是确定性的。( )11 5、隐式语义索引LSI本质上将原始向量空间线性转换为另一个高维向量空间。()0 二、多项选择题(单项或多项选择。每个问题2点,共16点) )12)。B)压缩可以提高从硬盘到内存的传输速度。 D)可变字节编码压缩是一种有损压缩方法。 1、关于倒排索引的压缩王斌 现代信息检索,以下陈述是正确的(A)压缩可以提高空间利用率C)字典压缩效果不大2.关于向量空间模型,以下陈述是正确的(12 4) 。 A)查询和文档被视为向量。 C)查询和文档表示为不同空间中的向量。 B)有很多方法可以计算重量。 D)有很多计算相似度的方法。共5页第1页3.关于隐式相关反馈,以下描述中的错误是(2)。A)反馈实际上涉及用户C)反馈是部分方法B)反馈后的检索效果肯定改进D)反馈效果通常低于相关的用户反馈4。关于伪相关反馈,以下描述中的错误是(12 A)反馈实际上涉及用户C)反馈是部分方法)。

B)反馈后的搜索效果肯定会得到改善。 D)反馈效果通常会低于相关的用户反馈5。关于kNN分类器,以下陈述中的错误是(A)分类器几乎不需要训练C)分类器是非线性分类器2)。 B)该分类器的分类速度非常快。 D)该分类器通常具有良好的分类效果。关于Rocchio分类器,以下描述中的错误是(1 2)。A)不需要训练分类器。 C)分类器训练非常快。 B)分类器通常具有良好的分类效果。 D)分类器具有非常快的分类速度。快速7.关于K-means聚类算法,以下描述中的错误是(24 A)聚类算法需要预先指定聚类数。 C)聚类算法的时间复杂度是线性的。 B)聚类算法是确定性算法。 D)聚类算法可以获得全局最优结果。关于HAC聚类算法,以下陈述是错误的(134)。 A)HAC必须指定群集数。 C)HAC要求文档必须以向量表示。 B)HAC算法是确定性算法。 D)HAC的相似性只能通过向量内积三、计算问题(每个问题6个)(总计30点)来计算1、面对两个正确的答案集Rq1 = {d1,d2,d3,d4,d5 }和Rq2 = {d6,d7,d8,d9,d10}查询q 1、 q2,由某个搜索系统A返回的搜索结果如表1所示。

尝试为每个查询计算系统的P,Rpg电子 ,F华体会登录 ,P @ 1 0、 AP和其他指标,并计算整个系统的MAP指标。请写下计算过程,并将最终结果填写在表2中(保留小数点后2位)。 AP计算使用非插值方法。表1检索结果表系统-查询返回的结果数,正确答案在返回结果中的位置A-q1 A-q220 202-d2; 4-d4; 5-d1; 10-d5 1-d6,4-d7; 10-d8; 12-d9共5页第2页表2结果汇总表系统和查询A-q1 A-q2P 0. 2 0. 2R 0. 8 0. 8F 0. 32 0. 32P @ 10 0. 4 0. 3AP 0. 4 0. 427MAP 0. 413 2、对于以下分别使用VB编码和γ编码的间隔编码结果(第一个是原始值,下面是间隔值),请恢复原始的间隔顺序和倒排记录表。 (1) VB代码:01 01(2)γ代码:1110110(1) 01000 2872 21 738997 2872 2893 74101(2) 1110110 101 5 1010111 87 5 92 291 295 3、对于以下轴点华体会体育 ,请使用单连接,完全连接和质心方法HAC对这些点进行聚类,并输出聚类的树状图。

167单连接,完全连接和质心方法HAC最相似的成员和最不相似的成员平均相似度4、假定五个网页A,B,C,D和E构成以下链接关系,请尝试以下操作公式(u是指当前页面,Bu是链接到u的所有页面的集合,Nv是页面v中的链接总数,R(u)和R(v)是u和v分别为方便计算,假设c = 1)计算每个网页的归一化PageRank值,即五个网页的PageRank之和为1。AEBDCA B 6/41 C 12/41 D9 / 41 E8 / 41 5、假设图中有一个三角形的和有两种类型的圆形数据王斌 现代信息检索,下图显示了由某个分类器对某个测试数据集获得的分类结果(分类器在左侧图片为三角形,右侧图片中的数据为圆形),分别为c计算三角形和圆形这两个类别中分类器的正确率,召回率和F值,并计算所有类别中分类器的宏观平均F值,微观平均F值和准确率(准确性)。三角形和圆形四、单词问题(每个问题8个问题,总共24个问题)1、基于Web的新闻内容提取是指从新闻网页中提取新闻标题和文本的过程(如下图所示)展示),尝试应用在本课程中学习到的文本聚类技术来实现上述过程,并给出详细的想法步骤(从内容提取到文本聚类问题的映射,文本表示方法华体会 ,相似度计算方法,聚类算法等) 。然后进行处理(提示:请尽可能详细)。

2、汉语分词是将输入的中文句子分为单词(例如“我是汉语?我是汉语”)的过程,无需预定义词典即可完成汉语分词。尝试将本课程中学到的文本分类技术应用于没有字典的分词过程,并给出详细的思路(内容提取到文本分类问题的映射,文本表示方法,特征选择和分类算法等) 。)和过程(提示:尽可能详细)。 3、从发布内容和遵循关系(结构)的角度,设计一种算法来计算微博用户之间的相似度(提示:尝试尽可能详细)。