亚博直播 先生。王斌现代信息检索2012年秋季期末考试问题

日期:2021-02-26 14:13:32 浏览量: 181

中国科学院研究生院课程代码:课程代码:71258-Z-2试题特别论文课程名称:现代信息检索课程名称:现代信息检索课程教师:王斌班主任:王斌- —————————————————————————————————————————————————————— ———————————————————————————————————————————————————— ——————————————— 一、是或假(正确打√,X错误。每个问题2分,共30分)1、创建倒排索引时yb体育 ,只能将文件用作索引单位。 ()0 2、项集和项集有时可以完全不同,甚至交集也是一个空集。 ()1 3、圆索引和k-gram索引都可以支持通配符查询的处理。 ()1 4、倒排索引的构造与硬件环境密切相关。 ()1 5、γ的编码序列是唯一的澳洲幸运8APP ,但是解码序列不是唯一的。 ()0 6、在向量空间模型的计算中,使用余弦相似度和欧几里得距离获得的相似度相同,即,如果两个向量的余弦相似度较大,则欧几里德距离必须为当余弦相似时,欧几里得距离小;当余弦相似时,欧几里得距离大。 ()0 7、信息检索系统中只有一种索引结构。 ()0 8、通过隐式相关反馈来分析用户的行为,因此一定会提高搜索效果。

王斌 现代信息检索_检索信息_为什么说在因特网上检索信息有很多困难

()0 9、在BM25检索模型中,考虑了文档长度对检索的影响。 ()11 0、在基于多项式模型和伯努利模型的朴素贝叶斯分类器的实现中使用完全相同的假设。 ()01 1、特征选择功能MI(期望的相互信息)考虑了缺少词汇项对分类的影响。 ()11 2、 SVM分类的速度与支持向量的数量无关。 ()01 3、 K-均值聚类算法的结果取决于初始种子质心的选择。 ()11 4、 GAAC层次聚类算法的结果是确定性的。 ()11 5、隐式语义索引LSI本质上是将原始向量空间线性地转换为另一个高维向量空间。 ()0 二、多项选择题(单项或多项选择。每个问题2分,共16分)1、关于倒排索引的压缩,以下哪个陈述是正确的(12)。 A)压缩可以提高空间利用率。 B)压缩可以提高从硬盘到内存的传输速度。 C)字典压缩效果不大。 D)可变字节编码压缩是一种有损压缩方法。关于向量空间模型,以下陈述是正确的(12 4)。 A)查询和文档被视为向量。 B)有很多方法可以计算重量。 C)查询和文档表示为不同空间中的向量。 D)有很多计算相似度的方法。共5页华体会登录 ,第1页3.关于隐式反馈,以下陈述是错误的(2)。

A)反馈实际上涉及用户。 B)反馈后的搜索效果肯定会提高。 C)反馈是部分方法。 D)反馈效果通常低于用户相关的反馈。关于伪相关反馈,以下陈述是错误的(12)。 A)反馈实际上涉及用户。 B)反馈后的搜索效果肯定会提高。 C)反馈是部分方法。 D)反馈效果通常低于用户相关的反馈。关于kNN分类器,以下描述中的错误是(2)。 A)分类器几乎不需要训练。 B)分类器非常快。 C)分类器是非线性分类器。 D)分类器通常表现良好。关于Rocchio分类器,以下描述中的错误是(1 2)。A)不需要训练分类器B)分类器通常在分类中表现良好C)分类器训练得非常快D)分类器具有非常快的分类速度Fast7。关于K-means聚类算法,以下描述中的错误是(24)。 A)聚类算法需要预先指定聚类数。 B)聚类算法是确定性算法。 C)聚类算法的时间复杂度是线性的。 D)聚类算法可以获得全局最优结果。关于HAC聚类算法,以下陈述是错误的(134)。 A)HAC必须指定群集数。 B)HAC算法是确定性算法。 C)HAC要求文档必须以向量表示。 D)HAC的相似性只能通过向量内积三、计算问题来计算(每个问题6个(共30分)1、)亚博电子竞技 ,面对两个正确的答案集Rq1 = {d1,d2,d3,d4,d5}当Rq2 = {d6,d7,d8,d9,d10}查询q 1、 q2时,某搜索系统A返回的搜索结果如表1所示。

尝试为每个查询计算系统的P,R,F,P @ 1 0、 AP和其他指标,并计算整个系统的MAP指标。请写下计算过程,并将最终结果填写在表2中(保留小数点后2位)。 AP计算使用非插值方法。表1检索结果表系统-查询返回的结果数,正确答案在返回结果中的位置A-q1202-d2; 4-d4; 5-d1; 10-d5A-q2201-d6,4-d7; 10-d8; 12- d9共5页第2页表2结果摘要系统和查询PRFP @ 10APMAPA-q1 0. 2 0. 8 0. 32 0. 4 0. 4A-q2 0. 2 0. 8 0. 32 0. 3 0. 427 0. 413 2、请分别针对以下使用VB编码和γ编码的间隔编码结果(第一个是原始值,下面是间隔值)恢复原始的间距顺序和反向记录表。 (1) VB代码:01 01(2)γ代码:1110110(1) 01 012872 21 7389972872 2893 741890(2) 1110110101 5 1010111 87 11000111 199 1110 145 92 291 295 3、使用单连接,完全连接和质心方法HAC对这些点进行聚类,并输出聚类的树状图。

检索信息_王斌 现代信息检索_为什么说在因特网上检索信息有很多困难

0 1 2 3 4 5 6 7单连接,全连接和质心方法HAC最相似的成员最不相似的成员平均相似度4、假定五个网页A,B,C,D,E构成以下链接,请尝试使用以下公式(u表示当前页面,Bu是链接到u的所有页面的集合,Nv是页面v中的链接总数,R(u)和R(v)是PageRank u和v的值分别为方便计算,假设c = 1)计算每个网页的归一化PageRank值,即五个网页的PageRank之和为1. AB 6/41 C 12 / 41 D9 / 41 E8 / 41 5、假设图片中有两种类型的数据,即三角形和圆形,下图显示了某个分类器对特定测试数据集获得的分类结果。左侧图片中的数据为三角形,右侧图片中的数据确定为圆形类别),计算出正确的分别将三角形和圆形这两个类别中的分类器的平均率,召回率和F值计算出来,并计算所有类别F值和准确性(准确性)下分类器的宏观平均F值和微观平均。类三角形圆形ABDCE 四、单词问题(每个问题8分王斌 现代信息检索,总共24点)1、基于Web的新闻内容提取是指从新闻网页中提取新闻标题和文本。下图),尝试应用在本课程中学习的文本聚类技术来实现上述过程,并给出您的想法的详细步骤(从内容提取到文本聚类问题的映射王斌 现代信息检索,文本表示方法,相似度计算方法,聚类算法)等)和过程(提示:请尽可能详细)。

2、汉语分词是将输入的中文句子分为单个词的过程,例如“我是中国人吗?我是中国人”。无需预定义词典即可完成中文分词。尝试将本课程中学到的文本分类技术应用于没有字典的分词过程,并给出详细的思路(内容提取到文本分类问题的映射BG真人 ,文本表示方法,特征选择和分类算法等) 。)和过程(提示:尽可能详细)。 3、从发布内容和遵循关系(结构)的角度,设计一种算法来计算微博用户之间的相似度(提示:尝试尽可能详细)。