自然语言处理选择题 |
您所在的位置:网站首页 › 文本向量化需要哪些步骤或流程 › 自然语言处理选择题 |
目录 B C D G J Q S W X Y Z "re.sub('自然语言处理',"NLP",text l)"表示的含义为( )。正确答案: C :将test1中的"自然语言处理"替换为"NLP"; ( )函数用于获取语料库中的文件。正确答案: D :fileids; BOW模型其中的一个缺点是( )。正确答案: D :矩阵稀疏; DM模型与CBOW模型的区别为( )。正确答案: C :DM模型输入不仅包括上下文,而且还包括相应的段落; jieba词性标注的流程不包括( )。正确答案: D :创建规则库; NLTK的安装步骤为( )。答案: D :安装NLP虚拟环境→安装NLTK→检查是否存在NLTK→下载NLTK数据包; TF-lDF算法的主要思想是( )。正确答案: A :字词的重要性随着它在文档中出现次数的增加而上升,随着它在语料库中出现频率的升高而下降; B不是聊天机器人模型优化方法的是( )。正确答案: B :自适应梯度法; 不属于jieba分词步骤的是( )。正确答案: B :统计每个出现在词头的位置状态的次数,得到初始概率;统计每种位置状态转移至另一种状态的次数,得到转移概率。; 不属于NLP应用场景的是( )。正确答案: A :数据挖掘; 不属于常用的正则表达式函数的是( )。正确答案: B :matplotlib函数; 不属于常用的正则表达式函数的是( )。正确答案: B :matplotlib函数; 不属于打开Jupyter Notebook 方式的是( )。正确答案: B :单击桌面上的Jupyter Notebook 图标; 不属于分布式表示模型的是( )。正确答案: D :分类模型; 不属于关键词提取算法的是( )。正确答案: B :关联算法; 不属于基于规则的分词方法的是( )。正确答案: C :反向最大匹配法; 不属于情感分析应用的是( )。正确答案: B :远程通信; 不属于未登录词的是( )。正确答案: A :网络热门词语; 不属于未登录词的是( )。正确答案: D :网络热门词语; 不属于文本挖掘的基本技术分类的是( )。 不属于文本语料获取方法的是( )。正确答案: D :随机生成; 不属于语料库特征的是( )。正确答案: A :语料库是随机收集的,可以被计算机程序检索的语料集合; 不属于语料预处理的是( )。正确答案: A :去除数据中的文本部分; 不属于中文的实体边界识别变得更加有挑战性原因的是( )。正确答案: A :中文词数量繁多; 不属于中文的实体边界识别变得更加有挑战性原因的是( )。正确答案: D :中文词数量繁多; C常见的主题模型算法不包括( )。正确答案: D :潜在语义判断(LSJ); 常用NLP模型的评价指标不包括 ( )。正确答案: B :IGD; 常用的文本处理模型不包括 ( )。正确答案: D :NLTK; D独热表示的缺点不包括( )。正确答案: A :可以保留语义; 对于满足正态分布的样本数据来说效果会很好,但是过于依赖初始聚类中心的算法是基于( )的聚类算法。正确答案: A :模糊; 对原始的语料文件进行预处理时要进行( )。正确答案: C :构建词典; G构建或研究语料库的时候,一般应考虑代表性、结构性、平衡性、( ) 4 个特性。正确答案: B :规模性; 关键词提取最简单、最直观的方法是( )方法,用于识别定义类查询的句子。正确答案: D :规则的匹配方法; 关于TextRank算法的描述不正确的是( )。正确答案: B :通过平均分配的方式计算每个词的链接词的得分; 关于TF-IDF算法的描述不正确的是( )。正确答案: A :采取投票的方式对关键词进行排序; 关于逆文档频率说法错误的是( )。答案: C :一个词在文档集中越少的文档中出现,说明这个词对文档的区分能力越弱; 关于特征函数的输出值是0或1的叙述正确的是( )。正确答案: A :0表示要标注序列不符合这个特征,1表示要标注序列符合这个特征; 关于文本分类的描述正确的是( )。正确答案: A :文本分类主要是按照规则对文本实现自动划归类别的过程; 关于文本聚类的描述正确的是( )。正确答案: C :文本聚类主要是从杂乱的文本集合中挖掘对用户有价值的信息; 关于主题模型算法的描述不正确的是( )。正确答案: B :每个文档中只包含一个主题; J机器学习算法进行文本分类或聚类的步骤不包括( )。正确答案: D :计算概论矩阵; 基于LDA主题模型的文本情感分析不包括( )。正确答案: A :文本转换; 基于规则的中文分词中的问题不包括( )。正确答案: D :随机型切分歧义; 基于机器学习的情感分类,关键在于特征选择、( )、分类模型。正确答案: C :特征权重量化; 基于情感词典的文本情感分析不包括( )。正确答案: D :特征选取; 基于文本分类的文本情感分析不包括( )。正确答案: C :文本抽取; 决策树算法的缺点是( )。正确答案: B :易出现过拟合,易忽略数据集属性的相关性; Q情感分析的基础性工作是( )。正确答案: C :文本信息抽取; 情感分析技术的核心问题是( )。正确答案: A :情感分类; S适用于样本容量较大的文本集合的文本分类算法是( )。正确答案: A :K最近邻; 属于特征提取方法的是( )。正确答案: D :BOW模型; W问答系统流程由问题理解、( )、答案生成3个部分组成。正确答案: A :知识检索; X下列Python中的预定义字符描述正确的是( )。正确答案: A :\s:空白字符; 下列Python中的预定义字符描述正确的是( )。正确答案: B :\s:空白字符; 下列不是基于规则的统计分词的是( )。正确答案: B :维特比模型; 下列不属于jieba分词模式的是( )。正确答案: C :自定义模式; 下列不属于NLP语料库构建规则的是( )。正确答案: D :不平衡性; 下列不属于按照研究目的和用途划分的语料库种类的是( )。正确答案: C :历史语料库; 下列不属于词性标注方法的是( )。正确答案: C :基于条件概率的词性标注; 下列关于jieba词性标注的流程错误的是( )。正确答案: A :构建无向无环图; 下列关于jieba词性标注的描述正确的是( )。正确答案: C :jieba词性标注与其分词的过程类似; 下列关于Word2Vec模型说法正确的是( )。正确答案: B :真正需要的是这个模型通过训练数据所得的参数; 下列关于文本聚类算法的描述正确的是( )。正确答案: A :基于层次的聚类算法不需要设定聚类数; 下列描述不正确的是( )。正确答案: A :语料库的规模越大对NLP研究越有利; 下列描述不正确的是( )。正确答案: B :match函数用于检测字符串是否匹配; 下列描述错误的是( )。正确答案: C :CRF是一种用于标记和切分序列化数据的基于规则的框架模型; 下列描述正确的是( )。正确答案: C :jieba分词结合了基于规则和基于统计的分词方法; 下列属于jieba分词全模式的语句是( )。正确答案: B :seg=jieba.cut(text,cut_all=True); 下列属于NLTK函数的是( )。正确答案: B :sorted; 下列属于正则表达式中的量化符的是( )。正确答案: A :?D.^; Y要求关键词提取算法应具有的性质不包括( )。正确答案: C :简洁性; 一篇文章在讲各式各样的水果及其功效,当"水果" 这一关键词没有直接出现在文本中时,应该使用( )。正确答案: D :主题模型算法; 语料库以语料库结构进行划分可分为( )。正确答案: A :平衡结构语料库与自然随机结构语料库; Z在NLP虚拟环境中安装需要的程序包,并自自动安装这个包的依赖项需要用到( )正确答案: D :conda install package_name; 在情感分析中,下列描述正错误的是( )。正确答案: D :情感极性判断属于二分类问题; 在情感分析中,下列描述正确的是( )。正确答案: B :文本的主客观分类是情感分析的基础性工作; 在文本向量化中,关于分布式表示的描述不正确的是( )。正确答案: D :词向量是一种稀疏词向量; 在文本向量化中,关于离散表示的描述不正确的是( )。正确答案: C :常用的方法有词集模型和连续词袋模型; 在文本向量化中,下列描述正确的是( )。正确答案: A :分布式表示将每个词根据上下文从高维空间映射到一个低维度、稠密的向量上; 在正则表达式的量化符中,下列描述不正确的是( )。正确答案: D :{n}表示前面的元素至少会被匹配n次; 在正则表达式中,下列描述不正确的是( )。正确答案: B :英文句号“.”表示匹配除换行符“\n”之外的第一个字符; 正确答案: C :文本数据挖掘; 正则表达式的功能不包括 ( )。正确答案: A :内容标注; 政府部门利用NLP技术分析人们对某一事件、政策法规或社会现象的评论,实时了解百姓的态度,这属于NLP研究内容的( )。正确答案: A :文本分类; 中文NLP的基本流程由语料获取、( )、文本向量化、模型构建、模型训班和模型评价6部分组成。正确答案: C :语料预处理; 中文实体识别的挑战不包括( )。正确答案: A :中文词无法通过空格分词; |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |