1、单选(2分):贝叶斯是一种有概率描述的判别方法,使用(D)进行判别。
A.试验概率
B.测验概率
C.先验概率
D.后验概率
2、单选(2分):哪个统计量体现了数据的波动A
A.方差
B.相关系数
C.均值
D.协方差
3、单选(2分):什么情况下协方差与相关系数相等B
A.变量标准差为0
B.变量标准差为1
C.变量均值为0
D.变量均值为1
4、单选(2分):当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?D
A.隐马尔可夫链
B.关联分析
C.分类
D.聚类
5、单选(2分):检测异常值时,一般使用()σ准则D
A.1
B.随机
C.2
D.3
6、单选(2分):异常值处理的3σ准则中,σ的含义为A
A.原始数据的标准差
B.原始数据的方差
C.正态分布的标准差
D.正态分布的方差
7、单选(2分):在自然语言处理中,通常采用()来衡量词向量间的相似度C
A.欧氏距离
B.曼哈顿距离
C.余弦距离
D.马氏距离
8、单选(2分):关于多重共线性,下列说法错误的是。B
A.主元回归可以一定程度上解决多重共线性带来的问题
B.增加样本容量可以消除多重共线性
C.岭回归可以缓解多重共线性带来的影响
D.多重共线性是指变量间存在很强的线性关系
9、单选(2分):关于岭回归估计,下列说法错误的是。C
A.可以用岭迹法选择合适的
B.岭回归估计为了处理自变量之间存在多重共线性的问题而引入的
C.具有稀疏化、选择变量的能力
D.岭回归得到的参数估计量是有偏的
10、单选(2分):用距离度量样本间相似性时,距离越____时样本越相似;用相似系数衡量变量间相似性时,相似系数越____时变量越相似C
A.大;小
B.大;大
C.小;大
D.小;小
11、单选(2分):利用bootstrapping采样技术,随机森林中的每一棵决策树大概有()比例的样本始终未被采集到。D
A.0.
B.0
C.0.
D.0.
12、单选(2分):用决策树训练一个分类器模型,树的每个叶子结点代表了()信息C
A.样本数量
B.无实际意义
C.分类标签
D.变量数量
13、单选(2分):下面哪种拓展的CCA算法可以将判别的标签信息融入CCA算法中C
A.DeepCCA
B.MultiviewCCA
C.DiscriminativeCCA
D.KernalCCA
14、单选(2分):通过CCA计算得到的变量组间的第一对典型相关系数较两组变量间任一个简单相关系数之绝对值都C
A.小
B.不一定
C.大
D.相等
15、单选(2分):以下哪一项在神经网络中引入了非线性C
A.随机梯度下降
B.卷积
C.Sigmoid激活函数
D.以上都不正确
16、单选(2分):以下哪一种神经网络架构有反馈连接?A
A.循环神经网络
B.卷积神经网络
C.残差神经网络
D.限制波尔兹曼机
17、单选(2分):你认为把下面卷积核应用到灰度图像会怎么样?C
A.会检测水平边缘
B.会检测图像对比度
C.会检测垂直边缘
D.会检测45度边缘
18、单选(2分):训练过程中对隐层特征施加高斯分布约束的自编码器是A
A.变分自编码器
B.降噪自编码器
C.稀疏自编码器
D.所有自编码器
19、单选(2分):你觉得LSTM为什么适合用于进行血糖预测D
A.因为LSTM内部结构足够复杂
B.因为LSTM能够对时间序列进行卷积
C.因为LSTM适合各种预测任务
D.因为LSTM能捕捉时序关系
20、单选(2分):在双盲降噪自编码器实现降噪一节中,编码器中包含RNN和一维卷积,你觉得这么设计的初衷是什么B
A.因为这两个模型工程上容易实现
B.因为所处理的数据是时序数据
C.因为RNN模型、一维卷积模型足够通用
D.因为RNN模型、一维卷积模型提取的特征适合用PCA处理
21、多选(3分):以下哪些属于大数据的特点ABC
A.类型多
B.体量大
C.速度快
D.价值低
22、多选(3分):多元统计分析的研究内容包括ABCD
A.多元数据的统计推断
B.归类问题
C.多元统计分析的理论基础
D.降维问题
23、多选(3分):下列属于数据预处理方法的有ACD
A.数据归约
B.数据采集
C.数据变换
D.数据清洗
24、多选(3分):多元数据的统计推断包括BC
A.多元数据的特征值分解
B.多元正态分布的协方差阵的估计和假设检验
C.多元正态分布的均值向量的估计和假设检验
D.多元数据统计量分布推导
25、多选(3分):下面哪些选项属于异常值检查方法?ABCD
A.简单统计量检测法
B.异常数据检测法
C.箱型图检测法
D.3σ准则检测法
26、多选(3分):关于偏最小二乘回归,下列说法正确的是:AD
A.使用迭代求解的方法依次求取潜变量。
B.偏最小二乘求取潜变量时要求两潜变量的协方差最大
C.偏最小二乘提取潜变量时只考虑了X的信息;
D.偏最小二乘回归适用于样本数少于变量数的情况;
27、多选(3分):关于聚类算法,下列说法中正确的有ABC
A.聚类的目的是根据人们所关心的相似关系,寻找数据中潜在的自然分组结构
B.依据被研究对象的不同,聚类算法能够被划分为Q型聚类和R型聚类
C.依据算法结构的不同,聚类算法能够被划分为自下而上与自上而下
D.使用聚类算法时一定需要每个样本的标签
28、多选(3分):下列选项中属于K均值聚类算法流程的有ABC
A.逐个分派样本到其最近的中心的类中
B.重新计算类中心
C.确定初始类中心位置
D.计算样本属于每个高斯元的后验概率
29、多选(3分):你觉得为什么使用卷积神经网络处理心电图ABD
A.心电图也是一种图
B.心电图中心电数据也是一种时间序列数据
C.卷积神经网络相比其他方法能够捕捉更多细节信息
D.心电图中不同导联数据有相关性
30、多选(3分):随机森林的模型泛化误差界由()确定AC
A.树间的相关性
B.训练数据的质量
C.单棵树的分类强度
D.训练数据的数量
31、判断(2分):费舍尔判别分析方法(FDA)旨在找到一条能够分隔不同类别样本的分界线。错
32、判断(2分):核函数的引入可以处理非线性可分问题。对
33、判断(2分):支持向量机(SVM)能够很方便地解决分类问题。对
34、判断(2分):最小二乘回归模型目标函数的几何意义就是在X(变量*样本)的行空间内找出一个向量,使得其与Y(1*样本)的距离最小。对
35、判断(2分):岭回归通过引入二次项参数*‖‖^2作为正则惩罚项,起到了放大参数,降低误差的作用。错
36、判断(2分):主成分从数学角度来说就是方差最大且相互正交的投影方向上的信息。对
37、判断(2分):GMM中各高斯元的权重之和为1。对
38、判断(2分):在聚类分析中,当聚类的数据量纲差异较大时,应先对数据进行标准化以消除计量单位对结果的影响。对
39、判断(2分):聚类算法是一种无监督的算法,因此不需要借助任何先验知识便可以对数据进行聚类。错
40、判断(2分):GMM和K-means的唯一区别在于是否利用了后验概率去实现数据的软划分。错
41、判断(2分):随机森林中树的数量对整体性能影响不大。错
42、判断(2分):典型相关是研究两组变量之间相关性的一种统计分析方法。但不能把它当成一种降维技术。错
43、判断(2分):典型相关分析适用于分析由多变量组成的变量组之间的相关性。对
44、判断(2分):可以借助拉格朗日乘数来求解典型相关分析问题。对
45、判断(2分):典型相关是简单相关、多重相关的推广;或者说简单相关系数、复相关系数是典型相关系数的特例。对
46、判断(2分):CCA算法广泛的应用于数据相关度的分析,同时还是偏最小二乘法的基础。对
47、判断(2分):CNN常用于序列数据的建模。错
48、判断(2分):自编码器是一种无监督的学习方法,但不能把它当成一种降维技术。错
49、判断(2分):自编码器的编码器与解码器只能使用多层感知机(MLP)。错
50、判断(2分):去噪自编码器可以利用含缺失值的样本进行训练,训练出可以用于填补缺失值的模型。错
51、判断(2分):良好的特征工程有利于提升模型的整体效果。对
52、判断(2分):为了提高血糖预测的精度,血糖预测的预测步长应该随意设置。错
53、判断(2分):在机器学习模型中,需要通过训练学习到的的参数称为超参数。错
54、判断(2分):曼哈顿距离是各变量之差的绝对值之和。对
55、判断(2分):维数灾难是指当变量指标、特征逐步增加时导致计算量、计算难度成指数爆炸性增长,而模型准确性却在降低的情况。对