数据挖掘工程师题库
- 在评价不平衡类问题分类的度量方法有如下几种,( )
- 关于K均值和DBSCAN的比较,以下说法不正确的是( )
- 地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作( )
- 通过聚集多个分类器的预测来提高分类准确率的技术称为 ( )
- 基于邻近度的离群点检测方法不能处理具有不同密度区域的数据集( )
- OLAP 系统和 OLTP 系统的主要区别包括( )
- 下列哪种可视化方法可用于发现多维数据中属性之间的两两相关性?
- DBSCAN在最坏情况下的时间复杂度是( )
- 只有非零值才重要的二元属性被称作:( )
- 下面哪些问题是我们进行数据预处理的原因?
- 数据挖掘的预测建模任务主要包括哪几大类问题?( )
- 计算一个单位的平均工资,使用哪个中心趋势度量将得到最合理的结果?
- 非频繁模式__( )
- 数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘( )
- 数据清理的目的是处理数据中的( )
- 下面哪个属于映射数据到新的空间的方法? ( )
- 以下是哪一个聚类算法的算法流程:①构造k-最近邻图。②使用多层图划分算法划分图。③repeat:合并关于相对互连性和相对接近性而言,最好地保持簇的自相似性的簇。④until:不再有可以合并的簇。( )
- 下面哪个不属于数据的属性类型:( )
- 在图集合中发现一组公共子结构,这样的任务称为 ( )
- 以下哪种方法不属于特征选择的标准方法: ( )
- 在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是: ( )
- 以下哪个范围是数据仓库的数据库规模的一个合理范围?
- Apriori算法所面临的主要的挑战包括( )。
- 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。
- 数据仓库在技术上的工作过程是: ( )
- 有关数据仓库的开发特点,不正确的描述是:( )
- 对于数据挖掘中的原始数据,存在的问题有: ( )
- 簇有效性的面向相似性的度量包括( )
- 数据仓库的三层架构主要包括以下哪三部分?
- 对于SVM分类算法,待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响( )