-
一般来说,数据挖掘就是从数据中发现知识,请具体描述。
数据挖掘就是从大量数据中挖掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程;是利用各种分析工具在海量数据中发现模型和数据之间关系的过程。 -
数据分类和数据聚类的概念如何区分?
数据分类与数据聚类的主要区别在于:数据分类是基于已知标签的训练数据集,学习模型将新数据映射到预定义类别;而数据聚类则无需标签,旨在发现数据集中隐藏的相似样本组或簇,无需预定义类别,属于无监督学习。 -
数据清洗分别解决数据中的哪些问题,如何解决?
数据清洗分别解决数据的不完整、有噪声、不一致的问题,通过填充缺失值,平滑噪声,识别离群点,并纠正数据中的不一致问题来解决。 -
请简述决策树算法的优缺点。
决策树算法的优点包括直观易懂、分类速度快、能处理非线性关系及缺失值;缺点则在于容易过拟合、忽略数据间相关性、对类别不平衡的数据敏感,且连续值处理时可能丢失信息。 -
有下列数据4,8,15,21,21,24,25,28,34,请利用分箱的方法对其进行平滑。
(1)划分为等频箱(2.5分)
(2)用箱均值平滑(2.5分)
(3)用箱中位数平滑(2.5分)
(4)用箱边界平滑(2.5分)
6 数据归约技术可以实现数据集的归约表示,归约后的数据集小的多,但仍能近似保持原始数据的完整性,请详细描述数据归约的三种方法。
(1) 维归约。减少所考虑的随机变量或属性的个数。维归约方法包括主成分分析等,它们把原始数据变换或投影到较小的空间。特征选择也是一种维归约方法,其中不相关、弱相关或冗余的属性或维被检测和删除。
(2) 数量归约。用替代的、较小的数据表示形式替换原始数据,包括参数或非参数的方法。参数方法有回归和对数-线性模型,非参数方法有直方图、聚类、抽样和数据立方体聚集。
(3) 数据压缩。使用变换,以便得到原始数据的归约或“压缩”表示。如果原始数据可以从压缩后的数据重构而不损失信息,则该数据归约称为无损的。如果只能近似重构原数据,则称之为有损的。维归约和数量归约也可以视为某种形式的数据压缩。
7.现有一组交易数据如表所示,请使用所学关联规则算法,求出表中所有的频繁项集和规则,支持度阈值=50%,置信度阈值=100%。
交易号 | 商品 |
---|---|
100 | a, c, d |
101 | b, c, e |
102 | a, b, c, e |
103 | b, e |
- 请画出前向型神经网络模型图,并简要描述度量分类模型的指标。
本文作者为wzzyhg,转载请注明。