数据挖掘 - 多肉Blog

一般来说，数据挖掘就是从数据中发现知识，请具体描述。
数据挖掘就是从大量数据中挖掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势，并用这些知识和规则建立用于决策支持的模型，提供预测性决策支持的方法、工具和过程；是利用各种分析工具在海量数据中发现模型和数据之间关系的过程。
数据分类和数据聚类的概念如何区分？
数据分类与数据聚类的主要区别在于：数据分类是基于已知标签的训练数据集，学习模型将新数据映射到预定义类别；而数据聚类则无需标签，旨在发现数据集中隐藏的相似样本组或簇，无需预定义类别，属于无监督学习。
数据清洗分别解决数据中的哪些问题，如何解决？
数据清洗分别解决数据的不完整、有噪声、不一致的问题，通过填充缺失值，平滑噪声，识别离群点，并纠正数据中的不一致问题来解决。
请简述决策树算法的优缺点。
决策树算法的优点包括直观易懂、分类速度快、能处理非线性关系及缺失值；缺点则在于容易过拟合、忽略数据间相关性、对类别不平衡的数据敏感，且连续值处理时可能丢失信息。
有下列数据4,8,15,21,21,24,25,28,34，请利用分箱的方法对其进行平滑。
（1）划分为等频箱（2.5分）
（2）用箱均值平滑（2.5分）
（3）用箱中位数平滑（2.5分）
（4）用箱边界平滑（2.5分）

分箱的方法进行平滑

6 数据归约技术可以实现数据集的归约表示，归约后的数据集小的多，但仍能近似保持原始数据的完整性，请详细描述数据归约的三种方法。
（1）维归约。减少所考虑的随机变量或属性的个数。维归约方法包括主成分分析等，它们把原始数据变换或投影到较小的空间。特征选择也是一种维归约方法，其中不相关、弱相关或冗余的属性或维被检测和删除。
（2）数量归约。用替代的、较小的数据表示形式替换原始数据，包括参数或非参数的方法。参数方法有回归和对数-线性模型，非参数方法有直方图、聚类、抽样和数据立方体聚集。
（3）数据压缩。使用变换，以便得到原始数据的归约或“压缩”表示。如果原始数据可以从压缩后的数据重构而不损失信息，则该数据归约称为无损的。如果只能近似重构原数据，则称之为有损的。维归约和数量归约也可以视为某种形式的数据压缩。

7.现有一组交易数据如表所示，请使用所学关联规则算法，求出表中所有的频繁项集和规则，支持度阈值=50%,置信度阈值=100%。

交易号	商品
100	a, c, d
101	b, c, e
102	a, b, c, e
103	b, e

频繁项集关联规则

4个月前 (11-10) 0

请画出前向型神经网络模型图，并简要描述度量分类模型的指标。

前向型神经网络模型图和度量分类模型的指标

4个月前 (11-10) 0

本文作者为wzzyhg，转载请注明。