数据挖掘

wzzyhg 356 0
  1. 一般来说,数据挖掘就是从数据中发现知识,请具体描述。
    数据挖掘就是从大量数据中挖掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程;是利用各种分析工具在海量数据中发现模型和数据之间关系的过程。

  2. 数据分类和数据聚类的概念如何区分?
    数据分类与数据聚类的主要区别在于:数据分类是基于已知标签的训练数据集,学习模型将新数据映射到预定义类别;而数据聚类则无需标签,旨在发现数据集中隐藏的相似样本组或簇,无需预定义类别,属于无监督学习。

  3. 数据清洗分别解决数据中的哪些问题,如何解决?
    数据清洗分别解决数据的不完整、有噪声、不一致的问题,通过填充缺失值,平滑噪声,识别离群点,并纠正数据中的不一致问题来解决。

  4. 请简述决策树算法的优缺点。
    决策树算法的优点包括直观易懂、分类速度快、能处理非线性关系及缺失值;缺点则在于容易过拟合、忽略数据间相关性、对类别不平衡的数据敏感,且连续值处理时可能丢失信息。

  5. 有下列数据4,8,15,21,21,24,25,28,34,请利用分箱的方法对其进行平滑。
    (1)划分为等频箱(2.5分)
    (2)用箱均值平滑(2.5分)
    (3)用箱中位数平滑(2.5分)
    (4)用箱边界平滑(2.5分)

分箱的方法进行平滑

4个月前 (11-10) 0
分箱的方法进行平滑

6 数据归约技术可以实现数据集的归约表示,归约后的数据集小的多,但仍能近似保持原始数据的完整性,请详细描述数据归约的三种方法。
(1) 维归约。减少所考虑的随机变量或属性的个数。维归约方法包括主成分分析等,它们把原始数据变换或投影到较小的空间。特征选择也是一种维归约方法,其中不相关、弱相关或冗余的属性或维被检测和删除。
(2) 数量归约。用替代的、较小的数据表示形式替换原始数据,包括参数或非参数的方法。参数方法有回归和对数-线性模型,非参数方法有直方图、聚类、抽样和数据立方体聚集。
(3) 数据压缩。使用变换,以便得到原始数据的归约或“压缩”表示。如果原始数据可以从压缩后的数据重构而不损失信息,则该数据归约称为无损的。如果只能近似重构原数据,则称之为有损的。维归约和数量归约也可以视为某种形式的数据压缩。

7.现有一组交易数据如表所示,请使用所学关联规则算法,求出表中所有的频繁项集和规则,支持度阈值=50%,置信度阈值=100%。

交易号 商品
100 a, c, d
101 b, c, e
102 a, b, c, e
103 b, e

频繁项集关联规则

4个月前 (11-10) 0
频繁项集关联规则
  1. 请画出前向型神经网络模型图,并简要描述度量分类模型的指标。

前向型神经网络模型图和度量分类模型的指标

4个月前 (11-10) 0
前向型神经网络模型图和度量分类模型的指标

发表评论 取消回复
表情 图片 链接 代码

分享