利用KNIME基于Spark决策树模型算法进行测试的示例分析

利用KNIME基于Spark决策树模型算法进行测试的示例分析,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。

下面利用KNIME基于Spark决策树模型算法,通过对泰坦尼克的包含乘客及船员的特征属性的训练数据集进行训练,得出决策树幸存模型,并利用测试数据集对模型进行测试。

1、从Kaggle网站下载训练数据集和测试数据集

2、在KNIME创建新的Workflow,起名:TitanicKNIMESpark

利用KNIME基于Spark决策树模型算法进行测试的示例分析

3. 读取训练数据集

KNIME支持从Hadoop集群读取数据,本文为了简化流程直接从本地读取数据集。

在Node Repository的搜索框里输入CSV Reader,找到CSV Reader节点,并将它拖入画布。

利用KNIME基于Spark决策树模型算法进行测试的示例分析

双击或右击CSV Reader对节点进行配置,设置数据集的目录。

利用KNIME基于Spark决策树模型算法进行测试的示例分析

右击节点,点击Excute, 然后右击节点,点击File table查看结果

利用KNIME基于Spark决策树模型算法进行测试的示例分析

4.利用Missing Value节点对缺失值进行处理

类似第三步的操作找到Missing Value节点,并拖入画布(本文以下操作类似,不再重复),并根据需要设置属性,这里采用简单取平均值的方法处理缺失值。建立CSV Reader节点到Missing Value节点的连接。

利用KNIME基于Spark决策树模型算法进行测试的示例分析

右击节点,点击Excute, 然后右击节点,点击Output Table查看结果

利用KNIME基于Spark决策树模型算法进行测试的示例分析

5、添加Create Spark Context节点,设置Spark Context

利用KNIME基于Spark决策树模型算法进行测试的示例分析

利用KNIME基于Spark决策树模型算法进行测试的示例分析

6 .添加Table to Spark节点,将KNIME数据表转换成Spark的DataFrame/RDD,配置Table to Spark节点并建立Missing Value节点到Table to Spark节点的连接,建立Create Spark Context节点到Table to Spark节点的连接。

这里采用默认配置。

7. 添加Spark Normalizer节点,将Survived属性从数字类型转换成为字符类型,配置Spark Normalizer节点并建立Table to Spark节点到Spark Normalizer节点的连接。

利用KNIME基于Spark决策树模型算法进行测试的示例分析

右击节点,点击Excute, 然后右击节点,点击Normalized Spark DataFrame/RDD查看结果.

利用KNIME基于Spark决策树模型算法进行测试的示例分析

8. 添加Spark Decision Tree Learner节点,配置决策树算法参数,并建立Spark Normalizer节点到Spark Decision Tree Learner节点的连接。

利用KNIME基于Spark决策树模型算法进行测试的示例分析

右击节点,点击Excute, 然后右击节点,点击Decision Tree Model查看结果.

利用KNIME基于Spark决策树模型算法进行测试的示例分析

9利用测试数据集和Spark Predictor节点对模型进行测试。

复制CSV Reader,Missing Value和Table to Spark节点并参考3,4,6步进行配置读取测试数据集并对数据进行处理和转换。添加Spark Predictor节点, 配置 Spark Predictor节点,并将新添加的Table to Spark节点以及Spark Decision Tree Learner节点和Spark Predictor相连接。

CSV Reader配置测试数据集。

利用KNIME基于Spark决策树模型算法进行测试的示例分析

Spark Predictor节点配置Prediction column

利用KNIME基于Spark决策树模型算法进行测试的示例分析

右击节点,点击Excute, 然后右击节点,点击Labled Data查看结果.

利用KNIME基于Spark决策树模型算法进行测试的示例分析

10.可以添加其他节点对结果进行后续处理,这里添加只添加Spark Column Filter节点过滤掉不需要的column。

添加Spark Column Filter节点并进行配置。

利用KNIME基于Spark决策树模型算法进行测试的示例分析

右击节点,点击Excute, 然后右击节点,点击Filtered Spark DataFrame/RDD查看结果。

利用KNIME基于Spark决策树模型算法进行测试的示例分析

最终整个workflow如下图所示

利用KNIME基于Spark决策树模型算法进行测试的示例分析

看完上述内容是否对您有帮助呢?如果还想对相关知识有进一步的了解或阅读更多相关文章,请关注亿速云行业资讯频道,感谢您对亿速云的支持。

原创文章,作者:306829225,如若转载,请注明出处:https://blog.ytso.com/222828.html

(0)
上一篇 2022年1月6日
下一篇 2022年1月6日

相关推荐

发表回复

登录后才能评论