分享好友 最新动态首页 最新动态分类 切换频道
AI 分析 不用写代码 即可实现
2024-12-26 20:03

对于机器学习和数据科学的初学者来说,最大的挑战之一是需要同时学习太多知识,特别是如果你不知道如何编码。你需要快速地适应线性代数、统计以及其他数学概念,并学习如何编码它们,对于新用户来说,这可能会有点难以承受。

如果你没有编码的背景并且发现很难学习下去,这时你可以用一个GUI驱动的工具来学习数据科学。当你刚开始学习的时候,可以集中精力学习实际的项目。一旦适应了基本的概念,你就可以在以后慢慢学习如何编写代码。

在今天的文章中,我将介绍一个基于GUI的工具:KNIME。读完本文,你将在无需编写任何代码的情况下,预测零售商店的销售情况。

好吧,让我们开始吧!

KNIME是一个基于GUI工作流的强大分析平台。这意味着你不必知道如何编写代码(对于像我这样的初学者来说是一种解脱),就能够使用KNIME并获得洞察力。

你可以执行从基本I/O到数据操作、转换和数据挖掘等功能。它将整个过程的所有功能合并到一个工作流中。

设置系统

在开始KNIME之前,首先你需要安装它并在PC上设置它。

到KNIME下载页面。

创建你的第一个工作流程

在我们深入研究KNIME的工作原理之前,让我们先定义几个关键术语来帮助我们理解,然后看看如何在KNIME中打开一个新项目。

  • 节点:节点是任何数据操作的基本处理点。它可以根据你在工作流程中选择的内容来执行一些操作。

  • 工作流:工作流是指你在平台上完成特定任务的步骤或操作的顺序。

在左上角的工作流指导会向你展示KNIME社区特定节点的使用百分比。节点存储库将显示特定工作流可以拥有的所有节点,这取决于你的需要。当创建第一个工作流时,你还可以浏览示例工作流来检查更多的工作流。这是迈向解决任何问题的第一步。

要建立一个工作流,可以遵循这些步骤。

这是你在KNIME上的空白工作流程。现在,你就可以从存储库将任何节点拖放到工作流中来探索和解决任何问题。

KNIME是一个可以帮助解决我们在数据科学的边界上可能遇到任何问题的平台。从最基本的可视化或线性回归到高级深度学习,KNIME可以做到这一切。

作为一个示例用例,我们在本教程中要解决的问题是Datahack可以访问的BigMart销售问题。

这个问题具体描述如下:

BigMart的数据科学家已经收集了2013年不同城市10家商店1559种产品的销售数据。此外,还定义了每个产品和存储的某些属性。其目的是建立一个预测模型,并在特定的商店中找出每种产品的销售情况。使用这个模型,BigMart将尝试了解产品和商店的属性,这些属性在增加销售中扮演着关键的角色。

你可以在这里找到BigMart销售问题的方法和解决方案。

导入数据文件

让我们可视化一些相关的列,并找出它们之间的相关性。相关性帮助我们发现哪些列可能是相互关联的,并具有更高的预测能力来帮助我们最终的结果。要了解更多相关信息,请阅读本文。

这将帮助你选择重要的特性,并通过在特定的单元上悬停来更好地预测。

接下来,我们将可视化数据集的范围和模式来更好地理解它。

可视化和分析

其实,我们想要从数据中了解到的主要事情之一就是:什么东西被卖得最多。

有两种解释信息的方法:散点图(Scatter Plot )和饼图(pie chart)。

散点图

在我们的节点存储库中搜索Views 项下的Scatter Plot 。将其以类似的方式拖放到工作流中,并将文件阅读器的输出连接到此节点。

接下来,配置节点,选择你需要多少行数据,并希望可视化(我选择了3000)。

单击Execute,然后查看:散点图。

X轴为Item_Type,Y轴为Item_Outlet_Sales。

上面的图代表了每种商品的销售情况,并向我们展示了水果和蔬菜的销售量是最高的。

饼状图

单击视图下的饼图节点并将其连接到你的文件阅读器。选择需要隔离的列并选择首选的聚合方法,然后应用。

这张图表向我们展示了销售在各种产品上的平均分配。“淀粉类食品”的平均销量为7.7%。

以上,我只使用了两种类型的视图,尽管你还可以在浏览Views选项卡下查看多种表单中的数据。比如可以使用直方图、行图等来更好地可视化你的数据。

我喜欢像Tableau这样的工具,它是实现数据可视化的最有力工具。

在训练模型之前,你可以进行的一项内容就是数据清理和特性提取。这里,我将提供一个关于KNIME数据清理步骤的概述。

寻找Missing Values

在估算值之前,我们需要知道哪些是缺失的。

再次访问节点存储库,找到Missing Values节点。拖放它,并将我们的文件阅读器File reader 的输出连接到节点。

Imputations

现在,当我们执行它时,在Missing value节点的输出端口上已经准备好了具有imputed values的完整数据集。在我的分析中,我选择了imputation 方法为:

String:

Next value 
Previous value 
Custom value 
Remove row

Number (double and integer):

Mean 
Median 
Previous value 
Next value 
Custom value 
Linear interpolation 
Moving average

让我们来看看如何在KNIME中构建机器学习模型。

实现一个线性模型Linear Model

首先,我们将训练一个线性模型Linear Model 
,它包含了数据集的所有特性,以了解如何选择特性并构建模型。这是一个初学者的线性回归指南。

这是你现在的屏幕呈现。在Configuration选项卡中,排除Item_Identifier并在顶部选择目标变量。完成这个任务之后,需要导入testdata来运行模型。

将另一个文件阅读器拖放到工作流中,并从你的系统中选择测试数据。

正如我们所看到的,测试数据也包含缺失值。我们将以与训练数据相同的方式在Missing value节点上运行它。

在我们清洗了测试数据之后,将引入一个新的节点:Regression predictor。

通过将learner的输出与预测器的输入连接起来,将你的模型加载到预测器中。在预测器的第二个输入中,加载你的测试数据。预测器会根据你的learner自动调整预测栏,但也可以手动改变它。

KNIME有能力在分析标签下训练一些非常专业的模型。这里是一个列表:

Clustering 
Neural networks 
Ensemble learners 
Naïve Bayes

在执行预测器之后,输出几乎已经准备好提交了。

在节点存储库中找到节点列过滤器Column filter,并将其拖到工作流中。将预测器的输出连接到列筛选器,并配置它筛选所需的列。在这种情况下,你需要Item_Identifier、Outlet_Identifier和Outlet_Sales的预测。

执行列过滤器Column filter,最后,搜索节点CSV writer并将你的预测记录在硬盘上。

调整路径,将其设置为需要存储的CSV文件,并执行该节点。最后,打开CSV文件以按照我们的解决方案来纠正列名。将CSV文件压缩成ZIP文件并提交你的解决方案!

这是最终的工作流图。

在可移植性方面,KNIME工作流非常方便。它们可以发送给你的朋友或同事一起构建,增加你产品的功能!

为了导出一个KNIME工作流,可以简单地单击File > Export KNIME Workflow.

在此之后,选择您需要导出的合适的工作流,然后单击Finish。

这会创建一个.knwf文件,你可以发送给任何人,他们将能够使用一键访问它!

KNIME是一个非常强大的开源工具,但是它也有自己的局限性。主要是:

最新文章
谷歌chrome浏览器2023安卓最新
谷歌chrome浏览器是一款快速、安全且功能丰富的网络浏览器,干净整洁的界面以及快速地浏览速度带给用户舒适的使用体验,多功能的特点使用户可以畅快的浏览互联网、享受便捷的上网体验。网页翻译 - 您可以轻松浏览任何语言的网页节省数据流
这些A股光存储概念股名单,你需要知道!(12月12日)
  据南方财富网概念查询工具数据显示,相关光存储概念股:  1、中电兴发002298:12月12日消息,中电兴发5日内股价上涨13.23%,该股最新报6.880元涨3.28%,成交7.58亿元,换手率16.78%。  公司于2020年2月19日晚间披露2019年度非公开
都江堰seo优化价格【百度都江堰】
文章都江堰seo优化价格【百度都江堰】由网友旧时月色投稿,希望给你工作学习带来帮助。在当今数字化时代,搜索引擎优化(SEO)对于企业和个人的在线存在至关重要,都江堰作为一个充满活力和发展潜力的城市,也有许多企业和个人希望通过 SEO
构建个人投资组合网站:从基础到进阶
在数字时代,个人投资组合网站成为展示工作成果、技能和专业身份的不可或缺的平台。构建这样的网站不仅可以增强职业形象,还能在求职和客户互动中发挥关键作用。本章将引导你从零开始,详细探讨构建个人投资组合网站的整
谷歌浏览器ipad版
谷歌浏览器ipad版是专门针对苹果ipad设备而开发的一款平板电脑浏览器,全新的外观融入了Material Design设计元素,图形更醒目、操作更流畅、触感更灵敏,能够带给用户流畅的上网体验。另外本款google chrome浏览器ipad版同时还具备网页翻译
连城网站排名优化费用是如何计算的?
连城目前的关键词排名方式有哪些?连城目前关键词排名主要分为竞价排名和自然排名。1、连城关键词自然排名,指的是通过各种搜索引擎优化(seo)方式,使您网站的关键词在搜索引擎自然排名中靠前。2、连城关键词竞价排名,通过对搜索引擎充
请问小红书如何设定推广目标以实现精准引流与品牌爆发?
小红书作为一个集社交、内容分享与电商于一体的平台,为品牌提供了广阔的营销空间。要实现精准引流与品牌爆发,设定明确的推广目标并制定相应的营销策略至关重要。以下是一份详细的小红书营销攻略:一、设定推广目标提升品牌知 名度:通过
百度推出惊雷算法:严厉打击快速排名,对SEO有什么影响?
百度资源搜索平台于11月20日零点发布惊雷算法通知,为什么选择这个时间节点,可能希望有一个全新的起点吧,另外一个原因站长们都是夜猫子,这个时间点,可能大家访问频率比较高。  还是言归正传,百度惊雷算法都说了什么?  百度搜索将于
颜姓股民向ST亚联发起索赔 章祥兵律师接受咨询
  12月16日消息,新浪股民维权平台今日收到颜姓股民针对(维权)的维权申请,目前该维权咨询已被章祥兵律师接受。新浪股民维权平台将关注该股民的索赔进程,相关维权持续征集中。  新浪股民维权平台目前有14名专业律师可代理该公司维权
超逼真美女写真生成:最强AI工具评测与实用攻略
5. DeepArt DeepArt是另一个输出高质量逼真图像的强大工具。它利用深度学习算法,将图片转化为艺术画作,风格多样,结果令人惊艳。尽管种类选择丰富,但其绘制时间相对较长,用户需要耐心等待。总的来说,各个工具各有优劣,用户可以根据个
相关文章
推荐文章
发表评论
0评