软件风向标,重度软件行业发展门户!

文章更新 | 热门文章
您的位置: 首页  →  攻略 → 《element td 暗塔攻略 进化td英雄塔

element td 暗塔攻略 进化td英雄塔

2023-06-03 19:13:13      小编:      我要评论

参见云栖社区大数据频道:https://yq.aliyun.com/big-data

R编程允许开发者通过内置函数和库构建可视化来描述数据。 在实现共享可视化技术之前,首先关注如何选择合适的图表类型。

选择合适的图表类型

有四种基本呈现类型:

Comparison

Composition

Distribution

Relationship

为了确定哪种与数据匹配,不妨从以下几个方面考虑:

图表中显示了多少变量?

每个变量显示多少数据点?

项目或组之间是基于时间显示值还是显示值?

下图恰到好处地描述了如何选择合适的图表类型,来自Andrew Abela博士之手。

在日常工作中,大多数人会遇到以下七张图表。

Scatter Plot

Histogram

Bar & Stack Bar Chart

Box Plot

Area Chart

Heat Map

Correlogram

以下将通过以下将通过Big Mart data”示例来了解如何在R中创建可视化,完整数据集可以从这里下载。

让我们了解如何在R中使用这些可视化

1. Scatter Plot

使用场景:Scatter Plot查看两个连续变量之间的关系。

在Mart data如果要根据其成本数据对项目进行可视化,可以使用两个连续变量的散点图,即Item_Visibility和Item_MRP,如下所示。

函数在这里使用ggplot()和geom_point()简单散点图的R代码。

library(ggplot2) // ggplot2 is an R library for visualizations train.ggplot(train, aes(Item_Visibility, Item_MRP)) geom_point() scale_x_continuous("Item Visibility", breaks = seq(0,0.35,0.05)) scale_y_continuous("Item MRP", breaks = seq(0,270,by = 30)) theme_bw()

现在,第三个变量可以在同一图表中查看,如分类变量(Item_Type),它将给出每个数据集的特征(item_type)。 在下图中,item_type不同的颜色表示不同的类别。

R代码加类别:

ggplot(train, aes(Item_Visibility, Item_MRP)) geom_point(aes(color = Item_Type)) scale_x_continuous("Item Visibility", breaks = seq(0,0.35,0.05)) scale_y_continuous("Item MRP", breaks = seq(0,270,by = 30)) theme_bw() labs(title="Scatterplot")

这里甚至可以单独为每一个Item_Type创建单独的散点图,使其更加直观清晰,如下所示。

单类图表的R代码:

ggplot(train, aes(Item_Visibility, Item_MRP)) geom_point(aes(color = Item_Type)) scale_x_continuous("Item Visibility", breaks = seq(0,0.35,0.05)) scale_y_continuous("Item MRP", breaks = seq(0,270,by = 30)) theme_bw() labs(title="Scatterplot") facet_wrap( ~ Item_Type)

在这里,facet_wrap展示矩形布局Item_Type。

2. Histogram

使用场景:Histogram用于绘制连续变量。它将数据分成数据仓库,并显示这些数据仓库的频率分布。它可以随时更改bin看看它对可视化的影响。

从Mart data如果您想了解项目成本计数,可以使用连续变量绘制直方图Item_MRP如下所示。

这里是使用函数ggplot()和geom_histogram()简单直方图的R代码。

ggplot(train, aes(Item_MRP)) geom_histogram(binwidth = 2) scale_x_continuous("Item MRP", breaks = seq(0,270,by = 30)) scale_y_continuous("Count", breaks = seq(0,200,by = 20)) labs(title = "Histogram")

3. Bar & Stack Bar Chart

使用场景:当您想绘制分类变量或连续变量和分类变量的组合时,建议使用Bar Charts。

从这个数据集中,如果你想知道在特定年份建立的货币数量,条形图将是最合适的选择,如下所示。

以下是使用函数ggplot()简单条形图的R代码,单个连续变量。

ggplot(train, aes(Outlet_Establishment_Year)) geom_bar(fill = "red") theme_bw() scale_x_continuous("Establishment Year", breaks = seq(1985,2010)) scale_y_continuous("Count", breaks = seq(0,1500,150)) coord_flip() labs(title = "Bar Chart") theme_gray()

Vertical Bar Chart:

作为变体,可以删除coord_flip()参数获取上述垂直条形图。

请使用以下代码:

ggplot(train, aes(Item_Type, Item_Weight)) geom_bar(stat = "identity", fill = "darkblue") scale_x_discrete("Outlet Type") scale_y_continuous("Item Weight", breaks = seq(0,15000, by = 500)) theme(axis.text.x = element_text(angle = 90, vjust = 0.5)) labs(title = "Bar Chart")

Stacked Bar chart:

Stacked Bar chart条形图的高级版本用于可视化分类变量的组合。

在这个数据集中,如果想知道基于分类变量如类型(Outlet Type)和位置(Outlet Location Type)的outlet数字,堆栈图将以最有用的方式显示场景。

下面是通过ggplot()函数实现简单堆叠条形图的R代码。

gplot(train, aes(Outlet_Location_Type, fill = Outlet_Type)) geom_bar() labs(title = "Stacked Bar Chart", x = "Outlet Location Type", y = "Count of Outlets")

4. Box Plot

使用场景:Box Plot用于绘制分类和连续变量的组合。 本图用于扩展和检测可视化数据的异常值。 它显示了五个统计数字——最小值、第25百分位数、中值、第75百分位数和最大值。

从数据集中每个出口的详细项目销售包括最小、最大和中间数字,Box Plot是可行的。 此外,它还给出了每个出口项目销售的异常值,如下图所示。

黑点是离群值。 检测和删除异常值是成功数据探索的关键步骤。以下是使用函数ggplot()和geom_boxplotR代码的简单框图。

ggplot(train, aes(Outlet_Identifier, Item_Outlet_Sales)) geom_boxplot(fill = "red") scale_y_continuous("Item Outlet Sales", breaks= seq(0,15000, by=500)) labs(title = "Box Plot", x = "Outlet Identifier")

5. Area Chart

使用场景:Area Chart用于显示变量或数据集的连续性。它与折线图非常相似,通常用于时间序列图。或者,它也用于绘制连续变量和分析潜在趋势。

在数据集中,当分析项目销售趋势时,面积图如下图所示。 它显示了销售点。

这里是简单区域图的R代码,显示项目出口销售的连续性,使用函数ggplot()和geom_area。

ggplot(train, aes(Item_Outlet_Sales)) geom_area(stat = "bin", bins = 30, fill = "steelblue") scale_x_continuous(breaks = seq(0,11000,1000)) labs(title = "Area Chart", x = "Item Outlet Sales", y = "Count")

6. Heat Map

使用场景:Heat Map二维图像中两个、三个或多个变量之间的关系用颜色的强度(密度)来显示。 它允许使用两个维度作为轴和第三个维度作为颜色强度。

在这个数据集中,如果你想知道每个出口项目的成本,你可以使用它Heat Map,使用从如下所示mart数据集中的三个变量项目MRP,出口标识符和项目类型。

暗部分表示项目MRP接近50。亮点指示项目MRP接近250。这里使用函数ggplot()简单热图的R代码。

ggplot(train, aes(Outlet_Identifier, Item_Type)) geom_raster(aes(fill = Item_MRP)) labs(title ="Heat Map", x = "Outlet Identifier", y = "Item Type") scale_fill_continuous(name = "Item MRP")

7. Correlogram

使用场景:Correlogram用于测试数据集中可用变量之间的相关性。矩阵单元可以用阴影或颜色显示共同关系值。

颜色越深,变量之间的相关性越高。 蓝色显示正相关,红色显示负相关。 颜色强度与相关值成正比。

如下图所示,检查项目成本、重量、可见性与出口年份和出口销售的共同关系。

从这个例子中可以看出,商品的成本和销量是正相关的,而商品的重量是负相关的。

这里是使用functioncorrgram()简单自相关图的R代码。

install.packages("corrgram")library(corrgram)corrgram(train, order=NULL, panel=panel.shade, text.panel=panel.txt, main="Correlogram")

通过这个教程,我相信你在R编程中使用它gplot2库已经理解了数据的可视化。

原文链接:7 Visualizations You Should Learn in R (作者/Dikesh Jariwala)

欢迎入的文章,欢迎关注云栖社区:https://yq.aliyun.com/cloud

  • 发表评论
资讯排行 资讯中心 热门专区 软件评测
软件排行榜 软件攻略 软件下载 软件开测表
软件排行榜 软件礼包 软件下载 新软件测表
安卓排行榜 软件视频 软件下载
苹果排行榜