本次笔记整理了第一部分《探索》,具体函数的用法还是要去之前的笔记看一下
R 数据科学笔记:1
R 数据科学笔记:2
R 数据科学笔记:3
# 1.ggplot2 相关
gglpot2 绘图模板:
ggplot(data = <DATA>) +<GEOM_FUNCTION>(mapping = aes(<MAPPINGS>),stat = <STAT>,position = <POSITION>) +<FACET_FUNCTION>
真正的绘图命令(stat_ ,geom_ ,annotate),这三类就是实现一个函数一个图层的核心函数。
geom_abline 线图,由斜率和截距指定
geom_area 面积图(即连续的条形图)
geom_bar 条形图
geom_bin2d 二维封箱的热图
geom_blank 空的几何对象,什么也不画
geom_boxplot 箱线图
geom_contour 等高线图
geom_crossbar crossbar 图(类似于箱线图,但没有触须和极值点)
geom_density 密度图
geom_density2d 二维密度图
geom_errorbar 误差线(通常添加到其他图形上,比如柱状图、点图、线图等)
geom_errorbarh 水平误差线
geom_freqpoly 频率多边形(类似于直方图)
geom_hex 六边形图(通常用于六边形封箱)
geom_histogram 直方图
geom_hline 水平线
geom_jitter 点、自动添加了扰动
geom_line 线
geom_linerange 区间,用竖直线来表示
geom_path 几何路径,由一组点按顺序连接
geom_point 点
geom_pointrange 一条垂直线,线的中间有一个点(与 Crossbar 图和箱线图相关,可以用来表示线的范围)
geom_polygon 多边形
geom_quantile 一组分位数线(来自分位数回归)
geom_rect 二维的长方形
geom_ribbon 彩虹图(在连续的 x 值上表示 y 的范围,例如 Tufte 著名的拿破仑远征图)
geom_rug 触须
geom_segment 线段
geom_smooth 平滑的条件均值
geom_step 阶梯图
geom_text 文本
geom_tile 瓦片(即一个个的小长方形或多边形)
geom_vline 竖直线
统计变换函数
stat_abline 添加线条,用斜率和截距表示
stat_bin 分割数据,然后绘制直方图
stat_bin2d 二维密度图,用矩阵表示
stat_binhex 二维密度图,用六边形表示
stat_boxplot 绘制带触须的箱线图
stat_contour 绘制三维数据的等高线图
stat_density 绘制密度图
stat_density2d 绘制二维密度图
stat_function 添加函数曲线
stat_hline 添加水平线
stat_identity 绘制原始数据,不进行统计变换
stat_qq 绘制 Q-Q 图
stat_quantile 连续的分位线
stat_smooth 添加平滑曲线
stat_spoke 绘制有方向的数据点(由 x 和 y 指定位置,angle 指定角度)
stat_sum 绘制不重复的取值之和(通常用在三点图上)
stat_summary 绘制汇总数据
stat_unique 绘制不同的数值,去掉重复的数值
stat_vline 绘制竖直线
aes : 用于修改 geom_XXX () aes 参数控制了对哪些变量进行图形映射,图形属性(aes) 横纵坐标(x 与 y)、点的大小(size)、颜色(color),透明度(alpha)和形状(shape)等。
position: 定位函数。
position_dodge 并列。
position_fill 填充。
position_identity 不对位置进行处理。
position_jitter 扰动处理。
position_stack 堆叠处理。
coord:坐标函数。
coord_cartesian 笛卡儿坐标。
coord_equal 等尺度坐标(斜率为 1)。
coord_flip 翻转笛卡儿坐标。
coord_map 地图投影 。
coord_polar 极坐标投影 。
coord_trans 变换笛卡儿坐标。
# 2.dplyr 数据转换
1. 按行筛选:filter (): 按给定的逻辑判断筛选出符合要求的子数据集,类似于 subset () 函数
2. 按列筛选:select ():select () 用列名作参数来选择子数据集。
starts_with (“abc”) 匹配以 “abc” 开头的名称
ends_with (“xyz”) 匹配以 “xyz” 结尾的名称
ontains (“ijk”) 匹配包含 “ijk” 的名称
matches (“(.)\1”) 匹配正则表达式的那些变量
3. 排列行:arrange (): 改变行的顺序,如果列名不止一个,就使后面的列在前面的基础上进行排序
4. 添加新变量:mutate ():mutate 可以对数据框中已有的变量进行操作或者增加变量,如果只想保留新变量,可以使用 transmute () 函数
5. 分组摘要:summarize: 与 group_by () 连用可以构成 dplyr 的最常用操作之一:分组摘要,亦可以与 mutate () 和 filter () 结合。