数据集可能需要预处理技术来确保准确、高效或有意义的分析。数据清理指的是查找、删除和替换坏数据或丢失数据的方法。检测局部极值和突变有助于识别重要的数据趋势。平滑和去趋势化是消除噪声和线性变化的过程数据的趋势,而缩放改变了数据的界限。分组和分块方法是识别数据变量之间关系的技术。
处理数据集中缺少的值。
此示例演示如何查找、清理和删除缺少数据的表行。
消除数据中不必要的噪声或行为,并查找、填充和删除异常值。
从数据中删除线性趋势。
可以使用分组变量对数据变量进行分类。
此示例演示如何对数据进行分组,并将统计函数应用于每个组。
此示例演示如何对数据变量进行分组,并将函数应用于每个组。