大文件和大数据

访问和处理文件和大数据集的集合

大数据集可以以大文件的形式存在,这些文件无法装入可用内存,或者需要很长时间处理的文件。一个大数据集也可以是许多小文件的集合。没有单一的方法来处理大数据集,所以MATLAB®包括许多用于访问和处理大数据的工具。

首先创建一个每次只能访问一小部分数据的数据存储。您可以使用数据存储来管理数据的增量导入。使用常用的MATLAB函数对数据进行分析,如的意思是柱状图,在数据存储的顶部创建一个tall数组。对于更复杂的问题,您可以编写一个MapReduce算法来定义数据的分块和精简。