我们付出一些成本,时间的或者其他,最终总能收获一些什么。
教程:CSV 入门
逗号分隔值 (CSV) 是一种以 ASCII 文件格式存储结构化信息的方法,从而使其成为一个非常简单的数据库。这使其成为电子表格、数据库和其他软件系统之间交换信息的非常流行的格式。
在 FME 中,CSV 被视为一种数据库格式。文件中的每一行都是一条记录,记录中的每个字段之间都有一个逗号(或其他)字符。
在 CSV 文件中,通常有一个标题行来提供字段的名称。FME 可用于将 CSV 数据转换为其他表格格式,例如 Excel、Oracle、SQL Server 或 XML。
查看和检查 CSV 数据
第 1 部分:检查表格数据
1.添加读模块,添加CSV格式的数据集
2.设置参数
在Visual Preview中检查数据之前,我们需要确保预期的格式正确。
在阅读器的“参数”中,在“字段”部分下,有三个参数:“分隔符”、“字段名称行”和“数据起始行”。分隔符是分隔 CSV 文件中每个属性的字符。通常,这设置为逗号“,”,但它也可以是其他字符,如分号“;”、管道“|”或制表符或多个空格。字段名称行是指读取后将用作属性标题(属性名称)的行。最后,数据起始行是指记录(属性值)开始的 CSV 行。
在此示例中,我们将分隔符设置为 auto,这将扫描文件中最常见的字符,并确定分隔符,在本例中,它将是一个逗号。请注意,在预览的顶部,前四行不是表的开头,而是有关表的标题信息。我们可以通过将字段名称行设置为 5 来忽略这些行,FME 会自动将数据起始行更改为 6。如果数据从不同的行开始,则可以手动设置。
最后,在单击“确定”之前,使用 CSV 时的一个好做法是更改将在读取器要素类型上显示的名称。默认情况下,“要素类型名称”设置为“从格式名称”,这将导致显示“CSV”。相反,将此参数更改为 From File Name(s),这将会显示文件的名称。当画布上有多个 CSV 阅读器时,这很有用。
3. 打开视觉预览
第 2 部分:检查空间数据
1.添加读模块,添加CSV格式的带经纬度坐标的空间数据集
2. 查看参数
在 CSV 参数中,我们需要确认 x 和 y 坐标设置正确,然后才能继续。FME 可以自动检测格式在数据集中何时具有纬度和经度坐标,并自动将它们分别设置为 y_coord 和 x_coord。在“参数”对话框的“属性”部分下,确保“纬度”和“经度”已y_coord,x_coord指定为值。如果没有,请将“属性定义”设置为“手动”,然后更正“值”。
将要素类型名称更改为“从文件名”,然后单击“确定”
3. 设置坐标系
我们需要定义坐标系,在坐标中输入 LL84
4. 打开可视化预览
如何将CSV转换为Microsoft Excel
1.添加读模块
将新的 Reader 添加到画布,并将格式设置为 CSV。对于数据集并选择附加的CellSignals-Small.csv文件,然后设置坐标。系统符合 LL84。在参数中,确认“纬度”和“经度属性”分别设置了值 y_coord 和 x_coord。
2.使用 AttributeSplitter 转换器拆分字段(属性)
在参数中,将“属性”设置为“拆分为代码”,将“格式字符串”设置为 3s15s。
格式字符串使用 #s#s#s 格式 - 定义每个部分宽度的整数,用“s”字符分隔。这会将字段(属性)拆分为前导三个字符和尾随字符(最多 15 个),并将它们填充到列表数组中。
3. 使用 AttributeManager 转换器设置字段(属性)
4.添加编写器并设置参数
将 Microsoft Excel 编写器添加到画布,将文件另存为 CellSignals.xlsx。
我们希望为数据集中显示的每个 ID 创建一个新的 Excel 工作表,例如 ABC、ABD、TXU 和 TXV。我们可以通过执行特征类型扇出来实现这一点。打开写入器参数,然后为工作表名称输入 @Value(ID)。然后切换到“用户属性”选项卡。
5.运行后成果预览
属性处理示例工作空间(CSV 到 MapInfo)
1. 读取 DataPoints CSV 文件
将 CSV 阅读器添加到画布,以 CellSignals.csv 形式阅读。在参数中,将经度和纬度的数据类型分别设置为x_coordinate和y_coordinate。将坐标系设置为 LL84,然后单击确定。
2. 测试空值、缺失值或空值
将 NullAttributeMapper 转换器添加到工作区。NullAttributeMapper 转换器用于评估 null、missing 或空值的选定属性,将这些属性值映射到新值“missing”,并将新映射的缺失值路由到检查器进行进一步评估。
3. 删除缺失值
现在我们已经映射了所有 null、missing 或 empty 值以读取为缺失值,我们可以轻松地将它们过滤掉。将 Tester 转换器添加到画布中。测试转换器用于评估对特征的一个或多个测试。我们将使用测试器来测试纬度、经度、功率、质量和num_measures是否包含缺失值。在 Tester 参数中,将 Left Value 设置为 latitude,将 Operator 设置为 Is Missing,然后启用 Negate,对 longitude、Power、Quality 和 num_measures 重复此操作,您可以使用 Duplicate 按钮并更改属性。最后,将“通过条件”设置为“所有测试 (AND)”。
4.删除重复项
我们有很多记录,有时会发生重复,幸运的是,我们可以使用 DuplicateFilter 轻松删除重复的纬度/经度对。添加 DuplicateFilter 并将其连接到测试器上的 Passed Output 端口。打开参数,对于关键属性,选择纬度和经度。
5. 格式化日期
接下来,我们需要重新格式化日期字段record_tstamp因为它包含小时和分钟,我们只对日期感兴趣。为此,我们将使用 DateTimeConverter 转换器,它用于获取以特定方式格式化的输入日期/时间,并以另一种方式输出。为了使 DateTimeConverter 正常工作,您需要知道输入日期的格式设置方式,因此最好事先检查数据。
record_tstamp的格式为 2011 年 4 月 12 日 1:04,这意味着日期可以包含一个或两个值,月份可以包含一个或两个值,年份是全年,小时包含一个或两个 24 小时格式的值,分钟包含两个值。对于输入格式,这看起来像这样:
%e/%N/%Y %k:%M
我们希望日期有两个值,月份有两个值,年份为满,都用反斜杠分隔,看起来像 04/12/2011,对于输出格式,它是:
%m/%d/%Y
若要找出所需的查询,DateTimeConverter 参数中有一个快速参考菜单。
在 DateTimeConverter 中,将输入格式设置为 %e/%N/%Y %k:%M,将输出格式设置为 %m/%d/%Y