模型库
模型库用于管理由HuggingFists系统自己生成的或者外部导入的各种模型。如:HuggingFace网站提供的各类模型可导入该模块进行统一管理及部署。该功能目前在HuggingFists的社区版中并未提供。
环境管理
环境管理-工作节点
环境管理-服务配置
环境管理主要用于与使用者的环境进行整合,最大限度的整合使用者已具备的各类能力。这种整合即可以提升工程实施效率又可以节省实施成本。
环境管理目前包括:集群、工作节点以及服务配置三个子模块。其中集群模块在HuggingFists的社区版中并未提供。该模块主要用于整合使用者环境中的计算集群,方便调度运行基于Spark、Flink计算框架编写的流程。
工作节点用于管理HuggingFists的计算节点,用于解释执行基于算子定义的数据处理或分析流程。HuggingFists的社区版缺省状况下只安装了一个单机计算节点,其企业版支持安装管理多计算节点。当使用者流程众多且需要并发调度时,可以将流程交给不同的计算节点并发运行。
服务配置用于管理各类连接器、算子运行时所需的公共服务。如:Http代理等。
环境管理介绍完了,下面我们看一下资源库管理。
资源库
资源库管理包括连接器库、算子库以及Prompt(提示)库三种类型的库。
连接器库
连接器库用于注册管理各类连接器。连接器是HuggingFists中的一种特殊插件,通过连接器可以创建与各类存储系统的数据连接。每种数据源都有一个专属的连接器。连接器分为四类,如我们在数据源中介绍的,数据源分为数据库、文件系统、事件流以及应用系统四类。连接器的类型与此一一对应。
HuggingFists系统提供了一套连接器的开发标准,目前尚未开放。等标准开放后,开发者可以依此标准扩展打包不同的连接器。并通过“上传”按钮注册连接器。连接器注册成功后,在数据源管理模块就可以看到连接器所注册的数据源类型并可创建对应的数据源了。
算子库
再看一下算子库。算子库用于注册管理各类算子。HuggingFists提供的算子主要分为:输入、输出、读取、写出、处理、分析、资源、控制以及动作9类。算子库以算子类型作为分组标准对算子进行分组管理。
- 输入算子用于从数据源读取数据;输出算子用于向数据源写出数据;当一个流程中一般每增加一个连接器就会配套增加一对输入、输出算子。
- 资源算子用于优化输入、输出时的资源占用,如数据库连接算子,当某个流程中需要读写同一数据库时,可以加入一个数据库连接算子,使数据库的读写算子复用同一数据连接。
- 读取算子用于特定格式文件;写出算子用于写出特定格式的文件。
- 处理算子用于实现对数据的各类处理,这是算子库中最丰富的一类算子。
- 分析算子封装了各类分析算法,用于实现对数据的模型训练,如:分类、聚类等算法。
- 控制算子用于控制数据流的流转逻辑。如:条件控制算子、数据集复制算子等。
- 动作算子用于完成特定功能的操作,如:表清空操作、文件删除操作等。
使用者可以通过“检索”页面检索所需的算子,了解算子的用法。
Prompt库
再看一下Prompt提示库。该库主要用于管理提示工程中的“提示”。如今“提示”是使用者与LLM交互的桥梁。使用者通过向LLM输入提示信息来驱动模型完成指定的工作。由于LLM内部知识呈现黑盒特征,且不同的LLM间也有差异。所以使用者需要“提示工程”来设计和积累输入何种提示信息能够让LLM按照使用者的要求输出结果。
HuggingFists给出了提示库管理功能,可以帮助用户不断积累提示模板。支持使用者对提示模板进行分组管理;支持使用者设置提示模板可以应用的模型族系、类型等信息。
HuggingFists是目前为数不多能够提供提示模板积累并可以直接应用的工具。
总结
HuggingFists系统的基本功能我们介绍完了。感兴趣的朋友可以安装并试用下了。通过本次介绍,使用者应该可以自行搭建自己的数据处理或分析流程了。至于HuggingFists系统还有很多应用细节,我们后续将再做专题介绍。在此之前,大家也可以自行点击摸索使用,期间大家碰到什么问题或有任何建议可以扫描下面的二维码加入群组与我们一起讨论。