Flink分区相关

0、要点

  Flink的分区列不会存数据,也就是两个列有一个分区列,则文件只会存另一个列的数据

1、CreateTable

  根据SQL的执行流程,进入TableEnvironmentImpl.executeInternal,createTable分支

} else if (operation instanceof CreateTableOperation) {CreateTableOperation createTableOperation = (CreateTableOperation) operation;if (createTableOperation.isTemporary()) {catalogManager.createTemporaryTable(createTableOperation.getCatalogTable(),createTableOperation.getTableIdentifier(),createTableOperation.isIgnoreIfExists());} else {catalogManager.createTable(createTableOperation.getCatalogTable(),createTableOperation.getTableIdentifier(),createTableOperation.isIgnoreIfExists());}return TableResultImpl.TABLE_RESULT_OK;

1.1 GenericInMemoryCatalog

  之后调用catalog.createTable,以GenericInMemoryCatalog来说,其中有几个分区的Map,但实际这里并不存储分区信息,可以看到,这里创建的是空表

} else {tables.put(tablePath, table.copy());if (isPartitionedTable(tablePath)) {partitions.put(tablePath, new LinkedHashMap<>());partitionStats.put(tablePath, new LinkedHashMap<>());partitionColumnStats.put(tablePath, new LinkedHashMap<>());}
}

1.2 Catalog中的分区Map

  partitionStats和partitionColumnStats是放一些统计信息的,partitions目前看是单独的分区操作时会用到,如createPartition(对应SQL语句ALTER TABLE ADD PARTITION),并且这一块存储的只有Alter语句里修改的partition信息,主要还是一些描述信息,并不是主要用于记录分区,信息来源在SqlToOperationConverter.convertAlterTable当中

for (int i = 0; i < addPartitions.getPartSpecs().size(); i++) {specs.add(new CatalogPartitionSpec(addPartitions.getPartitionKVs(i)));Map<String, String> props =OperationConverterUtils.extractProperties(addPartitions.getPartProps().get(i));partitions.add(new CatalogPartitionImpl(props, null));
}
return new AddPartitionsOperation(tableIdentifier, addPartitions.ifNotExists(), specs, partitions);

1.3 AbstractCatalogTable

  真正有用的信息是在table表的信息当中,核心在tables.put(tablePath, table.copy());这一句当中,table.copy()存储了表信息,最终调用到实现类CatalogTableImpl,其父类的构造函数有分区信息。表中存储了相应的分区信息,SQL最终操作的都是表,所以都是从这取的分区信息,注意这是一个StringList

public AbstractCatalogTable(TableSchema tableSchema,List<String> partitionKeys,Map<String, String> options,String comment) {this.tableSchema = checkNotNull(tableSchema, "tableSchema cannot be null");this.partitionKeys = checkNotNull(partitionKeys, "partitionKeys cannot be null");this.options = checkNotNull(options, "options cannot be null");

2、DescribeTable

  同样的在ableEnvironmentImpl.executeInternal,describe分支

} else if (operation instanceof DescribeTableOperation) {DescribeTableOperation describeTableOperation = (DescribeTableOperation) operation;Optional<ContextResolvedTable> result =catalogManager.getTable(describeTableOperation.getSqlIdentifier());if (result.isPresent()) {return buildDescribeResult(result.get().getResolvedSchema());} else {throw new ValidationException(String.format("Tables or views with the identifier '%s' doesn't exist",describeTableOperation.getSqlIdentifier().asSummaryString()));}

2.1 获取及解析表

  首先这边getTable方法,获取Table,由CatalogManager做入口,正常的表都是走的getPermanentTable

public Optional<ContextResolvedTable> getTable(ObjectIdentifier objectIdentifier) {CatalogBaseTable temporaryTable = temporaryTables.get(objectIdentifier);if (temporaryTable != null) {final ResolvedCatalogBaseTable<?> resolvedTable =resolveCatalogBaseTable(temporaryTable);return Optional.of(ContextResolvedTable.temporary(objectIdentifier, resolvedTable));} else {return getPermanentTable(objectIdentifier);}
}

  这里对Table进行了多层封装,最底层的还是来自GenericInMemoryCatalog当中,前面CreateTable的时候有一个tables的Map,这里就是从这个里面拿当时存储的Table类

public CatalogBaseTable getTable(ObjectPath tablePath) throws TableNotExistException {checkNotNull(tablePath);if (!tableExists(tablePath)) {throw new TableNotExistException(getName(), tablePath);} else {return tables.get(tablePath).copy();}
}

  返回到最上层前会对这个Table进行解析封装,在CatalogManager.resolveCatalogTable进行解析,这里有一个重要的点就是对分区的校验,必须对应表的列

// Validate partition keys are included in physical columns
final List<String> physicalColumns =resolvedSchema.getColumns().stream().filter(Column::isPhysical).map(Column::getName).collect(Collectors.toList());
table.getPartitionKeys().forEach(partitionKey -> {if (!physicalColumns.contains(partitionKey)) {throw new ValidationException(String.format("Invalid partition key '%s'. A partition key must "+ "reference a physical column in the schema. "+ "Available columns are: %s",partitionKey, physicalColumns));}});

2.2 返回信息

  最终构建返回信息,这里有一个关注点就是接口只传入了表的Schema信息,没有传入分区信息

return buildDescribeResult(result.get().getResolvedSchema());

  Describe返回控制台是一个表结构的形式,所以这里会构建一个表的格式

private TableResultInternal buildDescribeResult(ResolvedSchema schema) {Object[][] rows = buildTableColumns(schema);return buildResult(generateTableColumnsNames(), generateTableColumnsDataTypes(), rows);
}

  buildTableColumns是把Shema信息构建成行数据,因为Describe输出的表是有固定字段的,所以这里要对应固定字段填值
  具体的列名在generateTableColumnsNames当中指定,这个也是最后返回信息里的表头

private String[] generateTableColumnsNames() {return new String[] {"name", "type", "null", "key", "extras", "watermark"};
}

  generateTableColumnsDataTypes设置上面几个列的字段类型

private DataType[] generateTableColumnsDataTypes() {return new DataType[] {DataTypes.STRING(),DataTypes.STRING(),DataTypes.BOOLEAN(),DataTypes.STRING(),DataTypes.STRING(),DataTypes.STRING()};
}

  最终把Shema构建的行信息插入表中就构成了返回信息,是一个TableResultImpl的类型

private TableResultInternal buildResult(String[] headers, DataType[] types, Object[][] rows) {ResolvedSchema schema = ResolvedSchema.physical(headers, types);ResultProvider provider =new StaticResultProvider(Arrays.stream(rows).map(Row::of).collect(Collectors.toList()));return TableResultImpl.builder().resultKind(ResultKind.SUCCESS_WITH_CONTENT).schema(ResolvedSchema.physical(headers, types)).resultProvider(provider).setPrintStyle(PrintStyle.tableauWithDataInferredColumnWidths(schema,provider.getRowDataStringConverter(),Integer.MAX_VALUE,true,false)).build();
}

  整体的输出形态如下

±--------±-------±-----±----±-------±----------+
| name | type | null | key | extras | watermark |
±--------±-------±-----±----±-------±----------+
| user | BIGINT | TRUE | | | |
| product | STRING | TRUE | | | |
±--------±-------±-----±----±-------±----------+

3、Insert

3.1 封装SinkModifyOperation

  首先是封装SinkModifyOperation的时候,其中有表,在SqlToOperationConverter.convertSqlInsert当中,getTableOrError最终调用的跟前面describe获取表一样,从Catalog拿表并且对分区进行校验,这些步骤都不少,所以SinkModifyOperation里封装的contextResolvedTable是带分区信息的

ContextResolvedTable contextResolvedTable = catalogManager.getTableOrError(identifier);return new SinkModifyOperation(contextResolvedTable,query,insert.getStaticPartitionKVs(),insert.isOverwrite(),dynamicOptions);

3.2 转TableSink

  在SQL转换流程的PlannerBase.translateToRel当中,走catalogSink分支,在getTableSink接口调用时,走到TableFactoryUtil.findAndCreateTableSink

public static <T> TableSink<T> findAndCreateTableSink(TableSinkFactory.Context context) {try {return TableFactoryService.find(TableSinkFactory.class, context.getTable().toProperties()).createTableSink(context);} catch (Throwable t) {throw new TableException("findAndCreateTableSink failed.", t);}
}

  这里在toProperties接口当中,会把分区传入成为一项Property

public Map<String, String> toProperties() {DescriptorProperties descriptor = new DescriptorProperties(false);descriptor.putTableSchema(SCHEMA, getSchema());descriptor.putPartitionKeys(getPartitionKeys());Map<String, String> properties = new HashMap<>(getOptions());descriptor.putProperties(properties);return descriptor.asMap();
}

  在下一步的createTableSink接口调用的时候,也会调用到toProperties,但目前这个好像只有CSV的两个实现类,所以TableSink的具体过程待研究
  getTableSink最后调用的是createDynamicTableSink,这里面封装了table,就是跟前面一样的从catalog拿的表,所以这个表是包含分区信息的

val tableSink = FactoryUtil.createDynamicTableSink(factory,objectIdentifier,tableToFind,Collections.emptyMap(),getTableConfig,getFlinkContext.getClassLoader,isTemporary)

3.3 分区分配

  从文件数据源追踪下去,有一个分区分配器的类PartitionComputer,在fileconnector当中,有四个实现类,分别是file和hive的
  Sink在SQL转换的时候调用translateToPlanInternal,有构建SinkRuntimeProvider的流程,在CommonExecSink.createSinkTransformation

final SinkRuntimeProvider runtimeProvider =tableSink.getSinkRuntimeProvider(new SinkRuntimeProviderContext(isBounded));

  在FileSystemTableSink当中,最终构建了分区计算器

private DataStreamSink<RowData> createBatchSink(DataStream<RowData> inputStream, Context sinkContext, final int parallelism) {FileSystemOutputFormat.Builder<RowData> builder = new FileSystemOutputFormat.Builder<>();builder.setPartitionComputer(partitionComputer());private RowDataPartitionComputer partitionComputer() {return new RowDataPartitionComputer(defaultPartName,DataType.getFieldNames(physicalRowDataType).toArray(new String[0]),DataType.getFieldDataTypes(physicalRowDataType).toArray(new DataType[0]),partitionKeys.toArray(new String[0]));
}

  在这里面,会根据分区列名生成分区index用作后续使用,也就是必须跟列有对应关系,不过计算分区的时候还是用分区名的List

this.partitionIndexes =Arrays.stream(partitionColumns).mapToInt(columnList::indexOf).toArray();
this.partitionTypes =Arrays.stream(partitionIndexes).mapToObj(columnTypeList::get).toArray(LogicalType[]::new);
this.partitionFieldGetters =IntStream.range(0, partitionTypes.length).mapToObj(i ->RowData.createFieldGetter(partitionTypes[i], partitionIndexes[i])).toArray(RowData.FieldGetter[]::new);List<Integer> partitionIndexList =Arrays.stream(partitionIndexes).boxed().collect(Collectors.toList());

  generatePartValues会计算数据的分区,基于前面RowDataPartitionComputer初始化时基于分区构建的各种对象进行计算

public LinkedHashMap<String, String> generatePartValues(RowData in) {LinkedHashMap<String, String> partSpec = new LinkedHashMap<>();for (int i = 0; i < partitionIndexes.length; i++) {Object field = partitionFieldGetters[i].getFieldOrNull(in);String partitionValue = field != null ? field.toString() : null;if (partitionValue == null || "".equals(partitionValue)) {partitionValue = defaultPartValue;}partSpec.put(partitionColumns[i], partitionValue);}return partSpec;
}

  FileSystemTableSink最下层写的实现类是GroupedPartitionWriter和DynamicPartitionWriter,GroupedPartitionWriter的write如下

public void write(T in) throws Exception {String partition = generatePartitionPath(computer.generatePartValues(in));if (!partition.equals(currentPartition)) {if (currentFormat != null) {currentFormat.close();}currentFormat = context.createNewOutputFormat(manager.createPartitionDir(partition));currentPartition = partition;}currentFormat.writeRecord(computer.projectColumnsToWrite(in));
}

3.4 分区列不写数据

  RowDataPartitionComputer.projectColumnsToWrite计算需要写数据的列,也就是说只要这几列会写数据,核心就是去除分区列

for (int i = 0; i < nonPartitionIndexes.length; i++) {reuseRow.setField(i, nonPartitionFieldGetters[i].getFieldOrNull(in));
}
reuseRow.setRowKind(in.getRowKind());
return reuseRow;

  nonPartitionIndexes在构建RowDataPartitionComputer,可以看到,就是遍历列名,然后去除分区列

this.nonPartitionIndexes =IntStream.range(0, columnNames.length).filter(c -> !partitionIndexList.contains(c)).toArray();

3.5 分区目录

  在PartitionPathUtils.generatePartitionPath当中定义了分区目录的形式,以{列名=分区值的形式},因为目前key就是列名

for (Map.Entry<String, String> e : partitionSpec.entrySet()) {if (i > 0) {suffixBuf.append(Path.SEPARATOR);}suffixBuf.append(escapePathName(e.getKey()));suffixBuf.append('=');suffixBuf.append(escapePathName(e.getValue()));i++;
}

4、Select

  参照Sink的流程,在CommonExecTableSourceScan.translateToPlanInternal有构建Source的流程

final ScanTableSource tableSource =tableSourceSpec.getScanTableSource(planner.getFlinkContext());
ScanTableSource.ScanRuntimeProvider provider =tableSource.getScanRuntimeProvider(ScanRuntimeProviderContext.INSTANCE);

4.1 getScanTableSource

  在getScanTableSource接口当中,由createDynamicTableSource创建TableSource

tableSource =FactoryUtil.createDynamicTableSource(factory,contextResolvedTable.getIdentifier(),contextResolvedTable.getResolvedTable(),loadOptionsFromCatalogTable(contextResolvedTable, flinkContext),flinkContext.getTableConfig(),flinkContext.getClassLoader(),contextResolvedTable.isTemporary());

  以FileSystemTableFactory为例,最终创建FileSystemTableSource,其中传入的参数就有分区信息,分区信息同样是来自Catalog的表

public DynamicTableSource createDynamicTableSource(Context context) {FactoryUtil.TableFactoryHelper helper = FactoryUtil.createTableFactoryHelper(this, context);validate(helper);return new FileSystemTableSource(context.getObjectIdentifier(),context.getPhysicalRowDataType(),context.getCatalogTable().getPartitionKeys(),helper.getOptions(),discoverDecodingFormat(context, BulkReaderFormatFactory.class),discoverDecodingFormat(context, DeserializationFormatFactory.class));
}

4.2 getScanRuntimeProvider

  之后进行provider创建,是基于上面的FileSystemTableSource进行的调用,最终到它的getScanRuntimeProvider接口当中,内部有很多跟分区相关的操作
  首先是无分区就返回一个默认简单的类

// When this table has no partition, just return an empty source.
if (!partitionKeys.isEmpty() && getOrFetchPartitions().isEmpty()) {return InputFormatProvider.of(new CollectionInputFormat<>(new ArrayList<>(), null));
}

  后续又是用表的列字段对分区进行过滤

// Filter out partition columns not in producedDataType
final List<String> partitionKeysToExtract =DataType.getFieldNames(producedDataType).stream().filter(this.partitionKeys::contains).collect(Collectors.toList());

  后续这个过滤过的分区会被传入format,format是Flink最后执行读写的类(但是这里有些传了有些没传,需要看一下差别)
  format虽然不一样,但是最终都是调用的return createSourceProvider(format);,在createSourceProvider当中有获取分区的操作(不是分区key,是分区值)

private SourceProvider createSourceProvider(BulkFormat<RowData, FileSourceSplit> bulkFormat) {final FileSource.FileSourceBuilder<RowData> fileSourceBuilder =FileSource.forBulkFileFormat(bulkFormat, paths());

  这里的paths()就是基于remainingPartitions获取要读取的分区目录

private Path[] paths() {if (partitionKeys.isEmpty()) {return new Path[] {path};} else {return getOrFetchPartitions().stream().map(FileSystemTableSource.this::toFullLinkedPartSpec).map(PartitionPathUtils::generatePartitionPath).map(n -> new Path(path, n)).toArray(Path[]::new);}
}

4.3 remainingPartitions

  这个是分区下推使用的一个东西,当支持分区下推时,就会把这个值设置为分区,在PartitionPushDownSpec的apply当中
  这个不是存储的分区列,而是实际的分区值

public void apply(DynamicTableSource tableSource, SourceAbilityContext context) {if (tableSource instanceof SupportsPartitionPushDown) {((SupportsPartitionPushDown) tableSource).applyPartitions(partitions);} else {throw new TableException(String.format("%s does not support SupportsPartitionPushDown.",tableSource.getClass().getName()));}
}

  这里applyPartitions就是设置remainingPartitions的

public void applyPartitions(List<Map<String, String>> remainingPartitions) {this.remainingPartitions = remainingPartitions;
}

  还有其他的地方会进行设置,在getOrFetchPartitions当中

private List<Map<String, String>> getOrFetchPartitions() {if (remainingPartitions == null) {remainingPartitions = listPartitions().get();}return remainingPartitions;
}

  这里listPartitions就是去数据目录扫描分区

public Optional<List<Map<String, String>>> listPartitions() {try {return Optional.of(PartitionPathUtils.searchPartSpecAndPaths(path.getFileSystem(), path, partitionKeys.size()).stream().map(tuple2 -> tuple2.f0).map(spec -> {LinkedHashMap<String, String> ret = new LinkedHashMap<>();spec.forEach((k, v) ->ret.put(k,defaultPartName.equals(v)? null: v));return ret;}).collect(Collectors.toList()));} catch (Exception e) {throw new TableException("Fetch partitions fail.", e);}
}

5、分区下推

  能力由PartitionPushDownSpec决定,规则是PushPartitionIntoTableSourceScanRule
  分区信息同样的从catalog中的table上获取

List<String> partitionFieldNames =tableSourceTable.contextResolvedTable().<ResolvedCatalogTable>getResolvedTable().getPartitionKeys();

  之后从过滤条件中提取分区相关的条件

// extract partition predicates
RelBuilder relBuilder = call.builder();
RexBuilder rexBuilder = relBuilder.getRexBuilder();
Tuple2<Seq<RexNode>, Seq<RexNode>> allPredicates =RexNodeExtractor.extractPartitionPredicateList(filter.getCondition(),FlinkRelOptUtil.getMaxCnfNodeCount(scan),inputFieldNames.toArray(new String[0]),rexBuilder,partitionFieldNames.toArray(new String[0]));
RexNode partitionPredicate =RexUtil.composeConjunction(rexBuilder, JavaConversions.seqAsJavaList(allPredicates._1));

  之后获取分区列类型,这里又是从分区列获取的

// build pruner
LogicalType[] partitionFieldTypes =partitionFieldNames.stream().map(name -> {int index = inputFieldNames.indexOf(name);if (index < 0) {throw new TableException(String.format("Partitioned key '%s' isn't found in input columns. "+ "Validator should have checked that.",name));}return inputFieldTypes.getFieldList().get(index).getType();}).map(FlinkTypeFactory::toLogicalType).toArray(LogicalType[]::new);

  后续会进行分区过滤,这里就会生成上面的remainingPartitions,获取首先是调用TableSource的listPartitions,如果能直接获取到就用它的值,获取不到会进行一个获取逻辑处理readPartitionFromCatalogAndPrune,这里要注意分区条件已经被转换成了RexNode形态,最终过滤还是基于catalog,目前看只有HiveCatalog有处理逻辑

return catalog.listPartitionsByFilter(tablePath, partitionFilters).stream().map(CatalogPartitionSpec::getPartitionSpec).collect(Collectors.toList());

  之后,会基于上面的分区过滤,构建新的TableSourceTable,替换其中的tableStats

FlinkStatistic newStatistic =FlinkStatistic.builder().statistic(tableSourceTable.getStatistic()).tableStats(newTableStat).build();TableSourceTable newTableSourceTable =tableSourceTable.copy(dynamicTableSource,newStatistic,new SourceAbilitySpec[] {partitionPushDownSpec});LogicalTableScan newScan =LogicalTableScan.create(scan.getCluster(), newTableSourceTable, scan.getHints());

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/711293.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java-nio

一、NIO三大组件 NIO的三大组件分别是Channel&#xff0c;Buffer与Selector Java NIO系统的核心在于&#xff1a;通道(Channel)和缓冲区(Buffer)。通道表示打开到 IO 设备(例如&#xff1a;文件、套接字)的连接。若需要使用 NIO 系统&#xff0c;需要获取用于连接 IO 设备的通…

Spring的简单使用及内部实现原理

在现代的Java应用程序开发中&#xff0c;Spring Framework已经成为了不可或缺的工具之一。它提供了一种轻量级的、基于Java的解决方案&#xff0c;用于构建企业级应用程序和服务。本文将介绍Spring的简单使用方法&#xff0c;并深入探讨其内部实现原理。 首先&#xff0c;让我们…

mysql8.0使用MGR实现高可用

一、三节点MGR集群的安装部署 1. 安装准备 准备好下面三台服务器&#xff1a; IP端口角色192.168.150.213306mgr1192.168.150.223306mgr2192.168.150.233306mgr3 配置hosts解析 # cat >> /etc/hosts << EOF 192.168.150.21 mgr1 192.168.150.22 mgr2 192.168…

Windows环境下的调试器探究——硬件断点

与软件断点与内存断点不同&#xff0c;硬件断点不依赖被调试程序&#xff0c;而是依赖于CPU中的调试寄存器。 调试寄存器有7个&#xff0c;分别为Dr0~Dr7。 用户最多能够设置4个硬件断点&#xff0c;这是由于只有Dr0~Dr3用于存储线性地址。 其中&#xff0c;Dr4和Dr5是保留的…

java中容器继承体系

首先上图 源码解析 打开Collection接口源码&#xff0c;能够看到Collection接口是继承了Iterable接口。 public interface Collection<E> extends Iterable<E> { /** * ...... */ } 以下是Iterable接口源码及注释 /** * Implementing this inte…

makefileGDB使用

一、makefile 1、make && makefile makefile带来的好处就是——自动化编译&#xff0c;一旦写好&#xff0c;只需要一个make命令&#xff0c;整个工程完全自动编译&#xff0c;极大的提高了软件开发的效率 下面我们通过如下示例来进一步体会它们的作用&#xff1a; ①…

使用 Python 实现一个飞书/微信记账机器人,酷B了!

Python飞书文档机器人 今天的主题是&#xff1a;使用Python联动飞书文档机器人&#xff0c;实现一个专属的记账助手&#xff0c;这篇文章如果对你帮助极大&#xff0c;欢迎你分享给你的朋友、她、他&#xff0c;一起成长。 也欢迎大家留言&#xff0c;说说自己想看什么主题的…

代码随想录第天 78.子集 90.子集II

LeetCode 78 子集 题目描述 给你一个整数数组 nums &#xff0c;数组中的元素 互不相同 。返回该数组所有可能的子集&#xff08;幂集&#xff09;。 解集 不能 包含重复的子集。你可以按 任意顺序 返回解集。 示例 1&#xff1a; 输入&#xff1a;nums [1,2,3] 输出&…

LeetCode 2581.统计可能的树根数目:换根DP(树形DP)

【LetMeFly】2581.统计可能的树根数目&#xff1a;换根DP(树形DP) 力扣题目链接&#xff1a;https://leetcode.cn/problems/count-number-of-possible-root-nodes/ Alice 有一棵 n 个节点的树&#xff0c;节点编号为 0 到 n - 1 。树用一个长度为 n - 1 的二维整数数组 edges…

debian/ubuntu 编译安装nginx php

debian/ubuntu 编译安装nginx php tar -zxvf nginx-1.9.9.tar.gz apt-get install libpcre3 libpcre3-dev ./configure --prefix/work/nginx-1.9.9 --with-pcre make make install service iptables stop #关闭防火墙, 可能不需要 修改nginx运行用户为tboqi 抱着log目录可…

【通信基础知识】完整通信系统的流程图及各模块功能详解

2024.2.29 抱歉最近在写毕设大论文&#xff0c;因此没有太多时间更新。然而&#xff0c;在写论文的过程中&#xff0c;发现自己对通信系统的了解还不够全明白&#xff0c;因此差了一些硕博论文总结了一个完整的通信系统流程图。若有不对的地方请多多指正//部分内容有参考ChatGP…

【Elasticsearch管理】网络配置

文章目录 HTTP高级网络设置高级TCP设置 TransportTCP传输概要文件Transport跟踪 线程池fixed线程池fixed_auto_queue_sizescaling处理器设置 HTTP Elasticsearch只在默认情况下绑定到本地主机。对于运行本地开发服务器(如果在同一台机器上启动多个节点&#xff0c;甚至可以运行…

YOLOv7基础 | 第2种方式:简化网络结构之yolov7.yaml(由104层简化为30层)

前言:Hello大家好,我是小哥谈。通过下载YOLOv7源码可知,原始的yolov7.yaml文件是拆开写的,比较混乱,也不好理解,并且为后续改进增添了很多困难。基于此种情况,笔者就给大家介绍一种将yolov7.yaml文件简化的方法,将104层简化为30层,并且参数量和计算量和原来是一致的,…

内存占用构造方法

#使用虚拟内存构造内存消耗 mkdir /tmp/memory mount -t tmpfs -o size5G tmpfs /tmp/memory dd if/dev/zero of/tmp/memory/block #释放消耗的虚拟内存 rm -rf /tmp/memory/block umount /tmp/memory rmdir /tmp/memory #内存占用可直接在/dev/shm目录下写文件

《极客时间 - 左耳听风》【文章笔记个人思考】

《极客时间 - 左耳听风》原文链接&#xff1a;https://time.geekbang.org/column/intro/100002201?tabcatalog 10 | 如何成为一个大家愿意追随的Leader&#xff1f; 10 | 如何成为一个大家愿意追随的Leader&#xff1f; 这里的Leader是在技术上取得优势&#xff0c;而不是行政…

2024年2月个人工作生活总结

本文为 2024年2月工作生活总结。 研发编码 一些警告修正记录 这个月修正了个人所负责的工程警告&#xff0c;这些警告其实是前人的代码遗留的&#xff0c;我续写的代码&#xff0c;除printf函数的%d、%ld格式&#xff0c;都在写的过程中改了。 下面记录一些典型的警告及应对…

NLP(一)——概述

参考书: 《speech and language processing》《统计自然语言处理》 宗成庆 语言是思维的载体&#xff0c;自然语言处理相比其他信号较为特别 word2vec用到c语言 Question 预训练语言模型和其他模型的区别? 预训练模型是指在大规模数据上进行预训练的模型&#xff0c;通常…

测试环境搭建整套大数据系统(七:集群搭建kafka(2.13)+flink(1.13.6)+dinky(0.6)+iceberg)

一&#xff1a;搭建kafka。 1. 三台机器执行以下命令。 cd /opt wget wget https://dlcdn.apache.org/kafka/3.6.1/kafka_2.13-3.6.1.tgz tar zxvf kafka_2.13-3.6.1.tgz cd kafka_2.13-3.6.1/config vim server.properties修改以下俩内容 1.三台机器分别给予各自的broker_id…

git操作学习记录,简单易上手

配置git 的账户邮箱 $ git config --global user.name "Firstname Lastname" $ git config --global user.email "your_emailexample.com"代码回溯 git rest --hard [commit哈希值]git log命令只能查看以当前状态为终点的历史日志 git reflog命令&#x…

Python+neo4j构建豆瓣电影知识图谱

文章目录 数据来源数据整理导入节点和关系导入使用Subgraph批量导入节点和关系 多标签实体和实体去重 数据来源 http://www.openkg.cn/dataset/douban-movie-kg 该网址拥有丰富的中文知识图谱数据集&#xff0c;OpenKG(Open Knowledge Graph)&#xff0c;可供研究人员使用研究…