pandas 对某一行标准化_Python中的神器Pandas,但是有人说Pandas慢...

a8304d855fb7cacda61011b54f131fb9.png

如果你从事大数据工作,用Python的Pandas库时会发现很多惊喜。Pandas在数据科学和分析领域扮演越来越重要的角色,尤其是对于从Excel和VBA转向Python的用户。

所以,对于数据科学家,数据分析师,数据工程师,Pandas是什么呢?Pandas文档里的对它的介绍是:“快速、灵活、和易于理解的数据结构,以此让处理关系型数据和带有标签的数据时更简单直观。”

快速、灵活、简单和直观,这些都是很好的特性。当你构建复杂的数据模型时,不需要再花大量的开发时间在等待数据处理的任务上了。这样可以将更多的精力集中去理解数据。

但是,有人说Pandas慢…

第一次使用Pandas时,有人评论说:Pandas是很棒的解析数据的工具,但是Pandas太慢了,无法用于统计建模。第一次使用的时候,确实如此,真的慢。

但是,Pandas是建立在NumPy数组结构之上的。所以它的很多操作通过NumPy或者Pandas自带的扩展模块编写,这些模块用Cython编写并编译到C,并且在C上执行。因此,Pandas不也应该很快的吗?

事实上,使用姿势正确的话,Pandas确实很快。

在使用Pandas时,使用纯“python”式代码并不是最效率的选择。和NumPy一样,Pandas专为向量化操作而设计,它可在一次扫描中完成对整列或者数据集的操作。而单独处理每个单元格或某一行这种遍历的行为,应该作为备用选择。

772eb0a23a75b2abbd3394e260bc4587.png

本教程

4bb31276e88bb4aae06e0ecc067278d3.png

先说明下,本教程不是引导如何过度优化Pandas代码。因为Pandas在正确的使用下已经很快了。此外,优化代码和编写清晰的代码之间的差异是巨大的。

这是一篇关于“如何充分利用Pandas内置的强大且易于上手的特性”的指引。此外,你将学习到一些实用的节省时间的技巧。在这篇教程中,你将学习到:

· 使用datetime时间序列数据的优势

· 处理批量计算更效率的方法

· 利用HDFStore节省时间

在本文中,耗电量时间序列数据将被用于演示本主题。加载数据后,我们将逐步了解更有效率的方法取得最终结果。对于Pandas用户而言,会有多种方法预处理数据。但是这不意味着所有方法都适用于更大、更复杂的数据集。

任务

4bb31276e88bb4aae06e0ecc067278d3.png

本例使用能源消耗的时间序列数据计算一年能源的总成本。由于不同时间段的电价不同,因此需要将各时段的耗电量乘上对应时段的电价。

从CSV文件中可以读取到两列数据:日期时间和电力消耗(千瓦)

e4066d99c10ce3e48d5a462150478925.png

每行数据中都包含每小时耗电量数据,因此整年会产生8760(356×24)行数据。每行的小时数据表示计算的开始时间,因此1/1/13 0:00的数据指1月1号第1个小时的耗电量数据。 

用Datetime类节省时间 

4bb31276e88bb4aae06e0ecc067278d3.png

首先用Pandas的一个I/O函数读取CSV文件:

>>> import pandas as pd
>>> pd.__version__
'0.23.1'

>>> df = pd.read_csv('文件路径')
>>> df.head()
     date_time  energy_kwh
0  1/1/13 0:00       0.586
1  1/1/13 1:00       0.580
2  1/1/13 2:00       0.572
3  1/1/13 3:00       0.596
4  1/1/13 4:00       0.592

这结果看上去挺好,但是有个小问题。Pandas 和NumPy有个数据类型dtypes概念。假如不指定参数的话,date_time这列将会被归为默认类object

>>> df.dtypes
date_time      object
energy_kwh    float64
dtype: object

>>> type(df.iat[0, 0])
str

默认类object不仅是str类的容器,而且不能齐整的适用于某一种数据类型。字符串str类型的日期在数据处理中是非常低效的,同时内存效率也是低下的。

为了处理时间序列数据,需要将date_time列格式化为datetime类的数组,Pandas 称这种数据类型为时间戳Timestamp。用Pandas进行格式化相当简单:

>>> df['date_time'] = pd.to_datetime(df['date_time'])
>>> df['date_time'].dtype
datetime64[ns]

至此,新的df和CSV file内容基本一样。它有两列和一个索引。

>>> df.head()
               date_time    energy_kwh
0    2013-01-01 00:00:00         0.586
1    2013-01-01 01:00:00         0.580
2    2013-01-01 02:00:00         0.572
3    2013-01-01 03:00:00         0.596
4    2013-01-01 04:00:00         0.592

上述代码简单且易懂,但是有执行速度如何呢?这里我们使用了timing装饰器,这里将装饰器称为@timeit。这个装饰器模仿了Python标准库中的timeit.repeat() 方法,但是它可以返回函数的结果,并且打印多次重复调试的平均运行时间。Python的timeit.repeat() 只返回调试时间结果,但不返回函数结果。

将装饰器@timeit放在函数上方,每次运行函数时可以同时打印该函数的运行时间。

>>> @timeit(repeat=3, number=10)
... def convert(df, column_name):
...     return pd.to_datetime(df[column_name])

>>> # Read in again so that we have `object` dtype to start 
>>> df['date_time'] = convert(df, 'date_time')
Best of 3 trials with 10 function calls per trial:
Function `convert` ran in average of 1.610 seconds.

看结果如何?处理8760行数据耗时1.6秒。这似乎没啥毛病。但是当处理更大的数据集时,比如计算更高频的电费数据,给出每分钟的电费数据去计算一整年的总成本。数据量会比现在多60倍,这意味着你需要大约90秒去等待输出的结果。这就有点忍不了了。

实际上,作者工作中需要分析330个站点过去10年的每小时电力数据。按上边的方法,需要88分钟完成时间列的格式化转换。

有更快的方法吗?一般来说,Pandas可以更快的转换你的数据。在本例中,使用格式参数将csv文件中特定的时间格式传入Pandas的to_datetime中,可以大幅的提升处理效率。

>>> @timeit(repeat=3, number=100)
>>> def convert_with_format(df, column_name):
...     return pd.to_datetime(df[column_name],
...                           format='%d/%m/%y %H:%M')
Best of 3 trials with 100 function calls per trial:
Function `convert_with_format` ran in average of 0.032 seconds.

新的结果如何?0.032秒,速度提升了50倍!所以之前330站点的数据处理时间节省了86分钟。

一个需要注意的细节是CSV中的时间格式不是ISO 8601格式:YYYY-mm-dd HH:MM。如果没有指定格式,Pandas将使用dateuil包将每个字符串格式的日期格式化。相反,如果原始的时间格式已经是ISO 8601格式了,Pandas可以快速的解析日期。

遍历

4bb31276e88bb4aae06e0ecc067278d3.png

日期时间已经完成格式化,现在准备开始计算电费了。由于每个时段的电价不同,因此需要将对应的电价映射到各个时段。此例中,电价收费标准如下:

b0e584191e9e478b7c42140030f52b1c.png

如果电价全天统一价28美分每千瓦每小时,大多数人都知道可以一行代码实现电费的计算:

>>> df['cost_cents'] = df['energy_kwh'] * 28

这行代码将创建一行新列,该列包含当前时段的电费:

              date_time    energy_kwh       cost_cents
0    2013-01-01 00:00:00         0.586           16.408
1    2013-01-01 01:00:00         0.580           16.240
2    2013-01-01 02:00:00         0.572           16.016
3    2013-01-01 03:00:00         0.596           16.688
4    2013-01-01 04:00:00         0.592           16.576
# ...

但是电费的计算取决于不用的时段对应的电价。这里许多人会用非Pandas式的方式:用遍历去完成这类计算。

在本文中,将从最基础的解决方案开始介绍,并逐步提供充分利用Pandas性能优势的Python式解决方案。

但是对于Pandas库来说,什么是Python式方案?这里是指相比其他友好性较差的语言如C++或者Java,它们已经习惯了“运用遍历”去编程。

如果不熟悉Pandas,大多数人会像以前一样使用继续遍历方法。这里继续使用@timeit装饰器来看看这种方法的效率。

首先,创建一个不同时段电价的函数:

def apply_tariff(kwh, hour):
    """电价函数"""    
    if 0 <= hour 7:
        rate = 12
    elif 7 <= hour 17:
        rate = 20
    elif 17 <= hour 24:
        rate = 28
    else:
        raise ValueError(f'Invalid hour: {hour}')
    return rate * kwh

如下代码就是一种常见的遍历模式:

>>> # 注意:不要尝试该函数!
>>> @timeit(repeat=3, number=100)
... def apply_tariff_loop(df):
...     """用遍历计算成本,将结果并入到df中"""
...     energy_cost_list = []
...     for i in range(len(df)):
...         # 获取每个小时的耗电量
...         energy_used = df.iloc[i]['energy_kwh']
...         hour = df.iloc[i]['date_time'].hour
...         energy_cost = apply_tariff(energy_used, hour)
...         energy_cost_list.append(energy_cost)
...     df['cost_cents'] = energy_cost_list
... 
>>> apply_tariff_loop(df)
Best of 3 trials with 100 function calls per trial:
Function `apply_tariff_loop` ran in average of 3.152 seconds.

对于没有用过Pandas的Python用户来说,这种遍历很正常:对于每个x,再给定条件y下,输出z。

但是这种遍历很笨重。可以将上述例子视为Pandas用法的“反面案例”,原因如下几个。

首先,它需要初始化一个列表用于存储输出结果。

其次,它用了隐晦难懂的类range(0, len(df))去做循环,接着在应用apply_tariff()函数后,还必须将结果增加到列表中用于生成新的DataFrame列。

最后,它还使用链式索引df.iloc[i]['date_time'],这可能会生产出很多bugs

这种遍历方式最大的问题在于计算的时间成本。对于8760行数据,花了3秒钟完成遍历。下面,来看看一些基于Pandas数据结构的迭代方案。

用.itertuples()和.iterrow()遍历

4bb31276e88bb4aae06e0ecc067278d3.png

还有其他办法吗?

Pandas实际上通过引入DataFrame.itertuples()DataFrame.iterrows()方法使得for i in range(len(df))语法冗余。这两种都是产生一次一行的生成器方法。

.itertuples()为每行生成一个nametuple类,行的索引值作为nametuple类的第一个元素。nametuple是来自Python的collections模块的数据结构,该结构和Python中的元组类似,但是可以通过属性查找可访问字段。

.iterrows()为DataFrame的每行生成一组由索引和序列组成的元组。

.iterrows()相比,.itertuples()运行速度会更快一些。本例中使用了.iterrows()方法,因为很多读者很可能没有用过nametuple

>>> @timeit(repeat=3, number=100)
... def apply_tariff_iterrows(df):
...     energy_cost_list = []
...     for index, row in df.iterrows():
...         #获取每个小时的耗电量
...         energy_used = row['energy_kwh']
...         hour = row['date_time'].hour
...         # 增加成本数据到list列表
...         energy_cost = apply_tariff(energy_used, hour)
...         energy_cost_list.append(energy_cost)
...     df['cost_cents'] = energy_cost_list
...
>>> apply_tariff_iterrows(df)
Best of 3 trials with 100 function calls per trial:
Function `apply_tariff_iterrows` ran in average of 0.713 seconds.

取得一些不错的进步。语法更清晰,少了行值i的引用,整体更具有可读性了。在时间收益方面,几乎快了5倍!

但是,仍然有很大的改进空间。由于仍然在使用for遍历,意味着每循环一次都需要调用一次函数,而这些本可以在速度更快的Pandas内置架构中完成。

Pandas的.apply()

4bb31276e88bb4aae06e0ecc067278d3.png

可以用.apply()方法替代.iterrows()方法提升效率。Pandas的.apply()方法可以传入可调用的函数并且应用于DataFrame的轴上,即所有行或列。此例中,借助lambda功能将两列数据传入apply_tariff()

>>> @timeit(repeat=3, number=100)
... def apply_tariff_withapply(df):
...     df['cost_cents'] = df.apply(
...         lambda row: apply_tariff(
...             kwh=row['energy_kwh'],
...             hour=row['date_time'].hour),
...         axis=1)
...
>>> apply_tariff_withapply(df)
Best of 3 trials with 100 function calls per trial:
Function `apply_tariff_withapply` ran in average of 0.272 seconds.

.apply()的语法优势很明显,代码行数少了,同时代码也更易读了。运行速度方面,这与.iterrows()方法相比节省了大约一半时间。

但是,这还不够快。一个原因是.apply()内部尝试在Cython迭代器上完成循环。但是在这种情况下,lambda中传递了一些无法在Cython中处理的输入,因此调用.apply()时仍然不够快。

如果使用.apply()在330个站点的10年数据上,这大概得花15分钟的处理时间。假如这个计算仅仅是一个大型模型的一小部分,那么还需要更多的提升。下面的向量化操作可以做到这点。

用.isin()筛选数据

4bb31276e88bb4aae06e0ecc067278d3.png

之前看到的如果只有单一电价,可以将所有电力消耗数据乘以该价格df['energy_kwh'] * 28。这种操作就是一种向量化操作的一个用例,这是Pandas中最快的方式。

但是,在Pandas中如何将有条件的计算应用在向量化操作中呢?一种方法是,根据条件将DataFrame进行筛选并分组和切片,然后对每组数据进行对应的向量化操作。

在下面的例子中,将展示如何使用Pandas中的.isin()方法筛选行,然后用向量化操作计算对应的电费。在此操作前,将date_time列设置为DataFrame索引便于向量化操作:

df.set_index('date_time', inplace=True)

@timeit(repeat=3, number=100)
def apply_tariff_isin(df):
    # 定义每个时段的布尔型数组(Boolean)
    peak_hours = df.index.hour.isin(range(17, 24))
    shoulder_hours = df.index.hour.isin(range(7, 17))
    off_peak_hours = df.index.hour.isin(range(0, 7)) 

    # 计算不同时段的电费
    df.loc[peak_hours, 'cost_cents'] = df.loc[peak_hours, 'energy_kwh'] * 28
    df.loc[shoulder_hours,'cost_cents'] = df.loc[shoulder_hours, 'energy_kwh'] * 20
    df.loc[off_peak_hours,'cost_cents'] = df.loc[off_peak_hours, 'energy_kwh'] * 12

执行结果如下:

>>> apply_tariff_isin(df)
Best of 3 trials with 100 function calls per trial:
Function `apply_tariff_isin` ran in average of 0.010 seconds.

要理解这段代码,也许需要先了解.isin()方法返回的是布尔值,如下:

[False, False, False, ..., True, True, True]

这些布尔值标记了DataFrame日期时间索引所在的时段。然后,将这些布尔值数组传给DataFrame的.loc索引器时,会返回一个仅包含该时段的DataFrame切片。最后,将该切片数组乘以对应的时段的费率即可。

这与之前的遍历方法相比如何?

首先,不需要apply_tariff()函数了,因为所有的条件逻辑都被应用在了被选中的行。这大大减少了代码的行数。在速度方面,比普通的遍历快了315倍,比.iterrows()方法快了71倍,且比.apply()方法快了27倍。现在可以快速的处理大数据集了。

还有提升空间吗?

4bb31276e88bb4aae06e0ecc067278d3.png

apply_tariff_isin()中,需要手动调用三次df.locdf.index.hour.isin()。比如24小时每个小时的费率不同,这意味着需要手动调用24次.isin()方法,所以这种方案通常不具有扩展性。幸运的是,还可以使用Pandas的pd.cut()功能:

@timeit(repeat=3, number=100)
def apply_tariff_cut(df):
    cents_per_kwh = pd.cut(x=df.index.hour,
                           bins=[0, 7, 17, 24],
                           include_lowest=True,
                           labels=[12, 20, 28]).astype(int)
    df['cost_cents'] = cents_per_kwh * df['energy_kwh']

 pd.cut()根据分组bins产生的区间生成对应的标签“费率”。

【注】include_lowest参数设定第一个间隔是否包含在组bins中,例如想要在该组中包含时间在0时点的数据。

这是种完全向量化的操作,它的执行速度已经起飞了:

>>> apply_tariff_cut(df)
Best of 3 trials with 100 function calls per trial:
Function `apply_tariff_cut` ran in average of 0.003 seconds.

至此,现在可以将330个站点的数据处理时间从88分钟缩小到只需不到1秒。但是,还有最后一个选择,就是使用NumPy库来操作DataFrame下的每个NumPy数组,然后将处理结果集成回DataFrame数据结构中。

还有NumPy!

4bb31276e88bb4aae06e0ecc067278d3.png

别忘了Pandas的Series和DataFrame是在NumPy库的基础上设计的。这提供了更多的灵活性,因为Pandas和NumPy数组可以无缝操作。

在下一例中,将演示NumPydigitize()功能。它和Pandas的cut()功能类似,将数据分组。本例中将DataFrame中的索引(日期时间)进行分组,将三个时段分入三组。然后将分组后的电力消耗数组应用在电价数组上:

@timeit(repeat=3, number=100)
def apply_tariff_digitize(df):
    prices = np.array([12, 20, 28])
    bins = np.digitize(df.index.hour.values, bins=[7, 17, 24])
    df['cost_cents'] = prices[bins] * df['energy_kwh'].values

cut()一样,语法简单易读。但是速度如何呢?

>>> apply_tariff_digitize(df)
Best of 3 trials with 100 function calls per trial:
Function `apply_tariff_digitize` ran in average of 0.002 seconds.

 执行速度上,仍然有提升,但是这种提升已经意义不大了。不如将更多精力去思考其他的事情。

Pandas可以提供很多批量处理数据方法的备用选项,这些已经在上边都一一演示过了。这里将最快到最慢的方法排序如下:

1. 使用向量化操作:没有for遍历的Pandas方法和函数。

2. 使用.apply()方法。

3. 使用.itertuples():将DataFrame行作为nametuple类从Python的collections模块中进行迭代。

4. 使用.iterrows():将DataFrame行作为(index,pd.Series)元组数组进行迭代。虽然Pandas的Series是一种灵活的数据结构,但将每一行生成一个Series并且访问它,仍然是一个比较大的开销。

5. 对逐个元素进行循环,使用df.loc或者df.iloc对每个单元格或者行进行处理。

以下是本文中所有函数的调试时间汇总:

7c45136868765a7e812f95b5167076cd.png

用HDFstore存储预处理数据

4bb31276e88bb4aae06e0ecc067278d3.png

已经了解了用Pandas快速处理数据,现在我们需要探讨如何避免重复的数据处理过程。这里使用了Pandas内置的HDFStore方法。

通常在建立一些复杂的数据模型时,对数据做一些预处理是很常见的。例如,假如有10年时间跨度的分钟级的高频数据,但是模型只需要20分钟频次的数据或者其他低频次数据。你不希望每次测试分析模型时都需要预处理数据。

一种方案是,将已经完成预处理的数据存储在已处理数据表中,方便需要时随时调用。但是如何以正确的格式存储数据?如果将预处理数据另存为CSV,那么会丢失datetime类,再次读入时必须重新转换格式。

Pandas有个内置的解决方案,它使用HDF5,这是一种专门用于存储数组的高性能存储格式。Pandas的HDFstore方法可以将DataFrame存储在HDF5文件中,可以有效读写,同时仍然保留DataFrame各列的数据类型和其他元数据。它是一个类似字典的类,因此可以像Python中的dict类一样读写。

以下是将已经预处理的耗电量DataFrame写入HDF5文件的方法:

# 创建存储类文件并命名 `processed_data`
data_store = pd.HDFStore('processed_data.h5')

#将DataFrame写入存储文件中,并设置键(key) 'preprocessed_df'
data_store['preprocessed_df'] = df
data_store.close()

将数据存储在硬盘以后,可以随时随地调取预处理数据,不再需要重复加工。以下是关于如何从HDF5文件中访问数据的方法,同时保留了数据预处理时的数据类型:

# 访问数据仓库
data_store = pd.HDFStore('processed_data.h5')

# 读取键(key)为'preprocessed_df'的DataFrame
preprocessed_df = data_store['preprocessed_df']
data_store.close()

一个数据仓库可以存储多张表,每张表配有一个键。 

pip install --upgrade tables

总结

4bb31276e88bb4aae06e0ecc067278d3.png

如果觉得你的Pandas项目不具备速度快、灵活、简单且直观的特征,那么该重新思考使用该库的方式了。 

① 尝试更多的向量化操作,尽量避免类似for x in df的操作。如果代码中本身就有许多for循环,那么尽量使用Python自带的数据结构,因为Pandas会带来很多开销。

② 如果因为算法复杂无法使用向量化操作,可以尝试.apply()方法。

③ 如果必须循环遍历数组,可用.iterrows()或者.itertuples()改进语法和提升速度。

④ Pandas有很多可选项操作,总有几种方法可以完成从A到B的过程,比较不同方法的执行方式,选择最适合项目的一种。

⑤ 做好数据处理脚本后,可以将中间输出的预处理数据保存在HDFStore中,避免重新处理数据。

⑥ 在Pandas项目中,利用NumPy可以提高速度同时简化语法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/567048.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

罗盘时钟编码代码_安全研究 | 利用macOS Dock实现代码的持久化执行

背景介绍近期&#xff0c;我一直在研究macOS上的一些持久化技术&#xff0c;尤其是如何利用低等级用户权限来修改文件以影响用户交互。对于macOS终端用户来说&#xff0c;交互最频繁的当属Dock了。在我的研究过程中&#xff0c;我发现了一个plist文件&#xff0c;它可以控制App…

xpress-mp优化实例精选_量化研究每周精选-20170711

本周为大家精选了5项机器学习/深度学习在量化投资中的相关资源&#xff0c;机器学习/深度学习是偏实践性学科&#xff0c;只有不断实践才能有所收获&#xff0c;纸上得来终觉浅&#xff0c;绝知此事要躬行&#xff01;BigQuant拥有海量的数据和主流开源框架&#xff0c;附能每一…

mac 删除分区 command r 选择网络_Mac使用必看基础篇,Mac快捷键大全,mac新手入门指南...

你是Mac新手吗&#xff1f;你对使用Mac电脑有疑问吗&#xff1f;你还不知道mac有哪些快捷键吗&#xff1f;别着急&#xff0c;来看看小编给大家准备的Mac使用必看基础篇——Mac快捷键大全&#xff0c;对于新手用户很有帮助哦&#xff01;&#xff01;一、开机相关命令快捷键C:从…

无法执行二进制文件: 可执行文件格式错误_VB中.frm .frx .vbp .vbw .scc文件都有什么作用,你知道么?...

.frm 是每个窗体都有的&#xff0c;保存窗体的代码&#xff0c;你可以用记事本打开&#xff1b;.frx 窗体里使用图片、图标等资料&#xff0c;保存的是资源&#xff1b;.vbp 和.vbw 保存一个工程时他会自动生成这两个文件。.vbp 是关键的文件&#xff0c;它用来保存当前工程中的…

共享文件原理_fishhook 的实现原理浅析

| 作者&#xff1a;小可长江&#xff0c;目前在 bilibili 做音视频研发&#xff0c;业余时间喜欢研究好的源码和逆向打开姿势很重要早些时候&#xff0c;iOS中一提到“黑魔法”、HOOK&#xff0c;很多人第一时间想到的就是 AOP RunTime MethodSwizzling 这些不明觉厉的东西&…

ef power tools mysql_使用 EF Power Tool Code Frist 生成 Mysql 实体

使用 EF Power Tool Code Frist 生成 Mysql 实体1&#xff0c;在要生成的项目上右键2,3,4,5, 生成后的效果已知问题&#xff1a;1&#xff0c;在Mysql数据表中 tinyint(1) ,会被映射成为 C# bool &#xff0c;这样造成一些数据信息的丢失。 这个问题应该是EF 工具的问题&#…

python数据可视化散点图案例_Python数据可视化—散点图_python 数据可视化

Python数据可视化—散点图 PS: 翻了翻草稿箱&#xff0c; 发现居然存了一篇去年2月的文章。。。虽然naive&#xff0c;还是发出来吧。。。 本文记录了Python中的数据可视化——散点图scatter&#xff0c; 令x作为数据&#xff08;50个点&#xff0c;每个30维&#xff09;&#…

python重复元素判定_30段极简Python代码:这些小技巧你都Get了么

选自 | towardsdatascience转自 | 机器之心Python 是机器学习最广泛采用的编程语言&#xff0c;它最重要的优势在于编程的易用性。如果读者对基本的 Python 语法已经有一些了解&#xff0c;那么这篇文章可能会给你一些启发。作者简单概览了 30 段代码&#xff0c;它们都是平常非…

mysql主从数据库同步问题_聊聊MySQL主从数据库同步的那些事儿

在linux服务器下测试&#xff1a;主(master)服务器IP&#xff1a;219.223.5.105(对应内网IP&#xff1a;192.168.1.75)从(slave)服务器IP&#xff1a;219.223.5.104(对应内网IP&#xff1a;192.168.1.74)一、修改主服务器master[mysqld]log-binmysql-bin //[必须]启用二进制日…

360浏览器广告太多怎么办_360浏览器如何关闭广告自动推送

点击蓝字关注我们大家是不是在用360浏览器上网的时候经常会跳出广告来&#xff0c;这些广告有些时候是很烦人的&#xff0c;然而这些广告是能够关闭的&#xff0c;现在我们针对360浏览器&#xff0c;介绍如果关闭自动推送的广告。首先在360浏览器的右上方找到三条杠的“大队长”…

代码合并工具_作为程序员你必须知道的几款代码比较工具

在程序开发的过程中&#xff0c;程序员会经常对源代码以及库文件进行代码对比&#xff0c;在这篇文章里我们向大家介绍几款程序员常用的代码比较工具。WinMergeWinMerge是一款运行于Windows系统下的文件比较和合并工具&#xff0c;使用它可以非常方便地比较多个文档内容&#x…

powershell设置了权限依旧无法运行脚本_Power Shell折腾记

更多内容可以关注公众号“编程学习杂谈&#xff08;codingLearning&#xff09;”或者访问我的博客微软昨天刚刚发布了最新的Terminal图标&#xff0c;对是图标不是软件。对这个最新版的终端个人期待值还是很高的&#xff0c;不仅颜值高而且更好用&#xff0c;不过正式在稳定Wi…

delphi中richedit中光标如何定位到最后_嵌入式开发之Linux系统中Vi编辑器的使用

请大家关注点赞&#xff0c;已经完成物联网相关开发&#xff0c;会从硬件层&#xff0c;硬件中间层&#xff0c;传输层&#xff0c;软件中间件(物联网云平台)&#xff0c;APP开发相关博文。首先从嵌入式开发博文开始&#xff01;上一节关于<>。本节关于Linux系统中Vi编辑…

什么是python自动化测试_python已经自动化了,大家一般用什么测试框架?

首先我们需要明白自动化测试框架更倾向于一种设计思想 &#xff0c;这种思想指导工具的使用或者自研开发&#xff0c;并且不是只能使用仅仅一种框架&#xff0c;结合被测系统本身特性一般是选择多种测试框架的组合&#xff0c;来满足测试和设计需求(开发、维护角度)。录制回放测…

nginx会将post请求转为get么_前端角度谈GET与POST的区别

GET与POST 参数&#xff1a;GET传递的参数只能带URL后面&#xff0c;文本格式QueryString&#xff0c;各浏览器一般有长度限制&#xff0c;一般认为是2083&#xff0c;如果有中文字符更短。提交到服务器端的数据量小。参考&#xff1a;https://www.XXX.com.cn/blog/20201021.ht…

js预览本地word文档_Github+docsify打造在线文档

效果图如下预览链接&#xff1a;https://a870439570.github.io/interview-docs快速开始首先先安装好npm和nodejs,这里就不做过多介绍了 自信安装即可 (https://blog.csdn.net/zimushuang/article/details/79715679)安装docsify 推荐安装 docsify-cli 工具&#xff0c;可以方便创…

python创建一个json_如何为Python选择一个更快的JSON库

使用JSON越多, 你就越有可能遇到JSON编码或解码瓶颈。Python的内置库也不错, 但是还有多个更快的JSON库可用: 如何选择使用哪一个呢?事实是&#xff0c;没有一个正确的答案&#xff0c;没有一个最快的JSON库来超越其他所有库:一个“快速的JSON库”对不同的人意味着不同的东西&…

python函数拟合不规则曲线_python 对任意数据和曲线进行拟合并求出函数表达式的三种解决方案...

第一种是进行多项式拟合&#xff0c;数学上可以证明&#xff0c;任意函数都可以表示为多项式形式。具体示例如下。 ###拟合年龄 import numpy as np import matplotlib.pyplot as plt #定义x、y散点坐标 x [10,20,30,40,50,60,70,80] x np.array(x) print(x is :\n,x) num […

python数据结构 树_Python数据结构——AVL树的实现

既然&#xff0c;我们已经证明&#xff0c;保持 AVL 树的平衡将会使性能得到很大的提升&#xff0c;那我们看看如何在程序中向树插入一个新的键值。因为所有的新键是作为叶节点插入树的&#xff0c;而新叶子的平衡因子为零&#xff0c;所以我们对新插入的节点不作调整。不过一旦…

python安装常见问题_Python常见问题

问题描述: 在linux环境下部署Python项目时常常报错无法找到自己编写的模块解决方案export PYTHONPATH项目路径问题描述:Scrapy防封之settings文件设置解决方案设置动态USER-AGENT安装scrapy-fake-useragent模块在settings.py中添加配置DOWNLOADER_MIDDLEWARES {scrapy.downloa…