[AlwaysOn Availability Groups]排查:AG超过RPO

[AlwaysOn Availability Groups]排查:AG超过RPO

排查:AG超过RPO

在异步提交的secondary上执行了切换,你可能会发现数据的丢失大于RPO,或者在计算可以忍受的数据都是超过了RPO

1.通常原因

1.网络延迟太高,网络吞吐量太低,导致Primary的日志堆积
2.磁盘IO瓶颈导致LOG固化速度降低

2. 网络延迟太高,网络吞吐量太低,导致Primary的日志堆积

很多超过RPO的原因是日志发送到secondary副本不够快。

原因:
Primary副本在日志发送启动了流量控制,因为日志发送超过了最大运行的非通知信息的量。直到这些信息被通知,不然不能在发新的信息到secondary副本。因为数据丢失会影响secondary副本的固化。这些没有发送的日志的数据就会被丢失。

诊断和解决:
日志高度重复,说明primarysecondary上的延迟很高。可以查看DMVlog_send_rate和性能指标log bytes flushed/sec对比。如果flushed速度大于发送的速度,那么数据丢失会越来越大。
通过检查性能指标,SQL Server:Availability Replica> Flow Control Time(ms/sec)SQL Server:Availability Replica > Flow Comtrol/sec。这2个性能指标可以说明上一秒有多少时间用来等待flow control清理。Flow control等待越久,发送速度越小。
以下是一组指标可以用来诊断网络延迟和吞吐量,也可以用一些Windows工具,比如pingResource Monitor, Network Monitor 

·  DMV sys.dm_hadr_database_replica_states, log_send_queue_size

·  DMV sys.dm_hadr_database_replica_states, log_send_rate

·  Performance counter SQL Server:Database > Log Bytes Flushed/sec

·  Performance counter SQL Server:Database Mirroring > Send/Receive Ack Time

·  Performance counter SQL Server:Availability Replica > Bytes Sent to Replica/sec

·  Performance counter SQL Server:Availability Replica > Bytes Sent to Transport/sec

·  Performance counter SQL Server:Availability Replica > Flow Control Time (ms/sec)

·  Performance counter SQL Server:Availability Replica > Flow Control/sec

·  Performance counter SQL Server:Availability Replica > Resent Messages/sec

3.磁盘I/O瓶颈降低secondary副本的日志固化

根据数据库文件部署,日志固化会因为IO争用被降低。

原因:
只要日志被固化到磁盘,就可以防止数据丢失。因此隔离日志文件和数据文件的IO变的很重要。如果日志文件和数据文件使用同一个物理磁盘,IO密集型查询会消耗日志固化需要的IO能力。日志固化变慢会间接导致primary通知变慢,导致flow control等待时间变长。

诊断和解决:
如果你诊断了网络,没有很高的延迟或者很低的吞吐量,然后你应该看看secondary是否有IO争用问题。
以下脚本可以让你知道每个数据文件和日志文件的读写次数。
SELECT DB_NAME(database_id) AS

   [Database Name] ,

   file_id ,

   io_stall_read_ms ,

   num_of_reads ,

   CAST(io_stall_read_ms /( 1.0 + num_of_reads ) AS NUMERIC(10, 1)) AS [avg_read_stall_ms] ,

   io_stall_write_ms ,

   num_of_writes ,

   CAST(io_stall_write_ms /( 1.0 + num_of_writes ) AS NUMERIC(10, 1)) AS [avg_write_stall_ms] ,

   io_stall_read_ms + io_stall_write_ms AS [io_stalls] ,

   num_of_reads + num_of_writes AS [total_io] ,

   CAST(( io_stall_read_ms + io_stall_write_ms ) /( 1.0 + num_of_reads

+ num_of_writes) AS NUMERIC(10,1)) AS [avg_io_stall_ms]

FROM sys.dm_io_virtual_file_stats(NULL, NULL)

WHERE DB_NAME(database_id) IN(SELECT DISTINCT database_name FROM sys.dm_hadr_database_replica_cluster_states)

ORDER BY avg_io_stall_ms DESC;


下面脚本提供了某个时间点IO请求被挂起的快照:
SELECT DB_NAME(mf.database_id) AS [Database] ,

   mf.physical_name ,

   r.io_pending ,

   r.io_pending_ms_ticks ,

   r.io_type ,

   fs.num_of_reads ,

   fs.num_of_writes

FROM sys.dm_io_pending_io_requests AS r

INNER JOIN sys.dm_io_virtual_file_stats(NULL, NULL) AS fs ON r.io_handle = fs.file_handle

INNER JOIN sys.master_files AS mf ON fs.database_id = mf.database_id

AND fs.file_id = mf.file_id

ORDER BY r.io_pending , r.io_pending_ms_ticks DESC;

你可以通过读写IO,来识别是否有IO争用问题。以下是一些关于IO的性能指标:
·  Physical Disk: all counters

·  Physical Disk: Avg. Disk sec/Transfer

·  SQL Server: Databases > Log Flush Wait Time

·  SQL Server: Databases > Log Flush Waits/sec

·  SQL Server: Databases > Log Pool Disk Reads/sec

如果你发现有IO瓶颈,并且log文件和数据文件在同一个磁盘下,第一件要做的事情就是把日志文件和数据文件分开。

 

posted on 2015-11-20 17:20 Fanr_Zh 阅读(...) 评论(...) 编辑 收藏

转载于:https://www.cnblogs.com/Amaranthus/p/4981484.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/374114.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

那些年困扰我们的Linux 的蠕虫、病毒和木马

虽然针对Linux的恶意软件并不像针对Windows乃至OS X那样普遍,但是近些年来,Linux面临的安全威胁却变得越来越多、越来越严重。个中原因包括,手机爆炸性的普及意味着基于Linux的安卓成为恶意黑 客最具吸引力的目标之一,以及使用Lin…

python单元测试框架unittest介绍和使用_Python+Selenium框架设计篇之-简单介绍unittest单元测试框架...

前面文章已经简单介绍了一些关于自动化测试框架的介绍,知道了什么是自动化测试框架,主要有哪些特点,基本组成部分等。在继续介绍框架设计之前,我们先来学习一个工具,叫unittest。unittest是一个单元测试框架&#xff0…

使用PowerMock模拟静态方法

在最近的博客中,我试图强调使用依赖注入的好处,并表达一种想法,即这种技术的主要好处之一是,通过在类之间提供高度的隔离,它可以使您更轻松地测试代码,并且得出的结论是,许多好的测试等于好的代…

多态之向上转型

//向上转型,子类引用指向父类对象 public class UpcastingDemo{ public static void main(String[] args){ Employee enew Employee(); System.out.println(e.grade); e.job(); e.run(); System.out.println("\n"); Manager mnew Manager(…

(转)FPGA异步时序和多时钟模块

http://bbs.ednchina.com/BLOG_ARTICLE_3019907.HTM 第六章 时钟域 有一个有趣的现象,众多数字设计特别是与FPGA设计相关的教科书都特别强调整个设计最好采用唯一的时钟域。换句话说,只有一个独立的网络可以驱动一个设计中所有触发器的时钟端口。虽然…

穆里尼奥:与范加尔风格不同,转变需要时间

据英媒报道,曼联主帅穆里尼奥近日向媒体表示自己很难继续遵循前任主帅范加尔的理念去建立球队,因为他们两人有着完全不同的想法。 穆里尼奥近日在接受BT Sport的采访时表示:“这份工作对于我来说最难的地方便是我与范加尔是非常不同的教练&am…

怎么检测不到我的音频_Linux 上的最佳音频编辑工具推荐 | Linux 中国

在 Linux 上,有很多种音频编辑器可供你选用。不论你是一个专业的音乐制作人,还是只想学学怎么做出超棒的音乐的爱好者,这些强大的音频编辑器都是很有用的工具。-- Ankush Das(作者)在 Linux 上,有很多种音频编辑器可供你选用。不论…

具有GlassFish和一致性的高性能JPA –第3部分

在我的四部分系列的第三部分中,我将解释将Coherence与EclipseLink和GlassFish结合使用的第二种策略。 这就是通过EclipseLink使用Coherence作为二级缓存(L2)的全部内容。 一般的做法 这种方法将Coherence数据网格应用于依赖于无法完全预加载到…

接口使用时注意

interface Service{ void doSome(); //方法的默认修饰符为public abstract } public class InterfaceNote implements Service{ //方法默认的修饰符为 default void doSome(){ System.out.println("做一些服务!"); } public static void main(String…

【Hexo】deploy出错的解决方法

1、ERROR Deployer not found: git 执行npm install hexo-deployer-git --save 2、$ hexo d INFO Deploying: git INFO Clearing .deploy_git folder... INFO Copying files from public folder... fatal: Not a git repository (or any of the parent directories): .git F…

精选30道Java笔试题解答(转)

都是一些非常非常基础的题,是我最近参加各大IT公司笔试后靠记忆记下来的,经过整理献给与我一样参加各大IT校园招聘的同学们,纯考Java基础功底, 老手们就不用进来了,免得笑话我们这些未出校门的孩纸们,但是I…

list取值_Redis中List及quicklist实现-2

上一篇中看了List的使用方式、quicklist中的各个结构体,这一篇来看看quicklist里面的几个核心函数,quicklistCreate函数、quicklistCreateNode函数、quicklistPush函数、quicklistPop函数。接下来我们通过源码看一下quicklist中是如何借鉴STL中deque的这…

通过示例休眠–第1部分(删除孤儿)

所以我想做一系列的冬眠例子,展示冬眠的各种特征。 在第一部分中,我想展示有关删除孤儿功能及其在故事情节中的使用方法。 因此,让我们开始:) 先决条件 : 为了尝试以下示例,您将需要以下提到的JAR文件: …

站长工具--IP地址库

中国最全的IP地址库 转载于:https://www.cnblogs.com/weloveshare/p/5783438.html

String使用注意一

public class StringNote{ public static void main(String[] args){ char[] c{h,e,l,l,o}; String str1new String(c); String str2new String(c); String str3"hello"; //常量池中有 “hello” 字符串,str3和str4分别指向他 String str4"…

Win10手记-IIS部署网站问题解决

最近在自己的Win10电脑上尝试部署ASP.NET网站时出现了问题,经过多方查找定位到IIS为问题来源。 开始之前 先描述下技术环境: 1.Windows 10 PC 2.Windows 自带的IIS 7 3.ASP.NET Web API项目网站 4.VS 2015 问题描述 首先我们为PC安装IIS,按照…

python随机数生成的方法_python生成随机数的方法

一、概述python可以通过random包来产生随机数或者执行一些随机操作。1. random.seed()给定一个数据作为随机数种子,和大多数语言一样,python也可以使用时间来作为随机数种子。import timetime.seed(time.time())12importtimetime.seed(time.time())2. ra…

Java模块化方法–模块,模块,模块

我认为每个人都会同意,编写模块化应用程序和模块化通常是一件好事。 但是,从Java和Scala语言以及各种Java / Scala框架来看,对模块化的支持是怎样的呢? 有很多不同的方法! 让我们看看其中的一些。 “保护”以下是指模块…

CentOS 7 安装记录

由于centos6.4版本有点老,所以换到centos7。 1.安装 CentOS 7.0系统安装配置图解教程 2.linux设置网卡开机启动 实质linux是看一个网卡文件的配置,就是/etc/sysconfig/network-scripts/ifcfg-eth0 (这个文件名看你网卡名称而异,具体你到该目录…

String使用注意二

public class StringNote_1{ public void fun(){ for(int i1;i<100;i){ System.out.print(i""); //此语句很耗时间影响性能 } System.out.println("100"); } public void fun1(){ String text""; for(int i1;i<100;i){ …