万万没想到,一个 MongoDB.Driver 的 bug 导致 .NET5 程序死锁!

一:背景

1. 讲故事

这个月初,星球里的一位朋友找到我,说他的程序出现了死锁,怀疑是自己的某些写法导致mongodb出现了如此尴尬的情况,截图如下:

c98b136a4302a0912d50e069141c5b1f.png

说实话,看过这么多dump,还是第一次遇到真实的死锁,这tmd的顿时就有了兴趣。。。上 windbg 说话。

二:Windbg 分析

1. 真的是死锁吗

既然朋友说死锁,我得先验证一下,可以用命令 !syncblk 查看同步块表。

0:000> !syncblk
Index         SyncBlock MonitorHeld Recursion Owning Thread Info          SyncBlock Owner97 000000F7B77CA1B8          107         1 000000F7D37A7210 8848  25   000000f7b853d480 System.Object144 000000F7D39BA2A8          495         1 000000F7DA4CDA70 75e0  63   000000f7b853de48 System.Object
-----------------------------
Total           603
CCW             1
RCW             1
ComClassFactory 0
Free            490

从同步块表中可得知如下信息。

  1. 25号线程正持有 000000f7b853d480 锁对象。

  2. 63号线程正持有 000000f7b853de48 锁对象。

我们知道所谓的 死锁 就是两个线程都渴望得到对方持有的锁资源,谁也不让步所造成的一种僵局,如果不明白,我就画一张图:

f1d53697b4b1d35acde68b44b1237f35.png

上图就是一种死锁的僵局,顺便提一下, 在 sqlserver 中也常会遇到这种情况,那它会怎么处理的呢?这就有点意思了,sqlserver 内部有一个调停的线程周期性执行,当检测到这种死锁僵局的时候,它会把优先级低的线程kill掉,这样另外一个线程就能顺利获取锁,被 kill 掉的线程就会出现如下异常信息:

System.Data.SqlClient.SqlException (0x80131904): 事务(进程 ID 112)与另一个进程被死锁在 锁 | 通信缓冲区 资源上,并且已被选作死锁牺牲品。请重新运行该事务。在 System.Data.SqlClient.SqlConnection.OnError(SqlException exception, Boolean breakConnection, Action`1 wrapCloseInAction)在 System.Data.SqlClient.SqlInternalConnection.OnError(SqlException exception, Boolean breakConnection, Action`1 wrapCloseInAction)在 System.Data.SqlClient.TdsParser.ThrowExceptionAndWarning(TdsParserStateObject stateObj, Boolean callerHasConnectionLock, Boolean asyncClose)在 System.Data.SqlClient.TdsParser.TryRun(RunBehavior runBehavior, SqlCommand cmdHandler, SqlDataReader dataStream, BulkCopySimpleResultSet bulkCopyHandler, TdsParserStateObject stateObj, Boolean& dataReady)在 System.Data.SqlClient.SqlCommand.RunExecuteNonQueryTds(String methodName, Boolean async, Int32 timeout)在 System.Data.SqlClient.SqlCommand.InternalExecuteNonQuery(TaskCompletionSource`1 completion, String methodName, Boolean sendToPipe, Int32 timeout, Boolean asyncWrite)在 System.Data.SqlClient.SqlCommand.ExecuteNonQuery()在 Microsoft.ApplicationBlocks.Data.SqlHelper.ExecuteNonQuery(SqlConnection connection, CommandType commandType, String commandText, SqlParameter[] commandParameters)在 Microsoft.ApplicationBlocks.Data.SqlHelper.ExecuteNonQuery(String connectionString, CommandType commandType, String commandText, SqlParameter[] commandParameters)

哈哈,是不是似曾相识,好了,对死锁有了一定认识之后,我们假设一下,如果存在

  1. 25号线程想获取 000000f7b853de48 锁对象。

  2. 63号线程想获取 000000f7b853d480 锁对象。

的情况下,必然就会死锁, 对吧,接下来怎么用 windbg 验证呢?切到 25 号线程查看线程栈及栈对象。

0:000> ~25s
ntdll!NtWaitForMultipleObjects+0xa:
00007ffb`9f230c7a c3              ret0:025> !clrstack 
OS Thread Id: 0x8848 (25)Child SP               IP Call Site
000000F782904838 00007ffb9f230c7a [HelperMethodFrame_1OBJ: 000000f782904838] System.Threading.Monitor.ReliableEnter(System.Object, Boolean ByRef)
000000F782904990 00007ffb1d5e4d5c MongoDB.Driver.Core.ConnectionPools.ExclusiveConnectionPool+ListConnectionHolder.Acquire()0:025> !dso
OS Thread Id: 0x8848 (25)
RSP/REG          Object           Name
000000F782904648 000000f7b853de48 System.Object
000000F7829046D8 000000f7b84cb508 MongoDB.Driver.ReadPreference

可以清楚的看到 ReliableEnter 正在获取 000000f7b853de48 锁对象时被卡住,再切到 63号线程查看。

0:025> ~63s
ntdll!NtWaitForMultipleObjects+0xa:
00007ffb`9f230c7a c3              ret
0:063> !clrstack 
OS Thread Id: 0x75e0 (63)Child SP               IP Call Site
000000F787774EE8 00007ffb9f230c7a [HelperMethodFrame_1OBJ: 000000f787774ee8] System.Threading.Monitor.ReliableEnter(System.Object, Boolean ByRef)
000000F787775040 00007ffb1d5e4d5c MongoDB.Driver.Core.ConnectionPools.ExclusiveConnectionPool+ListConnectionHolder.Acquire()
0:063> !dso
OS Thread Id: 0x75e0 (63)
RSP/REG          Object           Name
000000F787774A38 000000f7b82dc750 MongoDB.Bson.BsonBoolean
000000F787774BA0 000000f7b83a9a10 System.RuntimeType
000000F787774CF8 000000f7b853d480 System.Object

可以清楚的看到 ReliableEnter 正在获取 000000f7b853d480, 这就表明确实产生了死锁,没毛病。

2. 死锁原因分析

要想追究死锁的原因,只能仔细推敲 线程栈 + 线程栈对象

0:063> !clrstack 
OS Thread Id: 0x75e0 (63)Child SP               IP Call Site
000000F787774EE8 00007ffb9f230c7a [HelperMethodFrame_1OBJ: 000000f787774ee8] System.Threading.Monitor.ReliableEnter(System.Object, Boolean ByRef)
000000F787775040 00007ffb1d5e4d5c MongoDB.Driver.Core.ConnectionPools.ExclusiveConnectionPool+ListConnectionHolder.Acquire()
...
000000F78777BD10 00007ffb1e2fc69f System.Threading.CancellationTokenSource.ExecuteCallbackHandlers(Boolean) [/_/src/System.Private.CoreLib/shared/System/Threading/CancellationTokenSource.cs @ 724]
000000F78777BDA0 00007ffb1e2fc69f System.Threading.CancellationTokenSource.ExecuteCallbackHandlers(Boolean) [/_/src/System.Private.CoreLib/shared/System/Threading/CancellationTokenSource.cs @ 724]
000000F78777BE30 00007ffb1e2fc69f System.Threading.CancellationTokenSource.ExecuteCallbackHandlers(Boolean) [/_/src/System.Private.CoreLib/shared/System/Threading/CancellationTokenSource.cs @ 724]
000000F78777BEC0 00007ffb1e325d55 MongoDB.Driver.Core.Misc.SemaphoreSlimSignalable.Signal()
000000F78777BF10 00007ffb1e35b98e MongoDB.Driver.Core.ConnectionPools.ExclusiveConnectionPool+ListConnectionHolder.Return(PooledConnection)
000000F78777BF70 00007ffb1e35b728 MongoDB.Driver.Core.ConnectionPools.ExclusiveConnectionPool.ReleaseConnection(PooledConnection)
000000F78777C0A0 00007ffb1e35b4f9 MongoDB.Driver.Core.ConnectionPools.ExclusiveConnectionPool+AcquiredConnection.Dispose()
000000F78777C0D0 00007ffb1e384164 MongoDB.Driver.Core.Operations.RetryableReadContext.Dispose()
000000F78777C100 00007ffb1e37ee31 MongoDB.Driver.Core.Operations.FindOperation`1+d__120[[System.__Canon, System.Private.CoreLib]].MoveNext()
...
000000F78777E980 00007ffb1dd807bf System.Net.Sockets.Socket+AwaitableSocketAsyncEventArgs.InvokeContinuation(System.Action`1<System.Object>, System.Object, Boolean, Boolean) [/_/src/System.Net.Sockets/src/System/Net/Sockets/Socket.Tasks.cs @ 1019]
000000F78777E9F0 00007ffb1dd80519 System.Net.Sockets.Socket+AwaitableSocketAsyncEventArgs.OnCompleted(System.Net.Sockets.SocketAsyncEventArgs) [/_/src/System.Net.Sockets/src/System/Net/Sockets/Socket.Tasks.cs @ 858]
000000F78777EA50 00007ffb1dd7f751 System.Threading._IOCompletionCallback.PerformIOCompletionCallback(UInt32, UInt32, System.Threading.NativeOverlapped*) [/_/src/System.Private.CoreLib/src/System/Threading/Overlapped.cs @ 59]0:063> !dso
OS Thread Id: 0x75e0 (63)
RSP/REG          Object           Name
000000F787774A38 000000f7b82dc750 MongoDB.Bson.BsonBoolean
000000F787774BA0 000000f7b83a9a10 System.RuntimeType
000000F787774CF8 000000f7b853d480 System.Object
...
000000F78777B658 000000f7be3407c8 System.String    OperationCanceled
000000F78777B670 000000f7b82c07e0 System.Resources.RuntimeResourceSet
000000F78777B698 000000f7b82bff38 System.Globalization.CultureInfo
000000F78777B730 000000f7a36525c8 System.Char[]
000000F78777B7E0 000000f7be3407c8 System.String    OperationCanceled
...
000000F78777BEF8 000000f7b853de10 MongoDB.Driver.Core.ConnectionPools.ExclusiveConnectionPool+ListConnectionHolder
000000F78777BF10 000000f79f79e398 System.Runtime.CompilerServices.AsyncTaskMethodBuilder`1+AsyncStateMachineBox`1[[MongoDB.Driver.IAsyncCursor`1[[Czkj.AlibabaTools.Models.mongo.CopyRecords, Czkj.AlibabaTools.Models]], MongoDB.Driver.Core],[MongoDB.Driver.Core.Operations.FindOperation`1+<ExecuteAsync>d__120[[Czkj.AlibabaTools.Models.mongo.CopyRecords, Czkj.AlibabaTools.Models]], MongoDB.Driver.Core]]
000000F78777BF40 000000f7b853de48 System.Object
...

由于这代码到处都是 await,async ,所以看这反编译后的线程栈真的头大,经过仔细比对,发现代码流程大概是:

  1. 从处理 Mongodb 的异步请求回调开始 (System.Threading.OverlappedData)。

  2. MongoDB.Driver.Core.Operations.FindOperation 时不知为啥抛了取消异常 OperationCanceled,然后调用 RetryableReadContext.Dispose()

fd511d952a37477e094b0f72789990e4.png
  1. ListConnectionHolder.Return() 方法中获取 000000f7b853de48 锁对象。

4899bc4713e471a3e40ad2482e713505.png
  1. SignalOrReset() -> SemaphoreSlimSignalable.Signal() 方法中执行一些注册handler逻辑。

74f8db74d15ea7da482c96dc506d9384.png

注意:在事件触发中并没有退出 lock 区域。

  1. 在几个handler痉挛过程中进入了另外一个线程池的 ListConnectionHolder.Acquire() 方法中,希望能得到该池中的 000000f7b853d480 锁对象。

5c56f1606aee549902df44de5864feb5.png

同时 25号线程正在反向做这个操作,由于大家都是双重 lock,所以最终导致 死锁 的发生。

三:有几个需要解答的问题

1. 为什么会有两个线程池?

线程栈对象看,应该也看到了有两个线程池 ExclusiveConnectionPool

0:000> !dumpheap -type ExclusiveConnectionPool -stat
Statistics:MT    Count    TotalSize Class Name
00007ffb1d25eca0        2          464 MongoDB.Driver.Core.ConnectionPools.ExclusiveConnectionPool

这是由于朋友的 mongodb 连接串 用的是双IP的副本集模式。

{"mongo": {"Connection": "mongodb://xxx.aliyuncs.com:3717,xxx.aliyuncs.com:3717/admin?replicaSet=mgset-500180544&readPreference=secondaryPreferred&maxPoolSize=1000&wtimeoutMS=10000"}
}

2. 是程序员的锅吗?

从堆栈信息看并不是程序员的锅,是 mongodb 在接收异步回调时,由于某种情况发生了 OperationCanceled 异常,面对异常的后续处理逻辑时出现了死锁bug。

3. 当前的 mognodb sdk版本是多少?

这个mongodb 官方驱动是  2.13.1.0,也就是 2021-8-15 发布的,截至最新的是 10月份发布的 2.13.2.0

9dd4348b78df8485a62eee1f0936a880.png

4. 反馈

了解这些信息后,和朋友做了沟通,朋友说他给 mongodb 社区提交 issue,几天后,官方给的回答是在最新的 v2.14.beta1 中做了处理。

  • https://github.com/mongodb/mongo-csharp-driver/commit/b961b81cb7dc1ffe7262c55a227afad0aab5a994

  • https://jira.mongodb.org/browse/CSHARP-3815

也就是说在未来的 release v2.14.0 版本中会得到解决,目前也只能等一等啦!期待中。。。哈哈😁😁😁

四:总结

总的来说,这是 mongodb 底层的一个 bug 导致的死锁问题,dump的分析过程也几经波折,虽是官方权威的 MongoDB.Driver 包,但同样值得怀疑,而不要一味的深深怀疑自己... 最后期待即将发布的 release v2.14.0 吧。

7b2a672848cb7ef95697a122a0312e6e.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/295333.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

有生之年必看!原来历史还可以这样震撼,看完我惊呆了...

▲点击查看哈佛大学本杰明教授曾说&#xff1a;“越是到了高等教育的阶段&#xff0c;人们就越重视从历史中总结经验&#xff0c;尤其是精英阶段。很多人都想好好读读历史&#xff0c;但是一直以来&#xff0c;读历史都有一个问题&#xff1a;看着满满都是字的大部头&#xff0…

.NET6 新功能和新生态

微软中国MSDN 点击上方蓝字关注我们.NET 6正式推出已有一周多的时间&#xff0c;不少小伙伴已经安装好开始尝鲜了。围绕着.NET 6&#xff0c;开发者大佬们已经为大家讲解了不少新功能和新生态。但是&#xff01;我们这里还有更多你可能感兴趣的最新消息&#xff0c;今天就让我…

公厕的门下面为什么都要空一截?难道是为了和别人分享我中午吃的两碗螺狮粉?

全世界只有3.14 % 的人关注了爆炸吧知识何人在此肆意飞翔昨天晚上的这个时候&#xff0c;超模君还在苦逼的加班。好不容易码完了最后一个字&#xff0c;想着先去厕所解决一下人生大事&#xff0c;再回来发布推文。随着一坨污秽倾泻而出&#xff0c;超模君再一次感受到无shi一身…

asp.net core自定义依赖注入容器,替换自带容器

依赖注入在asp.net core程序中,众所周知&#xff0c;依赖注入基本上贯穿了整个项目&#xff0c;以通用的结构来讲解&#xff0c;控制器层(Controller层)依赖业务层(Service层),业务层依赖于仓储层(Repository层),而其他层级中也或多或少的使用了依赖注入,在这里不过多的对于依赖…

学习socket nio 之 mina实例

1&#xff1a;mina之浅谈 mina是apache基于socket nio的一套框架&#xff0c;可以从apache官网下载jar包和源码。试用起来非常方便&#xff0c;也非常强大。如果对socket nio还不是很了解的话&#xff1a;请看一下这两篇文章 学习bytebuffer和socket nio实例 这里我简单的介绍一…

java aop execution_Spring AOP -- execution表达式

*&#xff1a;匹配任何数量字符&#xff1b;..&#xff1a;匹配任何数量字符的重复&#xff0c;如在类型模式中匹配任何数量子包&#xff1b;而在方法参数模式中匹配任何数量参数。&#xff1a;匹配指定类型的子类型&#xff1b;仅能作为后缀放在类型模式后边。234017_UIVQ_252…

理工男都能有多痴情?

1 简直一模一样&#xff01;▼2 你的担心太多余了些▼3 汤包怎么吃&#xff1f;英国人&#xff1a;挤掉汤汁再吃&#xff08;素材来源网络&#xff0c;侵删&#xff09;▼4 就还挺奇特的&#xff01;&#xff1f;&#xff08;素材来源网络&#xff0c;侵删&#xff09;▼5 …

Objective-C征途:Hello Objective-C

先来介绍一下历史背景&#xff0c;Cocoa和Objective-C是苹果公司Mac OS X操作系统的核心。虽然Mac OS X相对较新&#xff0c;但Objective-C和Cocoa的推出已有时日。早在20世纪80年代早期&#xff0c;Bard Cox就发明了Objective-C&#xff0c;意在将流行的&#xff0c;可移植的C…

基于事件驱动架构构建微服务第12部分:向Apache KAFKA生成事件

原文链接&#xff1a;https://logcorner.com/building-microservices-through-event-driven-architecture-part12-produce-events-to-apache-kafka/在本教程中&#xff0c;我将展示如何将事件发布到apache KAFKA。当客户端发生命令时&#xff0c;它将产生一个事件&#xff08;例…

Andriod之使用极光推送自定义消息打造个性的消息推送效果

没必要重复造轮子&#xff0c;吸收别人的精华&#xff0c;站在巨人的肩膀上&#xff0c;才能走得更远&#xff0c;如果技术不能带来利润&#xff0c;狗屁都不如&#xff0c;好了&#xff0c;介绍下极光推送吧&#xff0c;我们项目里面用的是个推&#xff0c;先把这个极光推送的…

全球五大顶级域名一周统计:7月第三周新增超9万个

中国IDC评述网07月27日报道&#xff1a;据域名统计机构WebHosting.info公布的最新数据显示&#xff0c;截至2012年7月23日&#xff0c;全球五大顶级域 名&#xff08;.COM、.NET、.ORG、.INFO和BIZ&#xff09;总量达131,918,481个&#xff0c;环比上周新增90,138个&#xff0c…

java后台传一个对象到前台_前台判断对象中的一个布尔值_springMVC面试题

1&#xff1a;springMVC工作原理springMVC架构.png【用户发送请求到前端控制器dispatcherservlet&#xff0c;前端控制器接收到请求之后调用处理器映射器&#xff0c;根据请求url找到具体的处理器&#xff0c;生成处理器对象返回给前端控制器&#xff0c;前端控制器通过处理器适…

那些讲1000遍都不懂的数学概念,一看故事全明白了!

▲ 点击查看英国著名科学家霍金在撰写《时间简史》的时候&#xff0c;出版商郑重其事地建议道&#xff1a;“你的书里多一条数学公式&#xff0c;就会失去一部分读者。”可见对数理化的害怕&#xff0c;也没有国界&#xff0c;大家都一样。看着满满都是概念和数字的课本&#x…

C# 10 新特性 —— 命名空间的变化

C# 10 新特性 —— 命名空间的变化IntroC# 10 针对命名空间做了一些改变&#xff0c;主要是 Global Usings 和 File-scoped Namespace&#xff0c;我们前面分享的示例其实也是用到了这些变化&#xff0c;之前也写过一篇文章介绍 .NET 6 的隐式命名空间引用 .NET 6 中的隐式命名…

HDOJ 1228 A+B(map水题)

A B Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others)Total Submission(s): 8539 Accepted Submission(s): 4810 Problem Description读入两个小于100的正整数A和B,计算AB.需要注意的是:A和B的每一位数字由对应的英文单词给出.Input测…

工厂模式(简单工厂、工厂方法、抽象工厂)

简单工厂模式 从设计模式的类型上来说&#xff0c;简单工厂模式是属于创建型模式&#xff0c;又叫做静态工厂方法&#xff08;StaticFactory Method&#xff09;模式&#xff0c;但不属于23种GOF设计模式之一。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单…

设置 Xcode 自动生成代码片段

一、什么是代码片段当在Xcode中输入dowhile并回车后&#xff0c;Xcode会出现下图所示的提示代码&#xff1a;这就是代码片段&#xff0c;目的是使程序员以最快的速度输入常用的代码片段&#xff0c;提高编程效率。该功能是从Xcode4开始引入的。在Xcode中的位置如下图所示&#…

C# 10 新特性 —— CallerArgumentExpression

C# 10 新特性 —— CallerArgumentExpressionIntroC# 10 支持使用 CallerArgumentExpression 来自动地获取调用方的信息&#xff0c;这可以简化我们现在的一些代码&#xff0c;让代码更加简洁&#xff0c;一起看下面的示例吧Caller InfoC# 在 5.0 的时候开始支持 Caller Info 自…

一款不错的编程字体Source Code Pro

我以前一直是用的MS自家的是Consolas的字体&#xff0c;这个字体基本上具有编程字体所需的所有要素&#xff1a;等宽、支持ClearType、中文字体大小合适&#xff0c;l和1&#xff0c;o和0很容易区分。非要挑刺的话就是字体比较小&#xff0c;9号和10号字区别不大&#xff0c;长…

当代年轻人熬夜晚睡的原因找到了!

全世界只有3.14 % 的人关注了爆炸吧知识有人熬夜为了离梦想更近有人熬夜为了给自家爱豆做数据有人熬夜只是因为深夜才有点自己的时间还有人是因为“沉迷”这些优质视频号忘记要睡在过去一段时间里&#xff0c;视频号可能是微信迭代最多&#xff0c;变化最多&#xff0c;也受到最…