问题回顾:
上班路上收到ZeroSSL邮件通知我们清点项目的SSL证书到期了,到公司还是登录网址查看信息,一看果然是7.10也就是今天到期,开始看下acme.sh的定制任务为何没生效,一看crontab脚本,日志任务丢垃圾桶,没办法,手动更新,然后更新期间会报错:error code:35,好在不影响生成证书文件,就没理会,在具体项目中查看证书文件也更新最新文件,继续访问目标网址,发现直接DNS_PROBE_FINISHED_NXDOMAIN
,无法访问,手机端访问也是502,在nginx重启时候还报错了前端配置文件问题,屏蔽相关代码,网站仍然不通,让前端本地跑项目反馈可以跑通(由于前端请求的API是目标域名的二级域名,所有不受影响,这期间还排查了管理端也是二级域名也能正常工作),再考虑应该还是域名解析DNS问题,后边想到之前该项目部署过阿里云waf,通过相关命令在服务器查看域名解析情况,果然域名CNAME还是WAF的地址,遗漏了这个环节,后边将域名解析的waf删除,重新重启nginx,至此项目正常可以访问。
从以上过程,可以总结我们针对问题的思路,如何发现问题,找到问题的因素,一一验证排查,期间由于WAF关闭较早,SSL证书没过期,没有及时排查到DNS解析的问题,其实中间还浪费了部分时间,针对该问题,以下相关知识点做个记录,为后来人起个指引作用,反观解决过程,其实问题点很简单,只是没有一开始及时发现。
具体细节流程
- zeroSSL邮件提醒
- 网站不通
- acme重新生成证书
-
前端项目中报错配置
-
查看域名解析地址
- 查看阿里云中域名解析确实是waf地址
- 删除waf,后正确解析IP
- 网站恢复后颁发者信息
- 查看nginx的状态:service nginx status,报错是前端配置文件中错误
nginx.service - A high performance web server and a reverse proxy serverLoaded: loaded (/lib/systemd/system/nginx.service; enabled; vendor preset: enabled)Active: active (running) (Result: exit-code) since Wed 2024-07-10 09:53:48 CST; 23min agoProcess: 1140 ExecStop=/sbin/start-stop-daemon --quiet --stop --retry QUIT/5 --pidfile /run/nginx.pid (code=exited, status=0/SUCCESS)Process: 21695 ExecReload=/usr/sbin/nginx -g daemon on; master_process on; -s reload (code=exited, status=1/FAILURE)Process: 1147 ExecStart=/usr/sbin/nginx -g daemon on; master_process on; (code=exited, status=0/SUCCESS)Process: 1143 ExecStartPre=/usr/sbin/nginx -t -q -g daemon on; master_process on; (code=exited, status=0/SUCCESS)Main PID: 1150 (nginx)Tasks: 5Memory: 12.0MCPU: 360msCGroup: /system.slice/nginx.service├─ 1150 nginx: master process /usr/sbin/nginx -g daemon on; master_process on├─17920 nginx: worker process ├─17921 nginx: worker process ├─17922 nginx: worker process └─17923 nginx: worker process Jul 10 09:59:15 k8s-node systemd[1]: nginx.service: Control process exited, code=exited status=1
Jul 10 09:59:15 k8s-node systemd[1]: Reload failed for A high performance web server and a reverse proxy server.
Jul 10 10:00:01 k8s-node systemd[1]: Reloading A high performance web server and a reverse proxy server.
Jul 10 10:00:01 k8s-node systemd[1]: Reloaded A high performance web server and a reverse proxy server.
Jul 10 10:03:11 k8s-node systemd[1]: Reloading A high performance web server and a reverse proxy server.
Jul 10 10:03:11 k8s-node systemd[1]: Reloaded A high performance web server and a reverse proxy server.
Jul 10 10:17:42 k8s-node systemd[1]: Reloading A high performance web server and a reverse proxy server.
Jul 10 10:17:42 k8s-node nginx[21695]: nginx: [emerg] host not found in upstream "www.varclear.com" in /etc/nginx/clinical/community_frontend.conf:37
Jul 10 10:17:42 k8s-node systemd[1]: nginx.service: Control process exited, code=exited status=1
SSL
针对SSL的排查过程
强制更新域名证书
Please refer to https://curl.haxx.se/libcurl/c/libcurl-errors.html for error code: 35
定时更新任务
0 0 * * * "/root/.acme.sh"/acme.sh --cron --home "/root/.acme.sh" > /dev/null
DNS
针对DNS的排查过程
检查域名状态
WHOIS查询:通过WHOIS查询工具检查域名的状态,确保域名没有过期或被锁定。
DNS Propagation:使用DNS传播检查工具(例如WhatsMyDNS)来确认DNS记录是否已正确传播到全球各地的DNS服务器。
检查和验证
清理DNS缓存后,可以使用 dig 或 nslookup 命令验证DNS解析是否正确:
dig yourdomain.com
或者
nslookup yourdomain.com
这些命令会返回DNS解析的详细信息,你可以检查输出是否符合预期。
额外的DNS调试工具
如果需要更多调试工具,可以安装并使用 bind-utils(包含 dig 和 nslookup 等工具):
sudo apt-get install bind9-utils # Debian/Ubuntu
sudo yum install bind-utils # CentOS/RHEL
sudo dnf install bind-utils # Fedora
针对该项目访问遇到的问题,其中存在一些基础知识点的理解,需要单独写文章来讲解DNS及SSL的工作过程。