原因是:azure databricks 集群创建后一开始是正常的随着任务的增加集群开始会卡与down在资源固定的情况下,定时重启是个好的方法???
分享出来如有碰到同样问题的同学可以参考下
1、是通过python调用databricks接口完成的
import requests# 重启集群
ctx = dbutils.notebook.entry_point.getDbutils().notebook().getContext()
#host_name = ctx.tags().get("browserHostName").get()
host_name ="adb-8954321*****.0.databricks.azure.cn"
host_token = ctx.apiToken().get()
cluster_id = "xxxx"print(host_name,host_token,cluster_id)requests.post(f'https://{host_name}/api/2.0/clusters/restart',json = {'cluster_id': cluster_id},headers={'Authorization': f'Bearer {host_token}'})
2、在databricks--》workflows里设置job