使用nutch开源的搜索引擎抓取网页信息,通过计划任务crontab执行shell脚本,并将启动信息记录进日志文件,但是每次都会出现乱码,如图所示
经过反复测试,排除了java程序问题,文件权限问题,系统字符集的环境变量问题(en_US.UTF-8),发现手动执行shell脚本不会出现乱码,写在计划任务里自动执行就会出现乱码,最后确定是计划任务crontab执行脚本问题。
问题原因:
因为Unix/Linux下使用crontab时的运行环境已经不是用户环境了,因此原本用户下的一些环境变量的设置就失效了。例如原来用户环境变量设置的是GB2312,但是使用crontab运行时的环境变量就可能是ISO8859-1、UTF-8。
解决方法:
首先执行命令echo $LANG,假设输出是en_US.UTF-8
然后在脚本中增加一行与系统字符集的环境变量一致
export LANG=en_US.UTF-8
计划任务里再次自动运行java程序发现问题解决!