最近拿到一个上游的xlsx, 需要自己加工处理取到自己想要的值,需要注意的知识点做个记录:
以下内容基于以下假设:
1, 文件名字为Data_A.xlsx
和Data_B.xlsx
, 其内容格式为:
A | B | C | D E | F |
---|---|---|---|---|
0x101 | 10 | 1 | 1024 | |
0x201 | 11 | 1 | 117 | |
0x301 | 12 | 3 | 31 | |
0x401 | 13 | 2 | 41 | |
0x501 | 14 | 1 | 126 | |
0x601 | 15 | 4 | 13 |
0 主要程序框架
def clean():current_path = os.getcwd()for infile in glob.glob( os.path.join(current_path, '*.csv') ):os.remove(infile)if __name__ == '__main__':clean()sys.exit()
1 从用户输入的cmd line读取xlsx文件
def parse_input(argv): inputfile = '' try: opts, args = getopt.getopt(sys.argv[1:],"hi:",["help","ifile="])except getopt.GetoptError:sys.exit(2)for opt, arg in opts:if opt in ("-h","--help"):print('python3 parse_xlsx.py -i <inputfile>')sys.exit()elif opt in ("-i", "--ifile"): inputfile = argreturn inputfile
2 读取xlsx文件为raw.csv
文件
def parse_xlsx(file):current_path = os.getcwd()filepath = current_path+'\\new.csv'if (os.path.exists(filepath)) :os.remove(filepath)rawdf = pd.read_excel(file, sheet_name=0)DataFrame(rawdf