Skip to content

minexcel

minexcel 是一个处理复杂 Excel 表格,挖掘有效数据的 python 包

pip install minexcel

读取 excel 中格式化的数据 block

excel 中格式化的数据 block 常常难以被简单读取,在涉及到合并单元格时更是如此。minexcel 将数据 block 抽象为几种组成部分,并支持用简易的标记表示

你可以新建一个.xlsx文件,按以下格式输入数据 block 的模板:

  • [tablemeta]:表格元数据。每个 block 可以有多个表格元数据,但每个表格元数据只能有一个值

  • [rowmeta]:行元数据。数据在行方向的扩展信息,包括传统的行名

  • [colmeta]:列元数据。数据在列方向的扩展信息,包括传统的列名

  • 留空:核心数据区域。该区域应该无行名、无列名

  • [ignore]:解析时忽略的单元格。注意,原表格中元数据名称所在的单元格,应标记为[ignore]

随后,使用 minexcel 解析

import minexcel as mxl

tmpl = mxl.parse_template("template.xlsx")
res = mxl.read_block_excel("data.xlsx", tmpl)

可得到结构化的数据