问题备注
文档分析与理解在内容分析与识别、以及基于内容的检索等领域具有重要意义,一直以来受到极大关注。从图像文档中自动获取信息可以大幅度提高信息处理效率,并具有重要的应用价值。
- 表格区域定位以及矫正
- 表格检测
- 改进的自适应二值化
- 改进邻接图算法(BAG)增强了表格检测的有效性。检测出表格线之后,通过分析直线结构,表格特点,最大限度的修补缺失的表格线
- 文本提取
- 改进邻接向量连接算法,补全字符的断裂笔画。保证信息的完整性。
- 根据表格线进行文本段落定位处理,最后通过分析联通部件的特征实现文本行的分割
数据
- 300副快递单
- 40副病历文档图像