复杂表格文档预处理与文本提取算法研究

问题备注

文档分析与理解在内容分析与识别、以及基于内容的检索等领域具有重要意义,一直以来受到极大关注。从图像文档中自动获取信息可以大幅度提高信息处理效率,并具有重要的应用价值。

  • 表格区域定位以及矫正
  • 表格检测
    • 改进的自适应二值化
    • 改进邻接图算法(BAG)增强了表格检测的有效性。检测出表格线之后,通过分析直线结构,表格特点,最大限度的修补缺失的表格线
  • 文本提取
    • 改进邻接向量连接算法,补全字符的断裂笔画。保证信息的完整性。
    • 根据表格线进行文本段落定位处理,最后通过分析联通部件的特征实现文本行的分割

数据

  • 300副快递单
  • 40副病历文档图像

方法

所用模型

实验

结论

启发

参考文献

打赏一个呗

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码支持
扫码打赏,你说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦