-
概念层次
概念层次概念将大量的概念用层次化的方法组织起来,使得子概念所包含的意义比它的父亲更加特殊,可以被其父概念所概括。举例概念层次能够以层次的形式和偏序的关系组织数据和概念。概念层次H,就是部分有序集(h,<),其中h是有限概念集合,<是h上的部分有序关系。如我们取一般→特殊的关系为<,可以表示城市、省份的关系,如济南<山东省<中国。…
-
842经典真题
一、体系结构题(2017) 某一系统能实现如下功能,将一组字符串交替执行大小写转换。例如 I love this game转化成I LoVe ThIs GaMe,根据某种体系结构风格,给出系统物理设计模块依赖图,并解释相应模块的职责。 这题给了一个图例,split指向lower、upper,然后upper指向merge题目分析 功能:实现字符串交替执行大小写转换 给了啥:给了一个图例split指向lower、upper,然后upper指向merge(见下图左边这个) ...…
-
python词典
词典初始化 直接dict[key] = value 初始化value值,可以采用for循环 e_count = {} for e in event: e_count[e] = 0…
-
python json
词典保存到json文件中形式一dic={"商家名称": "井格老灶火锅(望京新世界店)", "评分": 26.2, "地址": "火锅望京广顺南大街路16号", "人均消费": 105, "评论数量": 1387}with open(filename+'.json','a') as outfile: json.dump(dic,outfile,ensure_ascii=False) outfile.write('\n')形式二# 7. 保存为json, 将词典格式保存为json...…
-
Multi-Input Attention for Unsupervised OCR Correction
David Smith, Rui Dong:Multi-Input Attention for Unsupervised OCR Correction. ACL (1) 2018: 2363-2372问题备注 无监督的OCR矫正摘要 we propose a novel approach to ocr post-correction that exploits repeated texts in large corpora both as a source of noisy t...…
-
分词工具使用
pyltp使用介绍pyltp是LTP的python封装LTP介绍 哈工大社会计算与信息检索研究中心开发 提供了一整套自底向上的丰富而且高效的中文语言处理模块(包括词法、句法、语义等6项中文处理核心技术),以及基于动态链接库(Dynamic Link Library, DLL)的应用程序接口,可视化工具,并且能够以网络服务(Web Service)的形式进行使用。LTP功能 针对单一自然语言处理任务,生成统计机器学习模型的工具 针对单一自然语言处理任务,调用模型进行分析的编程接口 ...…
-
gensim安装
安装pip install gensim 加载####出现问题解决方法参考网址 https://blog.csdn.net/ZHUJIYAO/article/details/81112545…
-
word2vec
Word2vec 是一种计算效率特别高的预测模型,用于学习原始文本中的字词嵌入。它分为两种类型:连续词袋模型 (CBOW) 和-Gram 模型# import modules & set up loggingimport gensim, logginglogging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)sentences = [['first', 'se...…
-
语义角色标注
概述语义角色标注 (Semantic Role Labeling, SRL) 是一种浅层的语义分析技术,标注句子中某些短语为给定谓词的论元 (语义角色) ,如施事、受事、时间和地点等。其能够对问答系统、信息抽取和机器翻译等应用产生推动作用。缺点 对于特定谓词进行标注,多谓词没有提到 不会补出句子所省略的部分语义,信息有所缺失核心的语义角色A0-5 六种,A0 通常表示动作的施事,A1通常表示动作的影响等,A2-5 根据谓语动词不同会有不同的语义含义附加的语义角色 ADV ad...…
-
依存句法分析
概述概述 确定语言的语法体系 句法分析(给定语法体系,自动推导出句子的句法结构)语法体系1. 短语语法结构短语结构树由终节点、非终结点以及短语标记三部分组成。2. 依存语法依存语法的结构没有非终结点,词与词之间直接发生依存关系,构成一个依存对,其中一个是核心词,也叫支配词,另一个叫修饰词,也叫从属词。 依存关系用一个有向弧表示,叫做依存弧。依存弧的方向为由从属词指向支配词,当然反过来也是可以的,按个人习惯统一表示即可。 通过分析语言单位内成分之间的依存关系解释其句法结构,主张...…
-
计算机网络
一、 相关概念1. ISO七层模型及每层作用开放系统互连(Open SystemsInterconnection,OSI)是网络中两个最终用户之间通信的标准参考模型。将整个网络按照功能分为七层。上面四层用于传输来自用户的信息或将信息传输给用户。下面三层用于将信息传入主机。要传入主机的信息需要通过上面四层,要传入其他主机的信息不需要通过上面四层,而是传入另一个主机。这七层分别是: 第七层:应用层(The applicationlayer)——在这一层确定通信伙伴、服务质量,并考虑用户认证和...…
-
轮廓处理
矩的概念图像识别的一个核心问题是图像的特征提取,简单描述即为用一组简单的数据(图像描述量)来描述整个图像,这组数据越简单越有代表性越好。良好的特征不受光线、噪点、几何形变的干扰。图像识别发展几十年,不断有新的特征提出,而图像不变矩就是其中一个。矩是概率与统计中的一个概念,是随机变量的一种数字特征。设为随机变量,为常数,为正整数。则量称为关于点的阶矩比较重要的有两种情况: 这时称为的阶原点矩 这时称为的阶中心矩。 一阶原点矩就是期望。一阶中心矩μ1=0,二阶中心矩μ...…
-
霍夫变换
简介 是一种特征提取技术,该过程在一个参数空间中通过计算累计结果的局部最大值得到一个符合该特定形状的集合作为霍夫变换结果。 最初的设计是用于检测直线和曲线 霍夫变换运用两个坐标空间之间的变换将在一个空间中具有相同形状的曲线或直线映射到另一个坐标空间的一个点上形成峰值,从而把检测任意形状的问题转化为统计峰值问题。分类<1>标准霍夫变换(StandardHough Transform,SHT),由HoughLines函数调用。<2>多尺度霍夫变换(Multi-Sc...…
-
RNN
简介 为当前状态下数据的输入, 表示接收到的上一个节点的输入。 为当前节点状态下的输出,而 为传递到下一个节点的输出。通过上图的公式可以看到,输出 h’ 与 x 和 h 的值都相关。而 y 则常常使用 h’ 投入到一个线性层(主要是进行维度映射)然后使用softmax进行分类得到需要的数据。序列形式的表现,如下LSTM 是一种特殊的RNN,主要是为了解决长序列训练过程中的梯度消失以及梯度爆炸问题。 相比普通的RNN,LSTM能够在更长的序列中有更好的表现 相比...…
-
二值化
概念:一幅图像包括目标物体、背景还有噪声,要想从多值的数字图像中直接提取出目标物体,最常用的方法就是设定一个阈值T,用T将图像的数据分成两部分:大于T的像素群和小于T的像素群。这是研究灰度变换的最特殊的方法,称为图像的二值化(BINARIZATION)。作用:二值化的所用就是将图像分成黑和白,更加有利于做图像处理判别。每个像素点表示一个灰阶,然后我们将高于某一灰阶像素全部显示成白色,低于某一灰阶的像素点显示成黑色。这样就完成了对一幅图像二值化处理。在实际应用中,例如说金属表面,良品在照明下...…
-
复杂表格文档预处理与文本提取算法研究
问题备注文档分析与理解在内容分析与识别、以及基于内容的检索等领域具有重要意义,一直以来受到极大关注。从图像文档中自动获取信息可以大幅度提高信息处理效率,并具有重要的应用价值。 表格区域定位以及矫正 表格检测 改进的自适应二值化 改进邻接图算法(BAG)增强了表格检测的有效性。检测出表格线之后,通过分析直线结构,表格特点,最大限度的修补缺失的表格线 文本提取 改进邻接向量连接算法,补全字符的断裂笔画。保证信息的完整性。 ...…
-
表格处理
cv2.findConours( )简介cvFindContours可以从二值图像中检索轮廓,并返回检测到的轮廓的个数。first_contour的值由函数填充返回,它的值将为第一个外轮廓的指针,当没有轮廓被检测到时为NULL。其它轮廓可以使用h_next和v_next连接,从first_contour到达。[cpp] view plaincopyint cvFindContours( CvArr* image, CvMemStorage* storage, CvSeq** first_c...…
-
Comparing Machine Learning Approaches for Table Recognition in Historical Register Books
Stéphane Clinchant, Hervé Déjean, Jean-Luc Meunier, Eva Maria Lang, Florian Kleber:Comparing Machine Learning Approaches for Table Recognition in Historical Register Books. DAS2018: 133-138[CCF B类]问题备注 hand-written register books 手写登记簿的识别 ...…
-
Towards End-to-end Text Spotting with Convolutional Recurrent Neural Networks
问题备注论文提出一种统一的网络结构模型,这种模型可以直接通过一次前向计算就可以同时实现对图像中文本定位和识别的任务。这种网络结构可以直接以end-to-end的方式训练。输入 图像 图像中文本的bbox 文本是标签信息优点 可以学习到更加丰富的特征信息 所需时间更少,因为在文本检测和识别的时候,只需要计算一次图像的特征,这种特征是同时别文本检测和识别所共享的。方法检测和识别统一到一个模型里面,进行end-to-end训练优点 由于检测和识别是高度相关的,因此将检测和识别统一到一...…
-
Table Recognition in Spreadsheets via a Graph Representation
Elvis Koci, Maik Thiele, Wolfgang Lehner, Oscar Romero:Table Recognition in Spreadsheets via a Graph Representation. DAS 2018: 139-144 [CCF B]问题备注 通过图形表示识别电子表格中的表格识别摘要 abstract—spreadsheet software are very popular data management tools. ...…