Linxia Yao

attention

简介用于提升基于RNN（LSTM或GRU）的Encoder + Decoder模型的效果的的机制（Mechanism）一种资源分配模型，在某个特定时刻，你的注意力总是集中在画面中的某个焦点部分，而对其它部分视而不见。适用领域机器翻译、语音识别、图像标注（Image Caption）等很多领域优点 Attention给模型赋予了区分辨别的能力在机器翻译、语音识别应用中，为句子中的每个词赋予不同的权重，使神经网络模型的学习变得更加灵活（soft...…

2019-01-18

机器学习

 阅读全文 »
Commonsense for Generative Multi-Hop Question Answering Tasks

问题备注常识用于回答生成式多跳阅读理解阅读理解给一个文本片段和一个问题，给出问题的答案摘要贡献 multihop generative task (NarrativeQA), 多跳生成式任务推理、聚合、同步上下文中不同的信息，然后生成答案。这种推理能理解隐含的关系，而人类是通过外部的、背景常识做到。一个强的生成式baseline——multi-attention模型，用于实现多跳推理；以及pointer-generator decoder模型，用于合成答案...…

2019-01-17

文献阅读

 阅读全文 »
python数据库操作

[TOC]连接数据库pymysql.connect 提供了连接数据库的方法，该方法会连接数据库并且返回一个对象，表示当前到数据库的会话相关操作如下 import pymysql conn=pymysql.connect(host='127.0.0.1',port='3306',user='root',passwd='198903017', db='api_database',use_unicode=True, charset...…

2019-01-16

实习

 阅读全文 »
Web基础知识

[TOC]POST与GET简介 GET和POST是HTTP请求的两种基本方法 GET把参数包含在URL中 POST通过request body传递参数 HTTP是什么？HTTP是基于TCP/IP的关于数据如何在万维网中如何通信的协议。 HTTP的底层是TCP/IP。所以GET和POST的底层也是TCP/IP，也就是说，GET/POST都是TCP链接。GET和POST能做的事情是一样的。你要给GET加上request body，给POST带上url参数，技术...…

2019-01-11

实习

 阅读全文 »
flask学习

[TOC]基本概念一个由python实现的web框架 Flask 不会替你做出太多决策——比如使用何种数据库。而那些 Flask 所选择的——比如使用何种模板引擎——则很容易替换。除此之外的一切都由可由你掌握。如此，Flask 可以与您珠联璧合不包含数据库抽象层，表单验证 Flask 支持用扩展来给应用添加这些功能，众多的扩展提供了数据库集成、表单验证、上传处理、各种各样的开放认证技术等功能安装 Flask 依赖两个外部库：Werkzeug 和 Jinja2 。 Werkz...…

2019-01-08

实习

 阅读全文 »
ElasticSearch学习

[TOC]基本概念Near Realtime(NRT)Elasticsearch是一个近实时搜索平台。这意味着从索引文档到可搜索文档的时间有一点延迟（通常是一秒）。ClusterA cluster is a collection of one or more nodes (servers) that together holds your entire data and provides federated indexing and search capabilities across ...…

2019-01-03

实习

 阅读全文 »
Correction of OCR Word Segmentation Errors in Articles from the ACL Collection through Neural Machine Translation Methods

Vivi Nastase, Julian Hitschler:Correction of OCR Word Segmentation Errors in Articles from the ACL Collection through Neural Machine Translation Methods. LREC 2018用神经机器翻译方法纠正文章集中的分词错误方法 depending on the quality of the original document, optic...…

2018-12-31

文献阅读

 阅读全文 »
Statistical learning for OCR error correction

Jie Mei, Aminul Islam, Abidalrahman Moh’d, Yajing Wu, Evangelos E. Milios:Statistical learning for OCR error correction. Inf. Process. Manage. 54(6): 874-887 (2018)问题备注 OCR后处理 OCR矫正 ### 摘要 modern ocr engines incorporate some form...…

2018-12-29

文献阅读

 阅读全文 »
A novel Arabic OCR post-processing using rule-based and word context techniques. IJDAR

Iyad Abu Doush, Faisal Alkhateeb, Anwaar Hamdi Gharaibeh:A novel Arabic OCR post-processing using rule-based and word context techniques. IJDAR 21(1-2): 77-89 (2018)问题备注方法所用模型实验结论启发参考文献…

2018-12-29

文献阅读

 阅读全文 »
Enhancing RNN Based OCR by Transductive Transfer Learning From Text to Images

Yang He, Jingling Yuan, Lin Li:Enhancing RNN Based OCR by Transductive Transfer Learning From Text to Images. AAAI 2018: 8083-8084基于文本到图像的再加工学习摘要 this paper presents a novel approach for optical character recognition (ocr) on acceleration an...…

2018-12-28

文献阅读

 阅读全文 »
[B会]Improving OCR Accuracy on Early Printed Books by Utilizing Cross Fold Training and Voting. DAS 2018

Christian Reul, Uwe Springmann, Christoph Wick, Frank Puppe:Improving OCR Accuracy on Early Printed Books by Utilizing Cross Fold Training and Voting. DAS 2018: 423-428问题备注，摘要利用交叉训练和投票，改善在早期打印书本上的OCR准确率执行几个训练过程，每个训练过程，产生一个特定的OCR模型通过这些模型产生出的O...…

2018-12-26

文献阅读

 阅读全文 »
Post-correction of OCR Errors Using PyEnchant Spelling Suggestions Selected Through a Modified Needleman-Wunsch Algorithm

Christian Reul, Uwe Springmann, Christoph Wick, Frank Puppe: Improving OCR Accuracy on Early Printed Books by Utilizing Cross Fold Training and Voting. DAS 2018: 423-428使用经过修改的辅助算法选择的拼写建议对错误进行修正后方法 in this article, the efforts made by the ...…

2018-12-25

文献阅读

 阅读全文 »
Evaluating the Impact of OCR Errors on Topic Modeling. ICADL 2018

Stephen Mutuvi, Antoine Doucet, Moses Odeo, Adam Jatowt:Evaluating the Impact of OCR Errors on Topic Modeling. ICADL 2018: 3-14方法所用模型实验结论启发参考文献…

2018-12-24

文献阅读

 阅读全文 »
给定字段提取名词

词林给定字段提取名词简介对于给定的name字段进行分词，并且只留下来名词相关的格式如下： {“name:"xxxx","word_list":["x","xx"]}格式里面只保留名词涉及知识点 LTP的分词 LTP进行词性标注字典的相关操作思路先分词然后词性标注然后再放到一个新的大的字典中出现问题源码…

2018-12-20

实习

 阅读全文 »
Bootstrap

简介总体永远都无法知道，我们知道的只有样本问题就是，如何利用样本 Bootstrap：既然样本是抽出来的，就从样本中再抽样 Bootstrap的一般的抽样方式都是“有放回地全抽”（其实样本量也要视情况而定，不一定非要与原样本量相等），意思就是抽取的Bootstrap样本量与原样本相同，只是在抽样方式上采取有放回地抽，这样的抽样可以进行B次，每次都可以求一个相应的统计量/估计量，最后看看这个统计量的稳定性如何（用方差表示）。以原始数据为基础的模拟抽样统计推断法用于研究一...…

2018-12-19

实习

 阅读全文 »
交通事故法律知识

事故处理流程2018交通事故处理流程详解一、当事人对事实及成因有争议：二、当事人对事实及成因无争议：交通事故处理处理流程交通事故事故协议书 http://www.66law.cn/laws/112906.aspx交通事故私了协议书范本交通事故私了协议书甲方：身份证号：甲方委托代理人：身份证号：乙方：身份证号：乙方委托代理人：身份证号：20XX年X月X日X时左右，甲方驾驶摩托车在哈拉木头与张家营子路段与乙方发生刮碰，事后，甲方及时送乙方去医院进行了CT，X光机及B超检查，经诊断为软...…

2018-12-14

实习

 阅读全文 »
wget操作

简介1）支持断点下传功能（2）同时支持FTP和HTTP下载方式（3）支持代理服务器（4）设置方便简单；5）程序小，完全免费；命令格式wget [参数列表] [目标软件、网页的网址]举例wget “http://192.168.68.38:5678/?path=/usr/local/src/data/doc_imgs/2014东刑初字第0100号_诈骗罪208页.pdf/img-0008.jpg” -O test.json或者wget "http://nju-vm:5678/?path=/u...…

2018-12-13

Linux

阅读全文 »
命名实体识别

概念层次命名实体识别概念命名实体识别（Named Entity Recognition，简称NER），又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。通常包括两部分：（1）实体边界识别；（2）确定实体类别（人名、地名、机构名或其他）。是一个分类问题，给一个单词判断是哪个类别主要工作识别出有意义的短语并进行分类实体：（组织名，人名，地名）、时间表达式（日期、时间）和数字表达式（货币值、百分数等）主要方法基于规则根据语言学上的...…

2018-12-12

实习

 阅读全文 »
OCR项目说明

目录总览configsinfer.yaml:预测时候的配置文件punctuation_letter_digit.yaml:标点符号，数字，字母的配置文件single_char.yaml:字的训练模型models相关模型processingrectification.py：模型的纠正single_char_processing.py:整个文件数据的处理初始化-加载模型调用load函数，需要输入模型的宽w，高h，类书num_class，ckpt_dir：训练好的checkp...…

2018-12-12

OCR

阅读全文 »
词林

词林概念词林是翰林或翰林院的别称，也可以指词坛可以查找意思解释，语法，示例，典故包含中文词语解释目前词林哈工大同义词词林《同义词词林》是梅家驹等人于1983年编纂而成，哈工大实验室基于该词林进行扩展，完成了词林扩展版。哈工大社会计算与信息检索研究中心为了扩充《同义词词林》，利用已有的汉语词语相关资源并投入大量的人力和物力，完成了一部具有汉语大词表的《哈工大信息检索研究室同义词词林扩展版》（以下简称《同义词词林（扩展版）》），最终的词表包含 77,3...…

2018-12-10

实习

 阅读全文 »