博客主页 所有文章 标签 关于我
img

stone

soft-engineering

Linxia Yao

personal site

welcome to my home ~


  • 博客主页
  • 所有文章
  • 标签
  • 关于我
  1. Multi-headed Architecture Based on BERT for Grammatical Errors Correction

    摘要In this paper, we describe our approach to GEC using the BERT model for creation of encoded representation and some of our enhancements, namely, “Heads” are fully- connected networks which are used for find- ing the errors and later receive reco...…

    2019-11-08
    文献阅读
    阅读全文 »

  2. 文本纠错综述

    研究背景中文文本纠错,常见类型包括:谐音字词纠错,如 配副眼睛-配副眼镜混淆音字词纠错,如 流浪织女-牛郎织女字词顺序颠倒纠错,如 伍迪艾伦-艾伦伍迪字词补全,如 爱有天意-假如爱有天意形似字纠错,如 高梁-高粱中文拼音推导,如 xingfu-幸福中文拼音缩写推导,如 sz-深圳语法错误,如 想象难以-难以想象文本纠错任务包括对于文本中的错误检测和纠正。这项任务在NLP领域至关重要,是后续应用任务比如搜索引擎,自动文本打分的基础,文本纠错错误不仅有可能会影响阅读,同时还有可能会完全改变整个...…

    2019-11-07
    文本纠错
    阅读全文 »

  3. 词向量

    介绍 在原有此向量基础上,添加拼音词向量 词向量拼接那块卡了很久import numpy as npimport tensorflow as tfa=tf.constant(np.array([[1 , 2, 3]]))b=tf.constant(np.array([[3,2,2]]))c1=tf.concat([a,b],axis=0)c2=tf.concat([a,b],axis=1)sess=tf.Session()sess.run(tf.global_variables_ini...…

    2019-11-05
    文本纠错
    阅读全文 »

  4. CS224n作业

    作业一从讲神经网络不得不提的Softmax开始,实现一个简单的神经网络,然后要求实现NLP中最基本最重要的两种WordVector模型,最后进行情感分析。参考网址 https://www.jianshu.com/p/43c85f1a787b作业二作业三作业四…

    2019-11-04
    机器学习
    阅读全文 »

  5. pycorrector

    seq2seq_attentionconfig.py 设置训练数据所在路径 设置结果存放路径 数据处理后训练,测试集路径 模型存储位置pwd_path = os.path.abspath(os.path.dirname(__file__))# Training data path.# chinese corpusraw_train_paths = [ os.path.join(pwd_path, '../data/cn/CGED/CGED18_HSK_Traini...…

    2019-11-01
    文本纠错
    阅读全文 »

  6. transformer

    简介Transformer由论文《Attention is All You Need》提出,现在是谷歌云TPU推荐的参考模型模型结构自注意力作用 帮助编码器对每个单词编码时,可以关注其他单词decoder解码器中也有编码器的自注意力(self-attention)层和前馈(feed-forward)层。除此之外,这两个层之间还有一个注意力层,用来关注输入句子的相关部分(和seq2seq模型的注意力作用相似)。参考网址 <https://nocater.github.io/2019...…

    2019-10-30
    机器学习
    阅读全文 »

  7. 繁体转简体

    主要内容# -*- coding: utf8 -*-def test_opencc(): import opencc cc = opencc.OpenCC('t2s') print(cc.convert(u'Open Chinese Convert(OpenCC)「開放中文轉換」,是一個致力於中文簡繁轉換的項目,提供高質量詞庫和函數庫(libopencc)。'))from zhtools.langconv import *def Traditional2Simplifie...…

    2019-10-23
    文本纠错
    阅读全文 »

  8. kenlm使用

    参考网址 https://blog.csdn.net/Nicholas_Wong/article/details/80013547出现问题 cmake Could NOT find ZLIB (missing: ZLIB_LIBRARY) https://blog.csdn.net/bobay/article/details/78616649 apt-get install zlib1g zlib1g-dev Eigen3找不到 按照安装过程的提...…

    2019-10-21
    环境工具安装
    阅读全文 »

  9. macOS系统下安装虚拟机

    参加网址 参考的B站上的一个视频 https://www.bilibili.com/video/av36914543?from=search&seid=7664098763037668914 资源地址 Windows镜像资源 http://msdn.itellyou.cn/ 下载版本 Windows 10 (consumer editions), version 1903 (updated Sept 2019) (x64) - DVD (Ch...…

    2019-10-17
    环境工具安装
    阅读全文 »

  10. BERT

    一、简介BERT模型实际上是一个语言编码器,把输入的句子或者段落转化成特征向量(embedding)。论文中有两大亮点:1.双向编码器。作者沿用了《attention is all you need》里提到的语言编码器,并提出双向的概念,利用masked语言模型实现双向。2.作者提出了两种预训练的方法Masked语言模型和下一个句子的预测方法。作者认为现在很多语言模型低估了预训练的力量。Masked语言模型比起预测下一个句子的语言模型,多了双向的概念。二、输入输入表示为每个词对应的词向量,...…

    2019-10-15
    机器学习
    阅读全文 »

  11. 恒大集团

    宣讲时间2019/10/10,晚上6:30, 宣讲会宣讲地点南大鼓楼校区逸夫楼报告厅现场宣讲会人特别多宣讲内容 恒大旅游业 恒大农业 恒大健康-养老 全生命周期 高科技集团 智慧社区,高科技,有自己的财物管理 物业 恒大足球 恒大扶贫 …

    2019-10-10
    工作
    阅读全文 »

  12. 中国建设银行

    面试时间2019/10/10,下午2:30-, 宣讲会+面试面试地点南大鼓楼校区现场宣讲会人特别多宣讲内容 什么样的人适合去银行? 不是那么优秀,踏实努力的; 觉得自己工作不是太主动,但是会自主承担压力; 银行资历很重要,资历是个人品牌; 建行是非常务实,非常稳健; 听从自己的内心,听从自己的价值观; 面试内容一个面试官(很优雅很有气质的一位面试官); 问了身高 年龄,按身份证 父母工作 怎么看待公务员和其他企业?(这个答得不好,我直接说了...…

    2019-10-10
    工作
    阅读全文 »

  13. 国家安全机关

    面试时间2019/10/10,下午9:30-10:30, 宣讲会+面试面试地点南大仙林校区现场宣讲会人特别多面试内容一个面试官(很优雅很有气质的一位面试官); 问了身高 年龄,按身份证 父母工作 怎么看待公务员和其他企业?(这个答得不好,我直接说了,公务员比较稳定,有奉献精神)…

    2019-10-09
    工作
    阅读全文 »

  14. mac快捷键使用

    Shift+command+3: 全屏截图 Shift+command+4: 剪切截图 Command + delete:删除 Command + N:新建(新建的是你正在用的东西。如果正在用浏览器,新建的就是浏览器页面;如果用的是文档例如word,新建的就是word) Command + tab:切换页面 7. Multi-Touch 触控板手势 除了快捷键之外,Multi-Touch 触控板也是提高效率的一大法宝,Mac的触控板和...…

    2019-07-20
    环境工具安装
    阅读全文 »

  15. Leveraging text repetitions and denoising autoencoders in ocr post Correction

    在OCR中利用文本重复和去噪自动编码器校正后摘要使用生成的数据,训练了一个基于字符级别的seq2seq的数据参考 https://cloud.tencent.com/developer/article/1435917 https://github.com/wanghaisheng/awesome-ocr/wiki/%E4%B8%AD%E6%96%87%E8%AE%AD%E7%BB%83%E5%BA%93%E7%9A%84%E6%9E%84%E5%BB%BA…

    2019-07-17
    阅读全文 »

  16. Semi-Supervised Sequence Modeling with Cross-View Training

    Kevin Clark, Minh-Thang Luong, Christopher D. Manning, Quoc V. Le:Semi-Supervised Sequence Modeling with Cross-View Training. EMNLP 2018: 1914-1925摘要 unsupervised representation learning algorithms such as word2vec and elmo improve the accu...…

    2019-07-07
    文献阅读
    阅读全文 »

  17. CS224N学习笔记

    第一讲 NLP和深度学习入门 自然语言处理在冷战时期, 最早是在机器翻译这边做了很多的研究 语言用向量表示 语音识别方面取得了很大的成就 深度学习的引入,对于自然语言处理,产生了巨大的贡献第二讲 词向量表示:word2vec 补充一些数学知识 词语表征 最早的方法,是当做分类问题来做(wordNet) WordNet找不出具有微小差别的词语 后来使用one-hot, 问题:词语之间存在关系 解决办法,简历词汇之间一套完全独立的相似性关系…

    2019-07-02
    NLP
    阅读全文 »

  18. python表格

    写入数据到表格#!/usr/bin/env python# _*_ coding:utf-8 _*_from xlwt import *# 指定以utf-8格式打开file = Workbook(encoding='utf-8')# 指定打开的文件名table = file.add_sheet('data')# 字典数据data = { "1": ["张三", 150, 120, 100], "2": ["李四", 90, 99, 95], "3": ["王五", 60,...…

    2019-07-02
    python学习
    阅读全文 »

  19. Linguistically-Informed Self-Attention for Semantic Role Labeling

    Emma Strubell, Patrick Verga, Daniel Andor, David Weiss, Andrew McCallum:Linguistically-Informed Self-Attention for Semantic Role Labeling. EMNLP 2018: 5027-5038 语义角色标注中语言知情的自我关注摘要 提出了将 multi-head self-attention 与多任务学习相结合的模型,该模型可以仅使用原始的 token ...…

    2019-06-30
    文献阅读
    阅读全文 »

  20. OCR数据集

    下载古文+搜狗数据+人造行数据 数据集链接: https://pan.baidu.com/s/1jJWfDmm 密码: vh8p (中英数300W+,语料不均衡) 链接:https://pan.baidu.com/s/1oEWTrx20G41iNaJYF-xa6w 提取码:szj7 (ICDR 2013+少量中文) https://github.com/xiaomaxiao/keras_ocr …

    2019-06-04
    OCR
    阅读全文 »


← 最近 4 / 15 更早 →
  • Weibo
  • Github
  • Twitter
  • RSS
  • Email

Copyright © Linxia Yao 2020 Theme by leopardpan |

本站总访问量 次