博客主页 所有文章 标签 关于我
img

stone

soft-engineering

Linxia Yao

personal site

welcome to my home ~


  • 博客主页
  • 所有文章
  • 标签
  • 关于我
  1. 李宏毅讲解bert,elmo

    简介 以前是每个type有一个embedding,现在是每个token都有一个embedding …

    2020-07-29
    阅读全文 »

  2. 社会招聘投递

    社招公司汇总字节跳动 https://job.bytedance.com/society/ …

    2020-06-01
    阅读全文 »

  3. Docker学习

    Docker介绍容器有点像轻量级的虚拟机,能够提供虚拟化的环境,但是成本开销小得多Docker 属于 Linux 容器的一种封装,提供简单易用的容器使用接口。它是目前最流行的 Linux 容器解决方案。Docker 将应用程序与该程序的依赖,打包在一个文件里面。运行这个文件,就会生成一个虚拟容器。程序在这个虚拟容器里运行,就好像在真实的物理机上运行一样。有了 Docker,就不用担心环境问题。总体来说,Docker 的接口相当简单,用户可以方便地创建和使用容器,把自己的应用放入容器。容器还...…

    2020-05-25
    阅读全文 »

  4. markdown公式学习

    参考网址: https://www.zybuluo.com/codeep/note/163962…

    2020-05-16
    环境工具
    阅读全文 »

  5. [Ghosh K, Chakraborty A, Parui SK, Majumder P (2016) Improving Information Retrieval Performance on OCRed Text in the Absence of Clean Text Ground Truth. Inf Process Manag.doi:10.1016/j.ipm.2016.03.006. Artice in press 下载要钱 摘要T...…

    2020-08-10
    阅读全文 »

  6. 编程题总结

    基础准备 输入的读取解析和格式输出 基础类型 bit,byte,浮点型,8进制/10进制/16进制,补码基础数据结构字符串 标准库 解析 匹配拼接"".join(list)def restoreString(self, s: str, indices: List[int]) -> str: res = [''] * len(s) for i in range(len(indices)): res[indices[i]] = s[i] return "".j...…

    2020-08-08
    阅读全文 »

  7. Nlp 项目三

    0. 项目简介PDF文档关键信息自动高亮项目流程 PDF转HTML PDF转文本 文本关键词提取 解析第1步骤中的HTML标签,匹配第3步骤中提取的关键词,修改标签进行高亮(FSM算法) Bottle/Flask进行部署1. PDF转成HTMLpdf转html(pdf) https://github.com/coolwanglu/pdf2htmlEX安装 https://pypi.org/project/pdfminer/pip install pdfminer(此方法安装出...…

    2020-05-24
    阅读全文 »

  8. Nlp 项目二

    项目简介在线舆情自动检测系统按照要求,返回一些你关注的信息。比如你要关注顾客给你 店铺的差评,从而你可以改进自己的店铺; 或者你要关注其他店铺的好评然后看其他店铺的优点并学习。舆情分析系统的核心技术在于舆情分析引擎,涉及的最主要的技术包括文本分类、聚类、观点倾 向性识别、主题检测与跟踪、自动摘要等计算机 文本信息内容识别技术。数据获取爬虫技术根据相应任务,爬取数据网络请求爬虫流程控制模块内容分析提取模块直接下载数据餐馆数据 https://github.com/SophonPlus/Ch...…

    2020-05-08
    阅读全文 »

  9. Nlp 15 目前人工智能与局限性、前沿 nlp 问题的现状及发展情况

    目前人工智能与局限性、前沿 NLP 问题的现状及发展情况**…

    2020-04-28
    阅读全文 »

  10. Nlp 12 自如语言理解的关键问题

    自然语言理解的关键问题基于DNN生成式对话系统有哪些缺点,优点缺点: 训练数据 依赖训练数据等数量,质量 目标函数 不具有可解释性 优点:实现简单,不依赖规则,数据,模型泛化性好LDA gensim中库 模型需要学习两个分布,通过采样分布 文档-主题分布 主题-词分布 无监督学习 通过最后词的结果,判断主题 要先确定主题数 训练过程 文档中每个词赋与一个主题 吉布斯采样,通...…

    2020-04-18
    阅读全文 »

  11. Nlp 11 动态规划与编辑距离

    装饰器 可以在不改变函数内部代码的情况下,增加一些其他的功能 贪心得到的不一定是最优的,可能是局部最优,不是递归,每次都选取最优的,但是不能保证是全局最优的 情况1: 删除,当两个字符串相差一个时,就删除其中一个,编辑距离为1 情况2: 插入,插入一个字符,默认编辑距离为1 情况3: 替换,替换时,默认编辑距离为2,可以使用Momentum优化基于动量不同梯度下降批量梯度下降批量梯度下降法(Batch Gradient Descent,简称BGD)是梯度下...…

    2020-04-17
    阅读全文 »

  12. 论文查重

    大雅 http://dsa.dayainfo.com/smas/show/uploadCheckPass http://www.biguolunwen.com/check/checkpass学校提供万方 http://lib.nju.edu.cn/info/1012/2776.htmwritepass http://www.writepass.cn/report其他…

    2020-04-01
    环境工具安装
    阅读全文 »

  13. mac下tesseract安装和使用

    前提 在安装好homebrew的前提下 macOS 10.15.3指令brew install tesseract安装pytesseract字体安装 如果需要识别中文或者其他字体,还需要进一步安装字体 参考https://www.jianshu.com/p/8729de67a83c参考网址 https://github.com/tesseract-ocr/tesseract/wiki…

    2020-03-22
    环境工具安装
    阅读全文 »

  14. homebrew安装

    参考网址: http://brew.sh/index_zh-cn.html https://blog.csdn.net/zzq900503/article/details/80404314…

    2020-03-22
    环境工具安装
    阅读全文 »

  15. flask

    ###…

    2020-03-16
    工程
    阅读全文 »

  16. Nlp 10 经典机器学习

    经典机器学习深度学习存在的问题 不能一味扩充模型的大小,维度上升,特征数的上升,计算成本变高,也会导致过拟合等 很依赖数据,但是获取高质量的数据成本很高贝叶斯 需要便利H,但是H可能很多,所以计算很难实现,所以后面引入朴素贝叶斯算法KKT条件等式不等式放在一起,叫做KKT条件。支持向量机直到2012年被深度学习替代SVM优缺点优点 可以得到全局最优 通过kernal可以支持非线性 不会带来维度灾难 具有可解释性缺点 计算复杂度比较高 本质上是一个二分类,如果需要进行多分类...…

    2020-03-15
    阅读全文 »

  17. 知识图谱入门于实践

    知识图谱入门与实践公司 bosonnlp https://bosonnlp.com/ …

    2020-03-14
    阅读全文 »

  18. Tensorflow2.0

    tensorflow2.0tf2.0和tf1.x1区别 tf1.x:静态图 每次编译都是固定的 Tf2.x:动态图 checkpoints 只保存权重dropout ==0.5 代表50%的神经元被删除了batchnorm 在训练,测试的时候,会用到不同的参数 为什么要使用Batchnorm? 因为经过非线性激活函数后,可能数据会变得很奇怪。 所以有人...…

    2020-03-12
    阅读全文 »

  19. conda安装pytorch

    新建pytorch环境conda create -n pytorch37 python=3.7使用activate激活该环境source activate pytorch37安装pytorchconda install pytorch然后打开notebook需要先安装notebook启动notebookjupyter notebook参考网址 https://blog.csdn.net/m0_37240250/article/details/84402102…

    2020-03-11
    环境工具安装
    阅读全文 »

  20. Nlp 09 经典机器学习模型详解

    assignment09 经典机器学习目录深度学习缺点 深度学习的一个缺点是可解释性不强,模型内部是黑箱。 自然语言中的指代消歧,存在偏见tensorflow提供的降纬工具交叉验证KNN 惰性算法 纬度灾难 所以实际中不怎么会使用KNNyoutube一个视频 反卷积结果,可视化出来对抗样本 给输入加噪音,比如负的加正的,正的加负的 图中展示的是混淆矩阵 ROC曲线越靠上,效果越好 UCI:机器学习数据集代称SHAP 可解释性分析 github上有优化论,矩阵论在...…

    2020-03-11
    阅读全文 »


1 / 15 更早 →
  • Weibo
  • Github
  • Twitter
  • RSS
  • Email

Copyright © Linxia Yao 2020 Theme by leopardpan |

本站总访问量 次