分享好友 最新资讯首页 最新资讯分类 切换频道
自然语言处理PJ Outline
2024-11-07 22:53

分两部分做. 第一部分是无损文本压缩, 第二部分是sentence level text summarization, 唤作有损文本压缩. 这部分就放弃了, 估计做不出来, 没必要庸人自扰.

自然语言处理PJ Outline

不要对第二部分寄太高期望, 因为大概率完不成, 毕竟我对这一领域之前毫无接触. 果然, 你个小辣鸡.

实验, 压缩html, 利用rnn的对结构性语义的学习能力.

整体引入. 互联网产生文本太多(?是否是伪命题?)存储和传播如果不进行压缩很不经济. 在安装NLTK语料库的时候, 将近300M的文本也下载了很久. (更多例子, 网文等, 说明文本压缩的意义)

信息论. 要有数学的成分, 主要说明, 编码与信息熵. 介绍哈弗曼编码, 理论计算用哈弗曼编码对brown语料库逐字符和逐词压缩的压缩率. 介绍算数编码. 说明算数编码的优越性. 

模块化算数编码部分, 完全分离编码和模型. 即编码只负责按频率区间划分以及落在的区间进行编码, 解码就反过来, 按区间划分与所落在的区间解码. 做成API来调用. (是否用C++来完成会更好?即python 内嵌C++ ref2 ref3)

简要综述数据压缩. 说明数据压缩=编码+模型. 然后说明, 编码是已经解决的问题, 而模型更多是一个ai problem. 参考老爷子的书

PPM. 用python复现一个PPM来压缩brown语料库(or 整个语料库, 这样能和300M做对比233). 注意使用nltk中的自带的函数, 用n-gram代替上文的说法, 用FreqDist来做统计. (感觉复杂度要爆炸)

引入文本预测, LSTM. 参考多方资料, 现有Stanford一篇, 再看看CMIX和PAQ8的做法, 这方面研究应该前人做透了. 做benchmark, 如压一下enwiki8. 能做到state of art就美滋滋了.

似乎LSTM是做Context Mixing的? 预测字符仿佛用的是rnn? 这里是karpathy对rnn的说明, 以及他基于rnn的逐字符文本生成实现.

LSTM的几个实现

https://github.com/kedartatwawadi/NN_compression 这个仿佛就是Stanford那个家伙...

https://github.com/byronknoll/lstm-compress CMIX的实现, 竟然是手写反向传播...orz

关注sentence level text summarization.

两方面, 一方面是传统做法, 试图对句子结构做分析, 采用已有标注的语料, 化简句子结构.

最新文章
均安SEO优化攻略,揭秘全方位网站排名提升秘诀
均安SEO优化策略,全方位提升网站排名秘诀:优化关键词、提高内容质量、加强外链建设、优化网站结构、提升用户体验。通过这些方
北交所科技成长产业跟踪第三期:华为Mate品牌盛典发布鸿蒙AI新品,关注北交所鸿蒙%26星闪相关公司.pdfVIP
源引金融活水润泽中华大地内容目录1.华为Mate品牌盛典如期举行,多款AI终端亮相51.1.Mate70蕴含九大AI功能,MateX6首发星闪关机
一、智能创作平台的全方位解决方案
在数字化时代的浪潮中内容创作已成为企业竞争和塑造的核心环节。传统的内容创作方法往往耗时耗力,且难以保证内容的品质和一致性
【GPT-4】GPT-4 是否已经显示出通用人工智能的迹象?——微软已经为 OpenAI 的 GPT-4 创建了一系列测试,它声称表明人工智能模型已经显示出通用智能的“火花”
目录 GPT-4 是否已经显示出通用人工智能的迹象? Is GPT-4 already showing signs of artificial general intelligence? "We bel
惠普和rog哪个好(6000买惠普还是华硕)
在操作系统选择方面,ROGGU604和HP暗影精灵9/光精灵9均支持流行的Windows和Linux系统,提供灵活的使用环境。 ROGGU604 的快速充
【HM1SUC浏览器下载】小米HM1SUC浏览器17.1.6.1347免费下载
UC专注16年,成就全球第三方手机浏览器全球6亿人上网必备APP,群众的眼睛是雪亮的头条视频小说网盘小游戏,想你之所想一应俱全UC
如何有效获取视频号微信搜索流量(实用技巧,让你的视频号获得更多关注)
视频号微信已经成为了许多人获取流量的何有号获平台、随着社交媒体的效获发展。如何让自己的取视视频号在微信搜索中获得更多的流
【R7(R7t/移动4G)支付宝下载】OPPO R7 R7t/移动4G支付宝10.6.70.8100免费下载
支付宝是蚂蚁集团旗下业务,诞生于2004年,已经成长为的数字支付开放平台和服务业数字化经营开放平台。我们面向消费者、各行各业
SEO神器助力企业网站,高效排名优化,提升在线曝光力
SEO推广软件排名优化,是帮助企业提升网站在线曝光率的有效工具。通过智能算法和策略,该软件助力企业网站在搜索引擎中实现更优
湘潭360seo优化报价_湘潭专业的关键词优化报价保举(湘潭有实力sem优化哪家好)
秒速排为企业提供一站式seo推广办理方案,核心业务包罗百度霸屏企业站群推广百家号运营,企业网站建立,百度推广百度竞价托管360