分享好友 最新动态首页 最新动态分类 切换频道
知识图谱学习(一):知识提取
2024-12-27 09:33

1.1.1 regex语法
推荐网站http://pythex.org/,不但有语法,还可以在线测试

知识图谱学习(一):知识提取

1.1.2 match匹配模式
re.match(pattern,string,flags)尝试从字符串的开始匹配一个模式,flags是匹配模式,可以使用按位或’|’表示同时生效,也可以在正则表达式字符串中指定。
1).re.I(re.IGNORECASE): 忽略大小写
2).re.M(MULTILINE): 多行模式,改变’^’和’$’的行为
3).re.S(DOTALL): 点任意匹配模式,改变’.’的行为
4).re.L(LOCALE): 使预定字符类 w W b B s S 取决于当前区域设定
5).re.U(UNICODE): 使预定字符类 w W b B s S d D 取决于unicode定义的字符属性

1.1.3 search匹配模式
若string中包含pattern子串,则返回Match对象,否则返回None,注意,如果string中存在多个pattern子串,只返回第一个。

1.1.4 group提取数据

分词也是后续处理的基础。分词做得好,核心秘密在词库,算法的影响反而不太大。分词是会出错的。不过有些场合(比如检索排序,只要错误是一贯的,影响也不是太大。分词后面可以用规则来弥补。工程上很丑陋,上不了台面,但对早期的小项目可能够用了。
推荐工具: jieba/PyNLPIR/Hanlp

2.1.1 jieba.cut
方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型

2.1.2 jieba.cut_for_search
方法接受两个参数:需要分词的字符串;是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细

2.1.3 jieba.cut 以及 jieba.cut_for_search
返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语(unicode),或者用jieba.lcut 以及 jieba.lcut_for_search 直接返回 list
jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器,可用于同时使用不同词典。jieba.dt 为默认分词器,所有全局分词相关函数都是该分词器的映射。

2.2.1 jieba.load_userdict(file_name)
#file_name 为文件类对象或自定义词典的路径,词典格式和 dict.txt 一样,一个词占一行;每一行分三部分:词语、词频(可省略)、词性(可省略,用空格隔开,顺序不可颠倒。file_name 若为路径或二进制方式打开的文件,则文件必须为 UTF-8 编码。词频省略时使用自动计算的能保证分出该词的词频。

2.2.2 使用 add_word(word, freq=None, tag=None) 和 del_word(word)
可在程序中动态修改词典。使用 suggest_freq(segment, tune=True) 可调节单个词语的词频,使其能(或不能)被分出来。jieba 分词前需要建立一个Trie 树字典来帮助其分词

2.3.1 jieba.posseg.POSTokenizer(tokenizer=None)
新建自定义分词器,tokenizer 参数可指定内部使用的 jieba.Tokenizer 分词器。jieba.posseg.dt 为默认词性标注分词器。标注句子分词后每个词的词性,采用和 ictclas (中科院分词)兼容的标记法。

2.3.2 并行分词:jieba.enable_parallel()

2.4.1 jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
默认每行为一个文件(跟读取方式有关)
关键词提取所使用逆向文件频率(IDF)文本语料库可以切换成自定义语料库的路径
jieba.analyse.set_idf_path(file_name) # file_name为自定义语料库的路径
关键词提取所使用停止词(Stop Words)文本语料库可以切换成自定义语料库的路径
jieba.analyse.set_stop_words(file_name) # file_name为自定义语料库的路径
jieba.analyse.TFIDF(idf_path=None) 新建 TFIDF 实例,idf_path 为 IDF 频率文件

2.4.2 jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=(‘ns’, ‘n’, ‘vn’, ‘v’))
直接使用,接口相同,注意默认过滤词性。jieba.analyse.TextRank() 新建自定义 TextRank 实例

ws[n]为weight_sum表示单词n的权重,outsum[n]为从单词n到其他单词的权重的和,graph[n]表示[(n,n’,weight)]的list,n’为其他单词.根据jieba源码,窗口大小为5,只考虑单向(n’出现在n后面5个单词内).

命名实体识别(Named Entity Recognition,简称NER,又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。

Stanford NLP小组提供了大量NLP相关的工具,github上还有相关Python接口.

最新文章
网站推广得力助手,百度收录站长之家带你飞
身为长期从事网络运营的我,深深理解百度收录对网站发展的重要性。今日有幸与您分享一款得力助手——百度收录站长之家。首先,让我们来看看这个工具的主要功能。1.一键提交为方便广大站长,站长之家特别推出了百度收录一键提交服务,仅需轻
网页SEO优化软件哪家强?深度解析五大热门工具助你提升网站排名
随着互联网的飞速发展,网站优化已成为企业提高品牌知名度、提升产品销量的关键,SEO(搜索引擎优化)作为网站优化的重要手段,越来越受到企业的关注,面对市面上众多的SEO优化软件,如何选择一款适合自己的工具呢?本文将为您深度解析五大
自媒体运营必备工具推荐
杂货产品检测43-YOLO(v5至v9)、CreateML、Paligemma、TFRecord、VOC数据集合集.rarIPCV分配-V6 2024-01-21 6:10 PM=============================*与您的团队在计算机视觉项目上合作*收集和组织图像*了解和搜索非结构化图像数据*注释,创
谷歌灰色词排名推广
谷歌灰色词排名推广外推排名代做灰色词排名(灰色关键词排名技术)#百度推广#关键词排名#灰色词外推今天来讲一下就是谷歌外推留痕的一个玩法。那首先我们在讲之前我们先来看一下案例,这两个案例我们来看一下,那么我们等会来详细讲解它是
网站SEO搜索引擎优化,提升网站流量与排名的秘诀解析,网站SEO秘籍,解锁流量与排名双提升之道
网站SEO搜索引擎优化是提升流量和排名的关键。通过优化关键词、提高内容质量、优化网站结构、加快加载速度、建立高质量外链等 *** ,可以有效提升网站在搜索引擎中的排名,吸引更多访客,实现网站流量增长。1、关键词优化关键词是SEO的核心
算法应始终立根于 “科技向善”
《科创板日报》12月10日讯 (评论员 田野)在当今的数智化时代,算法如同无形的手,深刻影响着我们的信息获取、消费行为乃至社会生活的方方面面。然而,信息茧房、大数据杀熟、价格歧视等算法带来乱象,也引发了广泛关注与争议,四部门近期
用AI绘画生成美女写真 | 一键打造属于你的梦幻女友
Midjourney这是目前最受欢迎的AI艺术生成工具之一,以其独特的风格和高质量的图像而闻名。Midjourney使用一个先进的文本到图像模型,可以根据用户的描述生成作品。优点包括生成细节丰富、色彩鲜艳的图像,但缺点是输入要求较高,对于新手用
谷歌广告联盟怎么赚钱,谷歌广告联盟怎么做
Google AdSense,中文名:谷歌广告联盟,谷歌广告联盟作为全球最大的广告联盟其搜索量和流量是不用操心的。但是谷歌广告联盟的门槛也相比其他联盟网站门槛会更高,当然谷歌广告联盟的费用也是最高的,每月付费也是最准时的,如果入驻这个联
百度或为苹果国行 iPhone 16 提供 AI 功能,更多细节曝光
今日《科创板日报》独家报道,百度将为国行版 iPhone 16 等苹果产品、系统提供 AI 功能,预计采取 API 接口的方式计费。苹果也曾经找上阿里和另一家国产大模型公司洽谈。百度也可能不是苹果唯一的合作对象,上周有媒体报道,包括 Google、O
相关文章
推荐文章
发表评论
0评