python 在图片上显示数据标签 python图片加标题

python 在图片上显示数据标签 python图片加标题

2024-12-26 08:57

深度学习：

深度学习和机器学习是这个时代最先进的技术。现在将人工智能与人的思想进行比较，在某些领域，人工智能比人类做得更好。每天都有该领域的新研究。这个领域的增长非常快，因为现在我们有足够的计算能力来执行此任务。深度学习是机器学习的一个分支，它使用多层神经网络。

在传统的机器学习中，该算法具有一组相关特征以进行分析。但是，在深度学习中，该算法会获得原始数据，并自行决定哪些功能是相关的。随着我们增加用于训练它们的数据量，深度学习网络通常会得到改善。

下面将展示一些非常有趣的深度学习应用程序。

现在，我们将看到其应用程序之一，即照片描述或图像标题生成器。图片标题生成器：

图像标题生成器或照片描述是深度学习的应用之一。在其中，我们必须将图像传递给模型，并且模型会根据其训练进行一些处理并生成标题或描述。这种预测有时不太准确，并且会产生一些毫无意义的句子。为了获得更好的结果，我们需要非常高的计算能力和非常庞大的数据集。现在，我们将看到有关图像字幕生成器的数据集和神经网络架构的一些信息。先决条件：

该项目需要具备深度学习，Python知识，在Jupyter笔记本，Keras库，Numpy和自然语言处理方面的丰富知识

确保已安装以下所有必需的库：Tensorflow

Keras

Pandas

NumPy

nltk(自然语言工具套件)

Jupyter- IDE数据集：

在这个项目中，我们使用的是闪烁的30k数据集。其中有30,000张带有图像ID的图像，并且特定ID生成了5个字幕。

这是数据集的链接：

https://www.kaggle.com/hsankesara/flickr-image-dataset网络架构：

1、图像特征检测：

对于图像检测，我们使用的是预训练模型VGG16。VGG16已安装在Keras库中.VGG 16由牛津大学视觉几何小组实验室的Karen Simonyan和Andrew Zisserman于2014年在论文《非常大的卷积网络识别大型图像》中提出。

该模型在2014年赢得了ILSVRC挑战。

这是3-D和2-D中的模型表示。

概述：

conv1层的输入具有固定大小的224 x 224 RGB图像。图像通过一叠卷积(转换)层，其中使用的滤镜具有非常小的接收场：3×3(这是捕获左/右，上/下，中心的概念的最小尺寸)。在其中一种配置中，它还利用了1×1卷积滤波器，这可以看作是输入通道的线性变换(其次是非线性)。卷积步幅固定为1个像素；转换的空间填充层输入是在卷积后保留空间分辨率，即，对于3×3转换，填充为1像素层。空间池化由五个最大池化层执行，这五个层都遵循一些转换。层(并非所有转换层都跟着最大池)。最大池化是在2×2像素的窗口上执行的，

三层全连接(FC)层遵循一堆卷积层(在不同体系结构中深度不同)：前两层各具有4096个通道，第三层进行1000路ILSVRC分类，因此包含1000个通道(每个通道一个类)。最后一层是soft-max层。在所有网络中，完全连接的层的配置都是相同的。

2.使用LSTM生成文本

长短期内存网络(通常称为“ LSTM”)是一种特殊的RNN，能够学习长期依赖关系。它们是由Hochreiter＆Schmidhuber(1997)提出的，并在随后的工作中被许多人完善和推广。它们在各种各样的问题上都表现出色，现已被广泛使用。

概述：

常见的LSTM单元由一个cell，一个input gate，一个output gate和一个forget gate组成。单元会记住任意时间间隔内的值，并且三个门控制着进出单元的信息流。

LSTM网络非常适合基于时间序列数据进行分类，处理和做出预测，因为时间序列中重要事件之间可能存在未知持续时间的滞后。开发LSTM是为了解决训练传统RNN时可能遇到的梯度消失问题。与缝隙长度相对不敏感是LSTM相对于RNN，隐马尔可夫模型和其他序列学习方法在众多应用中的优势。

与普通循环单元相比，LSTM单元的优势在于其单元存储单元。单元向量具有封装忘记部分先前存储的内存以及添加部分新信息的概念的能力。为了说明这一点，必须检查单元的方程式及其在引擎盖下处理序列的方式。

现在，我们将此模型架构组合到一个模型中，这就是我们最终的模型，它将根据图像生成标题。

主要模型架构：

最终模型是CNN和RNN模型的组合。为了训练这个模型，我们必须给两个模型两个输入。(1)图片(2)相应的字幕。对于每个LSTM层，我们为每个LSTM层输入一个单词，每个LSTM层预测下一个单词，以及LSTM模型如何通过从字幕中学习来优化自身。对于图像功能，我们将从VGG16预训练模型中获取所有图像功能数组并保存在文件中，以便我们可以直接使用此文件或功能将字幕和图像功能相互关联。

最后一层的大小与唱词的长度相同。对于此模型，我们使用“分类交叉熵”，因为在最后一层中，我们必须预测每个单词的概率，然后仅使用高概率的单词。我们正在使用Adam优化器来优化网络或更新网络权重。