[paper] Deep Cross-Modal Hashing

背景

之前大多都是单模态检索，ANN，ANN + hash， MSH， CMH。

『DCMH模型在MIRFLICKR-25K数据集的MAP基准』 accuracy

提供深度学习实现图像和文本模态之间的检索方法。

net

『网络结构的参数』 net param

图片CNN模型采用的是Alexnet作预训练模型。

『算法』 algorithm

损失函数： $$ \min_{B,B^{x},B^{y},\theta_x,\theta_y} \mathcal{J}=-\sum_{i,j=1}^{n} {(S_{ij} \Theta_{ij} - log(1+e^{\Theta_{ij}}))} \

总损失 = 跨模态相似性（负对数似然） + 保持hash码匹配 + 使每个bit都发挥作用

二值化为hash码： $\text{sign}(x) = \left \{ \begin{array}{} 1 & x > 0, \\ -1 & x < 0. \end{array}\right.$

F：图像生成的特征码。

G：文本生成的特征码。

B：二进制哈希编码。

使用第二范式计算误差。

使用海明距离评估S的相似性。

DCMH整合了特征学习和哈希编码学习。

训练时，先训练图片模型，再训练文本模型：

使用深度学习的方法实现跨模态的索引。

其所用损失函数考虑也很全面。