针对跨媒体计算领域中的图文匹配任务,提出一种基于阅读策略和语义对齐的图文匹配方法(reading-strategy and semantic alignment network, RSAN)。设计基于Transformer和双向门控循环单元(bidirectional gated recurrent unit, Bi-GRU)的区域特征增强模块,生成具有语义关系的图像区域特征以提升语义对齐的准确性;设计包含概述分支和精读分支的阅读模块,聚合全局对齐和局部对齐来学习更准确的匹配分数。在Flickr30K和MS-COCO数据集上开展综合实验,结果表明:RSAN模型相较于现有基线模型,在准确率和效率上具有良好的表现。