STAIR Captions

A Large-Scale Japanese Image Caption Dataset大規模日本語画像キャプションデータセット

Data Analysis


The table summarizes the statistics of STAIR Captions. Numbers in the brackets indicate statistics of public part of STAIR Captions.Compared with YJ Captions, overall, the numbers of Japanese captions and images in our dataset are 6.23x and 6.19x, respectively. In the public part of our dataset, the numbers of images and Japanese captions are 4.65x and 4.67x greater than those in YJ Captions, respectively. That the numbers of images and captions are large in our dataset is an important point in image caption generation because it reduces the possibility of unknown scenes and objects appearing in the test images. The vocabulary of our dataset is 2.69x larger than that of YJ Captions. Because the large vocabulary of our dataset, it is expected that the caption generation model can learn and generate various captions. The average numbers of characters per a sentence in our dataset and in YJ Captions are almost the same. コーパス全体の統計量を比較した場合、STAIR Captions は YJ! Captions の約6倍の画像数、およびキャプション数となっている。
また、語彙数に関しては、STAIR Captions は YJ! Captions の約2倍である。
単一文に含まれる平均文字数に関しては、STAIR Captions および YJ! Captions の双方において23文字程度であった。

STAIR Captions YJ Captions
# of images 164,062 26,500
# of captions 820,310 131,730
Vocabulary size 35,642 13,274
Avg. # of chars 23.79 23.23


We performed experiments that generates Japanese image captions by a neural network learned on STAIR Captions. The below table shows the performances of two methods, MS-COCO + MT and STAIR Captions. MS-COCO + MT first generates English captions for images using a neural network learned on the original MS-COCO dataset, and then, translates the generated captions into Japanese ones using Google Translate. On the other hand, STAIR Captions generates Japanese captions directly using a neural network learned on STAIR Captions dataset. For the details, see our papers. 本データセットを用いて、キャプション生成を行った結果を下の表に示す。
表中の MS-COCO + MT は、英語キャプションを生成し、機械翻訳により日本語に変換した結果であり、STARI Captions が、日本語キャプションを生成した結果である。
全ての指標において、機械翻訳を用いる場合 (MS-COCO + MT) より、日本語キャプションを直接生成する方法 (STAIR Captions) の方が良い結果となった。

Bleu-1 Bleu-2 Bleu-3 Bleu-4 ROUGE_L CIDEr
MS-COCO + MT 0.565 0.330 0.204 0.127 0.449 0.324
STAIR Captions 0.763 0.614 0.492 0.385 0.553 0.883
