STAIR Captions

A Large-Scale Japanese Image Caption Dataset大規模日本語画像キャプションデータセット



Download dataset from GitHub

Annotation Format

STAIR Captions dataset is provided as JSON files. The annotation format of STAIR Captions follows the one of MS-COCO: STAIR Captions は MS-COCO のアノテーションファイル同様に JSON で配布しています。
JSON のフォーマットは以下の通りです。基本的には MS-COCO のファーマットにそろえています。

annotation{ "id" : int, "image_id" : int, "caption" : str, "tokenized_caption": str, }

For the details of the annotation format, please see MS-COCO download page.


If you use STAIR Captions dataset, please cite the following paper: STAIR Captions をご利用になる際には、以下の論文をご引用いただけると幸いです。

@InProceedings{Yoshikawa2017, title = {STAIR Captions: Constructing a Large-Scale Japanese Image Caption Dataset}, booktitle = {Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)}, month = {July}, year = {2017}, address = {Vancouver, Canada}, publisher = {Association for Computational Linguistics}, pages = {417--421}, url = {} }


- Yuya Yoshikawa, Yutaro Shigeto, and Akikazu Takeuchi, “STAIR Captions: Constructing a Large-Scale Japanese Image Caption Dataset”, Annual Meeting of the Association for Computational Linguistics (ACL), Short Paper, 2017.
[ pdf | arXiv | poster ]

In recent years, automatic generation of image descriptions (captions), that is, image captioning, has attracted a great deal of attention. We particularly consider generating Japanese captions for images. Most studies on image captioning target English language, and there are few image caption datasets in Japanese. To tackle this problem, we construct a large-scale Japanese image caption dataset based on images from MS-COCO. Our dataset consists of 820,310 Japanese captions for 164,062 images. In the experiment, we show that a neural network trained with our dataset can generate more natural and better Japanese captions, compared to those generated using English-Japanese machine translation after generating English captions.

- 吉川友也, 重藤優太郎, 竹内彰一, ``STAIR Captions: 大規模日本語画像キャプションデータセット'', 言語処理学会第23回年次大会 (NLP2017), 2017.
[ pdf ]

自然言語と画像の統合的な処理は、近年注目を集めている。 実際に、2011 年に自然言語言語と画像処理に関するワークショップ (Workshop on Vision and Language)が開催されて以来、このワークショップは毎年開催されている。 この研究分野の中でも、画像に対して説明文 (キャプション) を自動で生成させる試み (imagecaptioning) が大きな注目を集めている。 本研究では、画像キャプションを日本語で生成することを考える。 これまでのデータセットのほとんどは英語キャプションで、日本語キャプションが付与されたデータセットは少ない。 そこで本研究では、 MS-COCO が提供している画像に対して日本語キャプションを付与し、日本語キャプションデータセット STAIR Captions を構築した。
