異なる, 写真, 時計, メーターが含まれている画像自動的に生成された説明

Wide Surveillance Images from Different Heights： Dataset Description

Vision and Robotics Lab. Wakayama University English 2023 4/1

データセットの概要

この画像データセットは，広角天井カメラで撮影した人物画像にアノテーション情報を付加したものである．机，椅子などの家具や荷物があるシーン中で，複数の人物が写されている．尚，広角カメラの設置高さを変更するためのクレーン付きのトラックも画面内に写っている．アノテーションは，傾きのあるバウンディングボックス情報と，人物の姿勢情報（sit/stand）である．

このデータセットの特徴は，3m,4m,5mという３つの異なる高さから撮影したデータが存在するということであり，我々が調査した範囲では，同様のデータセットは現在存在しない．

広角天井カメラからの人物検出タスクにおいて，天井カメラの高さの変更が必要な理由は，検出器をトレーニングした画像データと，推論に用いる画像データが異なると，検出精度が大幅に変化するためである．

使用条件：

このデータセットは，

・非営利団体による，営利企業等からの金銭的支援を受けない研究または実装

に使用される場合は，申請書を記載することによって，無条件で利用可能である．それ以外の利用は，twada@ieee.orgまで問い合わせをして，許可を得てください．

利用申請：

現時点では，自動利用申請システムが構築できていないので，下記事項を記入したメールを送って下さい．

----------------------------------------------------

To: twada@ieee.org

Subject: wsi-dh dataset download request

Purpose of Use:

Applicant Name:

Applicant Organization:

Applicant Address:

Applicant E-mail address:

----------------------------------------------------

謝辞：

本データの提供をしていただいた，技研トラステム株式会社，ならびに，アノテーション作業を行ってくれた和歌山大学２回生の杉崎さん，三浦君に感謝いたします．

文責：和田俊和

以下は詳細情報である．

格納されているデータは，元のビデオデータと，画像データ，アノテーションデータの3種類であり，アノテーションデータは，プレーンテキストデータと，JSON形式の2種類がある．
元のビデオデータは "Video" というディレクトリ以下に格納している

ビデオは全部で6本(シーン2種類×高さ3種類)
シーン名は，ショッピングセンター内店舗：sc, フードコート：fc の2種類．
設置高さ：3m, 4m, 5m（高さ名は3mの場合「3000」と表している．）
ビデオ名は，シーン名_高さ名であり，ファイルフォーマットは.mp4である．
ビデオは1920×1080で，30fpsで記録されている．

画像に分割したデータと，アノテーションは，”fc_3000”などの，ビデオ名がつけられたディレクトリに分けて保存されている．
画像データは，各ディレクトリ直下の”Images”というディレクトリ以下に保存されている．

画像データは，各ビデオデータを10もしくは15フレームおきにサンプリングし，画像サイズを640x640に変更したjpegファイルである．ファイル名にはフレーム番号が付いている．

アノテーションデータは，各ディレクトリ直下の”Annotation”というディレクトリ以下に保存されており，”Json”と”Text”の2種類が保存されている．”Jason”以下には，一つのjsonファイルがあり，”Text”以下には画像ファイルと一対一に対応するファイルが格納されている．ファイル名は，画像がビデオ名_フレーム番号.jpgであった場合，ビデオ名_フレーム番号.txtである．”Json”以下の情報も”Text”の情報も本質的には同じである．

ディレクトリ構成

dataset

├── Video

│ ├── fc_3000.mp4

│ ├── fc_4000.mp4

│ ├── fc_5000.mp4

│ ├── sc_3000.mp4

│ ├── sc_4000.mp4

│ └── sc_5000.mp4

├── fc_3000

│ ├── Annotation

│ └── Images

├── fc_4000

│ ├── Annotation

│ └── Images

├── fc_5000

│ ├── Annotation

│ └── Images

├── sc_3000

│ ├── Annotation

│ └── Images

├── sc_4000

│ ├── Annotation

│ └── Images

└── sc_5000

├── Annotation

└── Images

※各ビデオと画像データの詳細は以下の表を参照

アノテーション形式の説明

各バウンディングボックスは, [cx, cy, w, h, angle, lux, luy, rux, ruy, rbx, rby, lbx, lby, class]の14個の値で表される
cx, cy：画像の左上隅を(0,0)としたときのバウンディングボックスの中心座標
w, h：バウンディングボックスの幅と高さ
angle：上向きの垂直軸から時計回りの回転角度(単位は度), 範囲は-180～180
lux, luy：バウンディングボックスの左上隅座標
rux, ruy：バウンディングボックスの右上隅座標
rbx, rby：バウンディングボックスの右下隅座標
lbx, lby：バウンディングボックスの左下隅座標
class："stand person", "sit person"の2種類
テキスト形式のスタイル(各行)：「cx cy w h angle lux luy rux ruy rbx rby lbx lby class」の順
JSON形式のスタイル：MS COCOフォーマットにほぼ準拠した形式でビデオごとに単一のJSONファイルに保存されている．

※各ビデオと画像データの詳細は以下の表を参照

ビデオ名	総フレーム数	アノテーション付きデータ総数(フレーム刻み幅)	ビデオの解像度(FPS)	画像の解像度
fc_3000	18097	1200(15)	1920×1080(30)	640×640
fc_4000	15262	1500(10)	1920×1080(30)	640×640
fc_5000	18420	1700(10)	1920×1080(30)	640×640
sc_3000	15101	1000(10000フレームまで20, 以降10)	1920×1080(30)	640×640
sc_4000	13770	1000(10)	1920×1080(30)	640×640
sc_5000	14369	1000(10)	1920×1080(30)	640×640