異なる, 写真, 時計, メーター が含まれている画像 自動的に生成された説明

Wide Surveillance Images from Different Heights:  Dataset Description

                                                          Vision and Robotics Lab. Wakayama University                                             English  2023 4/1




データセットの概要

この画像 データセットは,広角天井カメラで撮影した人物画像にアノテーション情報を付加したものである.机,椅子などの家具 や荷物があるシーン中で,複数の人物が写されている.尚,広角カメラの設置高さを変更するためのクレーン付きのト ラックも画面内に写っている.アノテーションは,傾きのあるバウンディングボックス情報と,人物の姿勢情報(sit/stand)である.

このデータセットの特徴は,3m,4m,5mという3つの異なる高さから撮影したデータが存在す るということであり,我々が調査した範囲では,同様のデータセットは現在存在しない.

広角天井カメラからの人物検出タスクにおいて,天井 カメラの高さの変更が必要な理由は,検出器をトレーニングした画像データと,推論に用いる画像データが異なると,検 出精度が大幅に変化するためである.




使用条件:

こ のデータセットは,

・ 非営利団体による,営利企業等からの金銭的支援を受けない研究または実装

に 使用される場合は,申請書を記載することによって,無条件で利用可能である.それ以外の利用は,twada@ieee.orgま で問い合わせをして,許可を得てください.


利用申請:

現 時点では,自動利用申請システムが構築できていないので,下記事項を記入した メー ル を送って下さい.

----------------------------------------------------

To: twada@ieee.org

Subject: wsi-dh dataset download request

 

Purpose of Use:

Applicant Name:

Applicant Organization:

Applicant Address:

Applicant E-mail address:

----------------------------------------------------

謝辞:

本データの提供をしていただいた,技研トラステム株式会社,ならびに,アノテーション作業を 行ってくれた和歌山大学2回生の杉崎さん,三浦君に感謝いたします.

文責:和田俊和


以下は詳細情報であ る.

  • 格納されているデータは,元のビデオデータと,画像データ, アノテーションデータの3種類であり,アノテーション データは,プレーンテキストデータと,JSON形式の2種類がある.
  • 元のビデオデータは "Video" というディレクトリ以下に格納している
    • ビデオは全部で6(シーン2種 類×高さ3種 類)
    • シーン名は,ショッピングセンター内店舗:sc, フードコート:fc 2種 類.
    • 設置高さ:3m, 4m, 5m(高さ名は3mの場 合「3000」と表している.)
    • ビデオ名は,シーン名_高 さ名であり,ファイルフォーマッ トは.mp4である.
    • ビデオは1920×1080で,30fpsで記録されている.

 

  • 画像に分割したデータと,アノテーションは,”fc_3000”などの,ビデオ名がつけられたディレクトリに 分けて保存されている.
  • 画像データは,各ディレクトリ直下の”Images”というディレクトリ以下に保存されている.
    • 画像データは,各ビデオデータを10もしくは15フ レームおきにサンプリングし,画像サイズを640x640に 変更したjpegファイルである.ファイル名にはフ レーム番号が付いている.
  • アノテーションデータは,各ディレクトリ直下の”Annotation”というディレクトリ以下に保存されてお り,”Json””Text”2種 類が保存されている.”Jason”以下には,一つのjsonファイルがあり,”Text”以 下には画像ファイルと一対一に対応するファイルが格納されている.ファイル名は,画像がビデオ名_フ レーム番号.jpgであった場合,ビデオ名_フ レーム番号.txtである.”Json”以 下の情報も”Text”の情報も本質的には同じである.


ディレクトリ構成

dataset

├── Video

   ├── fc_3000.mp4

   ├── fc_4000.mp4

   ├── fc_5000.mp4

   ├── sc_3000.mp4

   ├── sc_4000.mp4

   └── sc_5000.mp4

├── fc_3000

   ├── Annotation

   └── Images

├── fc_4000

   ├── Annotation

   └── Images

├── fc_5000

   ├── Annotation

   └── Images

├── sc_3000

   ├── Annotation

   └── Images

├── sc_4000

   ├── Annotation

   └── Images

└── sc_5000

    ├── Annotation

    └── Images

各ビデオと画像データの詳細は以下の表を参照


アノテーション形式の説明

  • 各バウンディングボックスは, [cx, cy, w, h, angle, lux, luy, rux, ruy, rbx, rby, lbx, lby, class]14個の値で表される
    cx, cy
    :画像の左上隅を(0,0)と したときのバウンディングボックスの中心座標
    w, h
    :バウンディングボックスの幅と高さ
    angle
    :上向きの垂直軸から時計回りの回転角度(単 位は度), 範囲は-180180
    lux, luy
    :バウンディングボックスの左上隅座標
    rux, ruy
    :バウンディングボックスの右上隅座標
    rbx, rby
    :バウンディングボックスの右下隅座標
    lbx, lby
    :バウンディングボックスの左下隅座標
    class
    "stand person", "sit person"2種類
  • テキスト形式のスタイル(各行): 「cx cy w h angle lux luy rux ruy rbx rby lbx lby class」の順
  • JSON形式のスタイル:MS COCOフォーマットにほぼ準拠した形式でビデオごとに単一のJSONファイルに保存されている.




各ビデオと画像データの詳細は以下の表を参照

ビデオ名

総フレーム数

アノテーション付きデータ総数(フレーム刻み幅)

ビデオの解像度(FPS)

画像の解像度

fc_3000

18097

1200(15)

1920×1080(30)

640×640

fc_4000

15262

1500(10)

1920×1080(30)

640×640

fc_5000

18420

1700(10)

1920×1080(30)

640×640

sc_3000

15101

1000(10000フレームまで20, 以 降10)

1920×1080(30)

640×640

sc_4000

13770

1000(10)

1920×1080(30)

640×640

sc_5000

14369

1000(10)

1920×1080(30)

640×640