Dataset RGB snímků srnčat
Citace
Zoubek, T., Bumbálek, R., Tesař, J., Polensky, J., Kuneš, R., Bartoš, P., Liška, M., Filip, M., & Šramhauser, K. (2025). Dataset of young deer (RGB images) [Data set]. Zenodo. https://doi.org/10.5281/zenodo.18206908
Popis výstupu
Tabulka 1: Vybrané vlastnosti objektů trénovacího a validačního datasetu
| Třída srnče | Třída osoba | |
| Počet instancí | 43 298 | 3 080 |
| Min. šířka | 2 | 6 |
| Max. šířka | 923 | 833 |
| Prům. šířka | 73,45 | 57,62 |
| Min. výška | 2 | 6 |
| Max. výška | 995 | 855 |
| Prům. výška | 109,01 | 84,71 |
| Min. plocha | 0,001 | 0,003 |
| Max. plocha | 35,08 | 37,44 |
| Prům. plocha | 1,06 | 0,74 |
| Min. počet obvodových bodů | 10 | 40 |
| Max. počet obvodových bodů | 2402 | 484 |
| Prům. počet obvodových bodů | 111 | 229 |
Rozměrové charakteristiky objektů vykazují výraznou variabilitu, zejména u třídy srnče. Minimální šířka a výška této třídy dosahují hodnot pouhých 2 pixelů, což indikuje přítomnost velmi malých objektů, typicky srnčat zachycených z velké výšky dosahující až 60 m na terénem, případně pouze částečně viditelných v porostu. Maximální rozměry jsou naopak značně vysoké – maximální šířka činí 923 pixelů a maximální výška dokonce 995 pixelů, což odpovídá případům, kdy se objekt nachází v těsné blízkosti kamery a je zachycen téměř v celé ploše snímku. Průměrné hodnoty šířky a výšky u třídy srnče (73,45 a 109,01 pixelů) naznačují, že většina instancí patří mezi relativně malé objekty.
U třídy osoba jsou minimální rozměry vyšší (6 × 6 pixelů), což může být dáno menším zastoupením extrémně vzdálených instancí. Maximální šířka a výška dosahují hodnot 833 a 855 pixelů, tedy obdobného řádu jako u srnčat. Průměrné rozměry objektů této třídy jsou však nižší než u srnčat, konkrétně 57,62 pixelů na šířku a 84,71 pixelů na výšku, což souvisí s odlišným způsobem výskytu osob ve scéně a jejich typickou vzdáleností od kamery.
Z hlediska relativní plochy polygonálních masek vykazují obě třídy obdobné chování, přestože jejich průměrné hodnoty se liší. Minimální plocha objektů třídy srnče dosahuje hodnoty 0,001, zatímco u třídy osoba činí 0,003, což opět potvrzuje přítomnost extrémně malých instancí zejména u srnčat. Maximální plocha je u obou tříd srovnatelná (35,08 u srnčat a 37,44 u osob), což odpovídá situacím, kdy objekt zabírá podstatnou část snímku. Průměrná plocha je však vyšší u třídy srnče (1,06 oproti 0,74), což naznačuje, že srnčata se v obrazech vyskytují častěji ve větším měřítku než osoby.
Poslední sledovanou charakteristikou je počet obvodových bodů polygonálních masek, který slouží jako indikátor tvarové komplexity objektů. U třídy srnče se minimální počet bodů pohybuje kolem hodnoty 10, což odpovídá velmi jednoduchým polygonům malých a vzdálených instancí. Maximální počet bodů dosahuje hodnoty 2 402, což svědčí o velmi detailních obrysech srnčat zachycených zblízka, často s výrazně členitou siluetou těla. Průměrná hodnota 111 bodů naznačuje, že většina instancí této třídy má relativně jednoduchý až středně složitý tvar.
Naopak třída osoba vykazuje výrazně vyšší minimální počet obvodových bodů (40), což je dáno složitější základní strukturou lidské postavy. Maximální počet bodů činí 484 a průměrná hodnota dosahuje 229, což ukazuje na obecně vyšší tvarovou komplexitu masek této třídy ve srovnání se srnčaty, avšak s menší variabilitou extrémních hodnot.
Z uvedených statistických údajů vyplývá, že dataset obsahuje široké spektrum objektů z hlediska jejich velikosti, plochy i tvarové složitosti. Dominance malé až střední velikosti objektů, především u třídy srnče, klade zvýšené nároky na schopnost modelu detekovat jemné detaily a malé instance. Současně přítomnost velkých a tvarově komplexních objektů zajišťuje dostatečnou variabilitu dat, která je nezbytná pro robustní učení a generalizaci modelu napříč různými scénáři.
Na obrázku 1 je znázorněna analýza rozměrových charakteristik anotovaných objektů v trénovacím datasetu prostřednictvím vztahu mezi jejich šířkou a výškou. Každý bod v centrální části grafu reprezentuje jednu anotovanou instanci, přičemž barevné rozlišení a hustotní kontury vyjadřují četnost výskytu jednotlivých kombinací rozměrů. Z grafu je patrné, že převážná většina objektů se nachází v oblasti malých rozměrů, konkrétně při šířkách do přibližně 150 pixelů a výškách do 250 pixelů. Tato koncentrace odpovídá dominantnímu výskytu malých objektů, typicky srnčat zachycených ve větší vzdálenosti od kamery.
Současně je pozorovatelná zřetelná pozitivní korelace mezi šířkou a výškou objektů, což odráží přirozené proporční vztahy reálných objektů ve scéně. S rostoucími rozměry objektů hustota anotací postupně klesá, přičemž v oblasti nad 500 pixelů se již vyskytují pouze ojedinělé instance. Tyto případy odpovídají objektům zachyceným v těsné blízkosti kamery, kdy objekt zabírá výraznou část obrazu. Přítomnost dlouhého chvostu rozdělení potvrzuje vysokou variabilitu měřítka objektů v datasetu.
Graf na obrázku 2 zobrazuje prostorovou distribuci objektů v rámci snímků prostřednictvím souřadnic středů jejich anotací. Rozložení bodů ukazuje, že objekty se vyskytují prakticky v celé ploše obrazu, přičemž nejvyšší hustota výskytu je patrná ve střední části scény. Tato oblast odpovídá přibližně souřadnicím od 400 do 900 pixelů na ose x a od 300 do 900 pixelů na ose y, což indikuje, že objekty jsou nejčastěji zachyceny v centrálním zorném poli kamery.
Na okrajích obrazu je hustota výskytu nižší, avšak stále nenulová, což naznačuje, že objekty se mohou nacházet i v blízkosti hranic snímku. Histogramy podél os dále potvrzují relativně plynulé rozdělení poloh bez výrazných slepých oblastí. Tato skutečnost je z hlediska trénování detekčních a segmentačních modelů klíčová, neboť podporuje schopnost modelu generalizovat a spolehlivě detekovat objekty v libovolné části obrazu.
Obrázek 3 ilustruje vztah mezi relativní plochou polygonálních anotací a počtem obvodových bodů, které definují jejich tvarovou komplexitu. Z grafu je patrná výrazná koncentrace instancí v levé dolní části, tedy v oblasti malých ploch do přibližně 2–3 % celkové plochy snímku a počtu obvodových bodů do zhruba 300. Tato oblast odpovídá většině objektů v datasetu, které jsou relativně malé a tvarově jednoduché až středně složité.
Navzdory dominanci malých objektů je zřetelná obecná pozitivní závislost mezi velikostí plochy a počtem obvodových bodů. S rostoucí plochou mají objekty tendenci vykazovat složitější obrysy, což si vyžaduje použití většího počtu polygonálních vrcholů. Tato závislost však není striktně lineární, zejména u větších objektů je patrná značná variabilita – pro obdobné plochy se počet obvodových bodů může pohybovat v širokém rozsahu od několika stovek až po více než dva tisíce bodů. To naznačuje, že tvarová komplexita objektů je ovlivněna nejen jejich velikostí, ale také konkrétní siluetou, mírou zakrytí a strukturou scény.