Látás objektum. Valós idejű objektum felismerés gépi látás segítségével

Csorba Kristóf október Ennek alapja, hogy eszközünk a kameraképen felismer egy megadott objektumot, majd annak megfelelően a valóságot virtuálisan kibővíti. Például ha ránézünk egy étterem logójára tipikusan mobilunk vagy tabletünk segítségével, vagy akár például otthon webkamera segítségéveleszközünk kiírja, hogy hogyan juthatunk el oda a leghamarabb, és akár az étlapra is vethetünk virtuálisan egy pillantást.

Munkánk célja ezen folyamat első felének taglalása, azaz hogy miként tud eszközünk bizonyos objektumokat felismerni. Ennek során az egyes módszerek elméleti hátterének ismertetésén túl kitérünk olyan gyakorlati részletekre is, mint például ezen módszereknek az OpenCV gépi látás könyvtár felhasználásával való alkalmazása, és az erőforrásigényük vizsgálata.

Ez utóbbi azért is fontos szempont, mert egyik célunk az okostelefonokon kielégítő teljesítménnyel történő futás elérése több lehetséges felismerhető objektum detektálása során. A dolgozatban három főbb objektum felismerésre alkalmas módszert vizsgálunk meg: a látás objektum mintaillesztés alapú felismerést, a kaszkádosított látás objektum alapú felismerést illetve a jellegzetesség megfeleltetés alapján való felismerést.

A kaszkádosított osztályozó alapú detektor tárgyalása során külön kitérünk a Haar-szerű jellegzetességek és az Látás objektum Local Binary Patterns jellegzetességek jellemzőire. Dolgozatunk valós életből vett példák alapján bemutatja az elterjedt detektáló algoritmusok alkalmazhatóságát, mérési eredmények alapján szemlélteti azoknak korlátait, bemutatja azok Android platformon történő használatát.

Részletezi, hogyan lehet az OpenCV által biztosított eszközök segítségével kaszkádosított osztályozó alapú detektorokat készíteni, majd az általunk fejlesztett környezetben tesztelni és értékelni a kapott eredményt. Bemutatja ennek kapcsán a felismerendő objektum betanítási folyamatának elméleti és gyakorlati menetét.

Az elvégzett munkánk alapja lehet objektum felismeréshez kapcsolódó további kutatási és oktatási feladatoknak. The base of this is that our device recognizes an object on the camera view and then it augments reality accordingly. For example if we look at a restaurant s logo typically with our mobile or tablet device, or maybe with a webcamera our device shows us how we can get there quickly and we can even take a virtual look at the menu.

Our goal is to cover the first part of this process which is about how to recognize specific objects with our devices. We látás objektum review not only the theoretical backgrounds for these methods but also practical details like how to utilize these methods using the OpenCV computer vision library and investigating hardware requirements for them.

This last part is critical because one of our targets is to achieve decent performance even when running on smartphones while detecting multiple recognizable objects. In this paper we examine three major methods that can be used for recognizing objects: the template matching method based on correlation, the cascade classifier based recognition, and the feature matching based recognition. Related to the cascade classifier based detector we will also cover the attributes of Haar-like features and LBP Local Binary Csökkent látás a távolban features.

Based on real life examples our paper demonstrates the applications of widespread detection algorithms, illustrates the limitations of them based on látás objektum results and it shows how to use them on the Android platform. It details how to create cascade classifier based detectors using tools provided by OpenCV, then how to test them and review the obtained results in our in-house developed test environment.

It presents the theoretical and practical parts of the related training process for the recognizable objects. Our work can be used as a base of additional research and educational activities related to object recognition. Minden olyan részt, melyet szó szerint, vagy azonos értelemben, de átfogalmazva más forrásból átvettem, egyértelmûen, a forrás megadásával megjelöltem. Hozzájárulok, hogy a jelen munkám alapadatait szerzõ kcím, angol és magyar nyelvû tartalmi kivonat, készítés éve, konzulens ek neve a BME VIK nyilvánosan hozzáférhetõ elektronikus formában, a munka látás objektum szövegét pedig az egyetem belsõ hálózatán keresztül vagy autentikált felhasználók számára közzétegye.

Kijelentem, hogy a benyújtott munka gyenge látás szülés annak elektronikus verziója megegyezik. Budapest, október Bevezetés 6 2. Bevezetés A dolgozatban először áttekintjük több meghatározó objektumok látás objektum felhasználható módszer elméleti alapjait és ezeknek az Open Source Computer Vision Library OpenCV gépi látás könyvtár segítségével történő alkalmazását. Az elméleti áttekintés alapján a legalkalmasabbnak tekintett módszert részletesen teszteljük, és ezek eredményét közöljük.

Végül összegezzük a tapasztalatainkat, és rávilágítunk arra, hogy a kiválasztott módszer mennyire alkalmas valós idejű objektum felismerési feladatok ellátására, és mennyire tudna például egy kiterjesztett valóságot implementáló szoftver alapjaként szolgálni.

A dolgozatban az elméleti áttekintést Varga Márton Bálint foglalja össze, mely 2. A kaszkádosított osztályozókkal kapcsolatos gyakorlati vonatkozásokat - a tanítást és tesztelést támogató programok fejlesztését valamint a mérések elvégzését - Tenk Milán valósította meg. Az ezekkel kapcsolatos tapasztalatokat az 5. Mivel ez egy közös látás objektum, többes szám első személyben mutatjuk be látás objektum tapasztalatainkat. Mintaillesztés alapú objektum felismerés A mintaillesztés Template Matching az egyik legegyszerűbb módszer, amelyet objektumok felismerésére fel lehet használni.

Egyszerű működése következtében azonban leginkább csak bizonyos, ideálishoz közeli körülmények között használható megfelelő hatékonysággal, általánosabb esetekben összetettebb objektumok felismerésére nem kifejezetten alkalmas A módszer ismertetése A módszer működésének alapvető lényege az, látás objektum egy képen meghatározza, hogy annak részei egy előre meghatározott mintaképhez mennyire illeszkednek, azaz mennyire hasonlóak. Ez a hasonlóság több korrelációt felhasználó módszer segítségével hatékonyan kiszámítható.

Két képre van tehát szükség az illesztés elvégzéséhez: egy mintaképre T - Template Imagemelyhez hasonló területet keresünk és egy forrásképre I - Source Imagemelyen a keresést végeznénk el. A módszer a mintakép hasonlóságának mértékét a forráskép egyes területeihez úgy határozza meg, hogy azon úgymond végigcsúsztatja a forrásképet.

Ez úgy történik, hogy a forráskép egyik sarkából kiindulva a mintaképet pixelről pixelre vízszintesen és függőlegesen elmozgatja egészen addig amíg a forrásképet teljesen be nem járta, és minden vizsgált helyen meg nem határozta a mintaképnek és a forráskép látás objektum vizsgált részének a hasonlóságát.

Az egyes területeken látás objektum hasonlóság meghatározása sokféleképpen történhet. Az eddigiekből adódik, hogy a forrásképnek legalább akkorának kell lennie szélességben és magasságban is, mint a mintaképnek. A forráskép egyes területeihez tartozó illeszkedések mértékét a módszer egy eredmény mátrixban R tárolja látás objektum.

Az eredmény mátrixban tárolt értékek tehát arra utal- 6 8 nak, hogy a hozzájuk tartozó, a mintaképpel azonos méretű területei a forrásképnek mennyire hasonlóak a mintaképhez. Az algoritmus lefutása után a legjobb illeszkedést az eredmény mátrix globális minimuma vagy maximuma adja az illeszkedés meghatározásához felhasznált konkrét módszertől függően Az OpenCV implementáció Az módszer OpenCV implementációja a matchtemplate nevű függvényben van megvalósítva, amelynek paraméterei a bemeneti forráskép, a bemeneti mintakép, a kimeneti kép és az illeszkedés mértékének meghatározására felhasznált módszer azonosítója.

Az látás objektum az eredménymátrixban 32 bites lebegőpontos számokként tárolja el, függetlenül attól, hogy egycsatornás vagy színes több csatornás képeket használtunk fel bemenetként.

Az eredmény mátrixból a legjobb találat kiválasztása hatékonyan elvégezhető a minmaxloc nevű függvénnyel. A hasonlóságot az egyik módszer a két kép közti négyzetes különbségek alapján számítja square difference ki.

Ekkor a 0 jelenti a legnagyobb hasonlóságot, és a minél nagyobb értékek a minél rosszabb hasonlóságot. Egy másik módszer a látási és beszédproblémák illesztést correlation matching használja fel, amely a a két képet összeszorozza, ekkor nagy értékek látás objektum a jó hasonlóságot, és 0 a rendkívül rossz hasonlóságot.

A harmadik módszer a korrelációs együttható illesztést correlation coefficient matching használja, amely a képek átlagait felelteti meg egymáshoz képest, ekkor 1 jelzi a jó hasonlóságot, 0 jelzi ha nincs hasonlóság, a 1 pedig a rossz hasonlóságot jelzi.

Az OpenCV támogatja továbbá ezen három módszer normalizált változatait is, melyek sokszor jobban felhasználhatóak és vizuálisan tisztábban ábrázolhatóak.

Valós idejű objektum felismerés gépi látás segítségével

Objektumfelismerés a módszer felhasználásával Ahhoz, hogy a módszert objektumok felismerésére használjuk fel, mintaképként a felismerendő objektum képét, forrásképként pedig a kamerából kapott képet használhatjuk fel. A mintaképet vagy mintaképeket fontos, hogy jól válasszuk meg, és a felismerendő objektum jól látszódjon megfelelő méretben, nézetben, orientációban, megvilágításban hiszen a felismerés során csak ezekre a mintaképekre hagyatkozhatunk.

  • Mesterséges látás valós időben? A YOLOv3 algoritmus - HWSW
  • Póz (számítógépes látás) - Pose (computer vision) - miskolcfutar.hu
  • Számítógépes látás: Mi a különbség a helyi és a globális leírók között?
  • Számítógépes látás: Mi a különbség a helyi és a globális leírók között?
  • Facebook 10 Mesterséges látás valós időben?
  • Még mindig a látás illúziója
  • Miért bonyolult a számítógépes látás?

Azt, hogy a felismerendő objektum látás objektum a kamera képen, és ha szerepel akkor hol, az eredmény mátrixból a legnagyobb illeszkedésre utaló érték nagysága és mátrixban lévő pozíciója alapján becsülhetjük meg. Több felismerendő objektum esetén több mintaképet használhatunk, amelyeket egyenként kereshetünk a kamerából kapott képen. A mintaillesztés egyszerű működésének közvetlen következménye, hogy objektumfelisme- 8 10 1.

Mintaillesztés a normalizált korrelációs együttható módszerrel. Balra a forrás kép, jobbra az eredmény mátrix látható, mindkettőn be van jelölve a legjobb megtalált illeszkedés. Mivel a képek statikusan pixelenként kerülnek összehasonlításra, ezért kritikus, hogy a kameraképen a felismerendő objektum közel ugyanolyan méretben, közel látás objektum nézetből, közel ugyanolyan orientációban szerepeljen, mint ahogyan a mintaképen. Ha ez ugyanis nem így történik, az tipikusan azt eredményezi, hogy a két képen nem a megfelelő pixelek kerülnek összehasonlításra, ekkor pedig a módszer eredménye jó eséllyel használhatatlan lesz.

Ezen lehet úgy segíteni, hogy az objektumfelismerés során több mintaképet is felhasználunk, melyek az objektumot több méretben, esetleg több nézetből, több orientációban tartalmazzák, ez azonban jelentősen lassítaná a felismerés gyorsaságát.

Ezek miatt leginkább csak az olyan speciális helyzetekben alkalmazható objektumfelismerésre, ahol biztosítani tudjuk, hogy a kameraképen az objektum éppen a megfelelő körülmények között szerepel.

Általános tárgyaknál, épületeknél például nagyon látás objektum az esélye, hogy azokat éppen a megfelelő szögből, megfelelő orientációban próbálnánk felismerni, ezért ezeknek a felismerésére nem is igazán alkalmas. A módszer leginkább kétdimenziós, síkbeli tárgyak mint például könyvborítók, filmplakátok felismerésére lehet alkalmas, amennyiben biztosítani látás objektum, hogy azokat szemből, álló helyzetben, a megfelelő távolságból szeretnénk felismerni.

Ugyan a képek területeinek összehasonlításával kapcsolódóan látás objektum számítások egyszerűek és gyorsan elvégezhetők, azonban nagyméretű vagy nagyszámú képek esetén azokat rendkívül sokszor el kell végezni, ezáltal a futási idő is hosszúvá válhat.

Kaszkádosított osztályozó alapú objektum felismerés A kaszkádosított osztályozó Cascade Classifier alapú felismerés manapság az egyik leghatékonyabb és legelterjedtebb módszer általános látás objektum valós idejű detektálására. Jellemzője, hogy felhasználásával egy hosszabb tanítási folyamat után nehezen leírható, összetett, komplex objektumok felismerésére is nagy sebességgel lehetővé válhat.

Ezek az objektumok szinte tetszőlegesek lehetnek, például arcok, emberek, épületek vagy éppen használati tárgyak, és megfelelő tanítás esetén változó felismerési körülmények között is robusztus maradhat a felismerés. A felismerés konkrét folyamata több jellegzetesség típus segítségével is történhet, ilyenek például a Haar-szerű jellegzetességek Haar-like featuresaz LBP Local Binary Patterns jellegzetességek illetve a HOG Histogram of Oriented Gradients jellegzetességek.

látás objektum sclerosis multiplex látáskárosodás

Ezekből az OpenCV eszközei elsősorban az előbbi kettőt támogatják, így ezen dolgozatban is ezekre térünk részletesebben ki Haar-szerű jellegzetességek alapján történő objektum felismerés A kaszkád osztályozó alapú objektum felismerésnél felhasznált a Haar-szerű jellegzetességek Haar-like features nevüket a Haar wavelet-ekhez való hasonlóságuk kapcsán kapták.

A módszer eredeti látás objektum Paul Viola és Michael Jones publikálták ben.

látás objektum A publikált objektum felismerési keretrendszer a Haar-szerű jellegzetességek és három főbb ötlet felhasználásával képes elérni a gyors és hatékony objektum felismerést. Az látás izomlazítás ilyen egy új képábrázolás, az integrál kép, amely felhasználásával lehetővé válik a felismerő által felhasznált jellegzetességek rendkívül gyors kiértékelése.

A második főbb közreműködés egy osztályozók létrehozására látás objektum módszer, amelynek során AdaBoost segítségével kis számú fontos vizuális jellegzetesség kerül kiválasztásra egy nagyobb készletből, így nagyon hatékony osztályozók létrehozására alkalmas.

A harmadik fő hozzájárulás egy fokozatosan növekvő összetettségű osztályozók egy úgynevezett kaszkád szerkezetben való egyesítésére szolgáló módszer, amely lehetővé teszi a kép háttér területeinek gyors kiszűrését, ezáltal több számítást felhasználva az ígéretesnek tűnő, látás objektum régiókra Látás objektum jellegzetességek A technika nem közvetlenül kép intenzitás értékekkel dolgozik, hanem olyan jellegzetességek készletét használja fel, amelyek a Haar-wavelet-ekre javaslatok a látás javítására, ezek a Haar-szerű jellegzetességek.

A felismerési eljárás a képeket egyszerű jellegzetességek értékei alapján osztályozza. A jellegzetességek felhasználásának számos előnye van a hagyományos, a pixelek RGB értékeinek intenzitásainak közvetlen felhasználásához képest.

Kizárólag pixeleken dolgozni 10 12 meglehetősen számításigényes folyamat, amelynél a jellegzetesség alapú rendszerek jelentősen gyorsabbak. Ezen túl a jellegzetességek rögzíthetik az olyan alkalmi ismereteket is, melyeket nehéz megtanulni véges számú tanítási adat alapján. A módszerben felhasznált egyszerű jellegzetességek a Haar wavelet-ekhez hasonlítanak. Egy Haar-szerű jellegzetesség szomszédos, azonos méretű és alakú téglalap alakú területeket vizsgál, az ilyen területeken kiszámítja a pixel intenzitások összegeit, és ezeknek az összegeknek a különbségeit vizsgálja egymáshoz képest.

az első íróasztal látásélessége

Ezen különbségek alapján az egyes területeket egymáshoz képest sötétnek vagy világosnak nyilvánítja, mely alapján a kép részeit kategorizálni látás objektum. Az eredeti publikációban három fajta jellegzetesség szerepel: úgynevezett kettő-téglalap, három-téglalap és négy-téglalap jellegzetesség, melyek 2, 3 illetve 4 téglalap alakú területet vizsgálnak. A kettő-téglalap jellegzetesség két horizontálisan vagy vertikálisan szomszédos területen vizsgálja a pixelek összegeinek a különbségét.

A három-téglalap jellegzetesség két szélső terület összegének és a köztük lévő, középső terület összegének látás 4 5 dioptria különbségét vizsgálja.

A négy-téglalap két-két átlós terület összegei közti különbséget vizsgálja. Ezen jellegzetességek működésének szemléltetésére jó példa, 2. Haar-szerű jellegzetesség látás objektum hogy mivel egy emberi arcon a szemek régiója általában sötétebb az az alatti orca régiójánál, egy gyakori Haar-szerű jellegzetesség lesz egy kettő-téglalap, amelynek a felső része egy szem területén helyezkedik el és sötétebb, az alsó része pedig az arc területén van és világosabb.

Egy adott osztályozóban felhasznált jellegzetesség jellemzői az alakja az előbbi készletbőlmérete és pozíciója. A detektor alapértelmezett pixeles felbontásán szemészeti coloboma teljes készlete ezeknek a jellegzetességeknek így több, mint százezer. A téglalap jellegzetességek meglehetősen primitívek sok más alternatívához képest.

látás objektum kontaktlencsék javítják a látást

Ezek a jellegzetességek bár érzékenyek a sávokra, élekre és egyéb egyszerű struktúrákra, viszonylag durvának mondhatóak, önmagában gyenge osztályozók és nincs sok információtartalmuk. Téglalap jellegzetességek megfelelően nagy halmaza azonban már képes az objektum részletes, pontos jellemzésére.

Yolo V3 teljesítményteszt NetAcademia

A Viola Jones objektumfelismerési keretrendszerben az osztályozók halmazai kaszkádokba szerveződnek, hogy így együtt egy erős osztályozót alkossanak. A jellegzetességeknek a nagy száma és az integrál képek segítségével is biztosított hatékonysága kompenzálja az egyszerűségüket Integrál kép A felismerési látás objektum rendkívüli sebessége nagyban az integrál képek felhasználásából adódik. Az integrál kép II - integral image egy köztes reprezentációja az eredeti képnek I - imageamely a Haar-szerű jellegzetességek a gyors kiszámítását teszi lehetővé.

Az eredeti képen bármely téglalap alapú területen lévő pixelek összege az integrál kép négy értékének kiolvasásával megkapható 3.

látás objektum a lehető leggyorsabban romlik a látás

A D-vel jelölt téglalap területén lévő pixelek összegének kiszámítása az integrál kép segítségével. Ezen téglalap csúcsai 1, 2, 3, 4 pozíción vannak. Ebből adódik, hogy látás objektum tetszőleges téglalap alapú terület összegei közti különbség 8 érték kiolvasásával kapható meg. Ez alapból is rendkívül alacsony mennyiség tekintve hogy tetszőlegesen sok pixel összegét néhány érték kiolvasásával megkaphatjuk, azonban a módszerben felhasznált jellegzetességekhez még ennyi érték kiolvasása sem szükséges.

Mivel a Haar-szerű jellegzetességek egymás melletti téglalapokból állnak, melyeknek közös sarkaik vannak, így kevesebb érték kiolvasásával is megkaphatóak a kérdéses összegek.

Így tehát a kettő-téglalap típusú jellegzetességeknél 6, a három-téglalap típusúaknál 8, a négy-téglalap típusúaknál pedig 9 érték kiolvasása szükséges.

A gépi látás és képfeldolgozás párhuzamos modelljei és algoritmusai

Rainer Lienhart és Jochen Maydt a Haar-szerű jellegzetességek egy kibővített változatát publikálták ben. Ennek a kibővített változatnak a felhasználásával sok helyzetben pontosabban leírhatóak a felismerendő objektumok, így meglehetősen hatékonynak bizonyult. Az elforgatott jellegzetességek hatékony kiszámításához az integrál képek eredeti formájukban nem voltak felhasználhatóak, ezért ennek egy módosított változatát definiálták.