Slik fremmer maskinsyn automatisering i dag
2023-03-10
Maskinsyn er en samling av teknologier som gir automatisert utstyr (industrielt eller på annen måte) svært god forståelse av de umiddelbare omgivelsene fra bilder. Uten maskinsynsprogramvare ville ikke digitale bilder, for slikt utstyr, være noe annet enn enkle samlinger av piksler som ikke har noen forbindelse med hverandre og som har forskjellige fargeverdier og toneintensiteter. Maskinsyn gjør det mulig for datamaskiner (vanligvis koblet til maskinstyringer) å detektere kanter og former i slike bilder, slik at prosesseringsrutiner på høyere nivå kan identifisere forhåndsdefinerte objekter som er av interesse. Bilder i denne forstand er ikke nødvendigvis begrenset til fotografiske bilder i det synlige spekteret. De kan også inkludere bilder som innhentes via IR (infrarød), laser, røntgen og ultralyd.
Figur 1: Bruken av maskinsyn for mer sofistikerte robotkonstruksjoner er i vekst. (Bildekilde: John6863373 | Dreamstime.com)
Et ganske vanlig bruksområde for maskinsyn i industrielle omgivelser er å identifisere en bestemt del i en beholder som inneholder en tilfeldig samling (et virvar) av diverse deler. Her kan maskinsyn hjelpe plukkroboter med å automatisk plukke opp den riktige delen. Selvfølgelig ville det være relativt enkelt å gjenkjenne slike deler med bildefeedback hvis alle delene var pent arrangert og orientert på et brett. Robuste maskinsynsalgoritmer kan imidlertid gjenkjenne objekter i forskjellige avstander fra kameraet (og derfor vises som forskjellige størrelser på bildesensoren) samt orientert i forskjellige retninger.
De mest sofistikerte maskinsynssystemene har muliggjort nye og fremvoksende utforminger som er langt mer sofistikerte enn plukkroboter – og kanskje det beste eksempelet på dette, er autonome kjøretøy.
Figur 2: Maskinsyn gir systemer (industrielle eller på annen måte) svært god forståelse av et miljø fra bilder. (Bildekilde: Wikimedia)
Teknologier knyttet til maskinsyn
Begrepet maskinsyn brukes noen ganger til å referere til mer etablerte og effektive matematiske metoder for uttrekking av informasjon i bilder. Begrepet datasyn beskriver på den annen side vanligvis mer moderne og beregningsmessig krevende systemer – inkludert «black-box»-tilnærminger som bruker maskinlæring (ML) eller kunstig intelligens (AI). Maskinsyn kan imidlertid også være et samlebegrep som omfatter alle metoder av informasjonsuttrekking på høyt nivå i bilder. Datasyn beskriver i denne sammenhengen de underliggende teoriene om funksjonalitet.
Det florerer av teknologier som trekker ut mening på høyt nivå fra bilder. Innenfor forskningsmiljøet anses slike teknologier ofte som distinkte fra maskinsyn. Men i praktisk forstand, er alle forskjellige måter å oppnå maskinsyn på – og i mange tilfeller overlapper de hverandre.
Digital bildebehandling er en type digitalsignalbehandling som involverer bildeforbedring, -restaurering, -koding og -komprimering. Fordeler i forhold til analog bildebehandling omfatter minimert støy og forvrengning, samt tilgjengeligheten av langt flere algoritmer. Et tidlig bruksområde for bildeforbedring var korreksjon av de første nærbildene av månens overflate. Fotogrammetrisk kartlegging samt støyfiltre og korreksjoner ble brukt for geometriske forvrengninger som oppstår fra bildekameraets innretting med månens overflate.
Figur 3: DLPC350 IC-styringen (IC – integrated circuit) gir inngangs- og utgangsutløsersignaler for å synkronisere viste mønstre med et kamera. Den fungerer med digitale mikrospeilenheter (DMD – micromirror device) som er utviklet for å gi 3D-maskinsyn til industrielt, medisinsk og sikkerhetsrelatert utstyr. Bruksområder inkluderer faktisk 3D-skanning og metrologisystemer. (Bildekilde: Texas Instruments)
Digital bildeforbedring innebærer ofte økning av kontrast, og kan også gjøre geometriske korreksjoner for synsvinkel og linseforvrengning. Kompresjon oppnås vanligvis ved å tilnærme et komplekst signal til en kombinasjon av cosinusfunksjoner – en type fouriertransform (FTT) kjent som en diskret cosinustransformasjon eller DCT (discrete cosine transform). JPEG-filformatet er det mest populære bruksområdet til DCT. Bildegjenoppretting kan også bruke fouriertransform til å fjerne støy og uskarphet.
Fotogrammetri benytter en slags funksjonsidentifikasjon til å trekke ut målinger fra bilder. Disse målingene kan inkludere 3D-informasjon når flere bilder med samme bildescene er tatt fra forskjellige posisjoner. De enkleste fotogrammetrisystemene måler avstanden mellom to punkter i et bilde ved å bruke en skala. Det er som regel nødvendig å inkludering en kjent skalareferanse i bildet for dette formål.
Funksjonsgjenkjenning gjør det mulig for datamaskiner å identifisere kanter og hjørner eller punkter i et bilde. Dette er et nødvendig første trinn for fotogrammetri, i tillegg til identifisering av objekter og bevegelse. Dråpedeteksjon (blob detection) kan identifisere områder med kanter som er for jevne for kant- eller hjørnedeteksjon.
Mønstergjenkjenning brukes til å identifisere bestemte objekter. På sitt enkleste kan dette bety å lete etter en bestemt veldefinert mekanisk del på et transportbelter.
3D-rekonstruksjon fastsetter 3D-formen til objekter fra 2D-bilder. Dette kan oppnås via fotogrammetriske metoder der høyden på felles trekk (identifisert i bilder fra forskjellige observasjonspunkter) fastsettes ved hjelp av triangulering. 3D-rekonstruksjon er også mulig ved hjelp av ett enkelt 2D-bilde. Programvare (samt andre ting) vil her fortolke de geometriske forholdene mellom kanter eller skyggelagte områder.
Figur 4: 3D-skannere fanger 2D-bilder av et objekt for å lage en 3D-modell av det. I noen tilfeller blir de digitale modellene brukt til 3D-printing av kopier. (Bildekilde: Shenzhen Creality 3D Technology Co.)
Et menneske kan med letthet mentalt rekonstruere en terning fra en simpel linjekunstrepresentasjon – og en sfære fra en skyggelagt sirkel. Skyggelegging gir indikasjon på overflatenes hellinger. En slik reduksjonsprosess er imidlertid mer komplisert enn den kan late til, fordi skyggelegging er en endimensjonal parameter mens helning skjer i to dimensjoner. Dette kan føre til tvetydigheter – et faktum demonstrert av kunst som skildrer fysisk umulige gjenstander.
Figur 5: Datastyrt fastsettelse av 3D-formen til et arbeidsstykke, fra et 2D-bilde, er full av utfordringer.
Slik sorteres maskinsynsoppgaver
Mange maskinsynssystemer kombinerer gradvis teknikkene ovenfor ved å starte med operasjoner på lavt nivå, og deretter gå videre én etter én til operasjoner på høyere nivå. På det laveste nivået holdes alle bildepikslene som data med høy båndbredde. Deretter vil hver operasjon i sekvensen identifisere bildeegenskaper, og representerer informasjon som er av interesse med relativt små mengder data.
Operasjonene på lavt nivå med bildeforbedring og -gjenoppretting kommer først, etterfulgt av funksjonsdeteksjon. Når flere sensorer brukes, kan operasjoner på lavt nivå utføres av distribuerte prosesser som er dedikert til individuelle sensorer. Når funksjoner i individuelle bilder detekteres, kan fotogrammetriske målinger på høyere nivå inntreffe – enhver objektidentifikasjon eller andre oppgaver som er avhengige av de kombinerte dataene fra flere bilder og sensorer, kan også inntreffe.
Direkte beregninger og opplæringsalgoritmer
En direkte beregning i forbindelse med maskinsyn, er et sett med matematiske funksjoner som defineres manuelt av en menneskelig programmerer. Disse aksepterer inndata som bildepikselverdier for å produsere utdata, for eksempel kantkoordinatene til et objekt. Opplæringsalgoritmer er til sammenligning ikke direkte skrevet av mennesker, men er i stedet opplært via eksempeldatasett som knytter inndata sammen med ønsket utdata. De fungerer som svarte bokser (black-box). Mesteparten av slik maskinlæring bruker nå dyplæring basert på kunstige nevrale nettverk til å gjøre kalkuleringer.
Figur 6: Bildesensorer i iVu-serien kan identifisere arbeidsstykker etter type, størrelse, plassering, orientering og farge. Maskinsynskomponentene kan håndtere konfigurasjon og overvåking av en integrert skjerm, ekstern HMI eller PC. Både kameraet, styringen, linsen og lyset er forhåndsintegrerte. (Bildekilde: Banner Engineering Corp.)
Enkel maskinlæring for industrielle utrustninger er ofte mer pålitelige og krever mindre beregningskraft hvis de er basert på direkte beregning. Det er selvfølgelig grenser for hva som kan oppnås med direkte beregning. For eksempel vil den aldri være i stand til å utføre den avanserte mønstergjenkjenningen som kreves for å identifisere enkeltpersoner basert på ansikter, spesielt ikke fra en videofeed fra et overfylt offentlig rom. Maskinlæring håndterer derimot slike bruksområder på strak arm. Så det er ikke rart at maskinlæring i økende grad blir distribuert for maskinsynsoperasjoner på lavere nivå, for eksempel bildeforbedring, restaurering og funksjonsdeteksjon.
Forbedre opplæringstilnærminger (ikke algoritmer)
Modningen av dyplæringsteknologi har gjort det klart at det ikke er selve opplæringsalgoritmene som trenger forbedring, men måten de opplæres på. En slik forbedret opplæringsrutine kalles datasentrisk datasyn. Her aksepterer dyplæringssystemet veldig store opplæringssett laget av flere tusen, millioner eller til og med milliarder av bilder – og lagrer deretter den resulterende informasjonen som algoritmene trekker ut fra hvert bilde. Algoritmene opplæres effektivt ved å trene med bearbeidede eksempler og deretter referere til en «svarbok» for å verifisere om de kom frem til de riktige verdiene.
En gammel historie om hvordan digital mønstergjenkjenning ble gjort før i tiden, er en historie til skrekk og advarsel. Det amerikanske militæret hadde til hensikt å bruke maskinsyn for målgjenkjenning, og demonstrasjoner fra forsvarsleverandører identifiserte pålitelig amerikanskproduserte og russiskproduserte stridsvogner. Diverse stridsvogner ble riktig differensiert fra leverandørens luftfotografier, den ene etter den andre. Men da dette ble testet igjen med Pentagons eget bibliotek med bilder, ga systemet flere gale svar. Problemet var at forsvarsleverandørens bilder avbildet amerikanske stridsvogner i ørkener og russiske stridsvogner i grønne naturområder. Så i stedet for å gjenkjenne forskjellige stridsvogner, gjenkjente systemet i stedet bakgrunner med forskjellige farger. Hva er moralen i denne historien? Opplæringsalgoritmer må presenteres med nøye kuraterte opplæringsdata for å være nyttige.
Konklusjon: Maskinsyn for sikkerhet i robotarbeidsceller
Maskinsyn er ikke lenger noen nisjeteknologi. Den opplever den mest omfattende distribusjonen i industrielle bruksområder. Den mest dramatiske utviklingen her, er hvordan maskinsyn nå kompletterer industrielle anleggssikkerhetssystemer som har lydalarmer eller utsteder lydmeldinger når anleggspersonell trer inn i en arbeidssone uten hjelm, maske eller annet påkrevd verneutstyr. Maskinsyn kan også komplettere systemer som kunngjør når mobile maskiner, for eksempel gaffeltrucker, kommer for nær mennesker.
Disse og lignende maskinsynssystemer kan noen ganger erstatte harde vern rundt industriroboter for å muliggjøre mer effektive operasjoner. De kan også erstatte eller forbedre sikkerhetssystemer basert på lysvern som ganske enkelt stopper maskiner hvis en anleggsarbeider trer inn i en arbeidscelle. Når maskinsyn overvåker fabrikkgulvet som omgir arbeidscellen, er det mulig for roboter i slike celler å gradvis bremse ned når folk nærmer seg.
Etter hvert som utformingene til industrielle omgivelser utvikler seg for å imøtekomme samarbeidsroboter og annet arbeidscelleutstyr som er trygt for anleggspersonell å bevege seg rundt (selv mens utstyret er i drift), vil disse og andre systemer basert på maskinsyn bli en mye mer vanlig del av fabrikkprosesser.
Disclaimer: The opinions, beliefs, and viewpoints expressed by the various authors and/or forum participants on this website do not necessarily reflect the opinions, beliefs, and viewpoints of DigiKey or official policies of DigiKey.

