Slik utformes og distribuere smarte maskinsynssystemer raskt

Av Jeff Shepard

Bidrag fra DigiKeys nordamerikanske redaktører

Behovet for maskinsyn vokser på tvers av en rekke bruksområder, inkludert sikkerhet, trafikk- og bykameraer, detaljhandelsanalyse, automatisert inspeksjon, prosesstyring og synsstyrt robotikk. Maskinsyn er komplekst å implementere og krever integrering av ulike teknologier og undersystemer, inkludert maskinvare med høy ytelse og avansert programvare for kunstig intelligens/maskinlæring (AI/ML). Det begynner med å optimalisere videoopptaksteknologien og syn-I/O for å dekke utrustningers behov og strekker seg til flere bildebehandlingsrørledninger for tilkobling med høy virkningsgrad. Det er til syvende og sist avhengig av å gjøre det mulig for det innebygde synssystemet å utføre synsbaserte analyser i sanntid ved hjelp av maskinvare med høy ytelse, for eksempel FPGA-er (field programmable gate arrays), SOM-er (systems on modules), SoC-er (systems on chips) og til og med MPSoC-er(multi-processor systems on chips) for å kjøre den nødvendige AI/ML-bildebehandlings- og gjenkjenningsprogramvaren. Dette kan være en kompleks, kostbar og tidkrevende prosess som er utsatt for mange muligheter for kostnadsoverskridelser og planleggingsforsinkelser.

I stedet for å starte fra bunnen av, kan designere bruke en godt kuratert, høyytelsesutviklingsplattform som får produkter raskere ut på markedet (time to market), kontrollerer kostnader og reduserer utviklingsrisiko samtidig som den støtter at utrustningen får en høy av fleksibilitet og ytelse. En SOM-basert utviklingsplattform kan gi et integrert maskinvare- og programvaremiljø, slik at utviklere kan fokusere på tilpasning av utrustninger og spare opptil ni måneders utviklingstid. I tillegg til utviklingsmiljøet er den samme SOM-arkitekturen tilgjengelig i produksjonsoptimaliserte konfigurasjoner for kommersielle og industrielle miljøer, noe SOM øker påliteligheten og kvaliteten på utrustninger, reduserer risikoene ytterligere og fremskynder tiden det tar å få produkter ut på markedet.

Denne artikkelen starter med å gjennomgå utfordringene knyttet til utviklingen av maskinsynssystemer med høy ytelse, og presenterer deretter det omfattende utviklingsmiljøet som tilbys avKria KV260 vision AI startsett fraAMD Xilinx, og avsluttes med eksempler på produksjonsklare SOM-er basert på Kira 26-plattformen, designet for å kobles til et adapterkort (carrier card) med løsningsspesifikke periferiutstyr.

Det begynner med datatypeoptimalisering

Behovene for dype læringsalgoritmer utvikler seg. Ikke alle utrustninger trenger høypresisjonsberegninger. Lavere presisjonsdatatyper som INT8 eller egendefinerte dataformater brukes. GPU-baserte systemer kan utfordres ved å prøve å modifisere arkitekturer optimalisert for data med høy presisjon for å imøtekomme dataformater med lavere presisjon på en effektiv måte. Kria K26 SOM kan konfigureres på nytt, slik at den støtter et bredt spekter av datatyper fra FP32 til INT8 og andre. Rekonfigurerbarhet resulterer også i lavere samlet energiforbruk. For eksempel bruker operasjoner optimalisert for INT8 en størrelsesorden mindre energi sammenlignet med en FP32-drift (figur 1).

Bilde av energi som trengs for INT8-drift sammenlignet med FP32-driftFigur 1: En størrelsesorden mindre energi er nødvendig for INT8-operasjoner (8b Add) sammenlignet med FP32-operasjoner (32b Add). (Bildekilde: AMD Xilinx)

Optimal arkitektur for minimalt strømforbruk

Design implementert basert på en flerkjerners (multicore) GPU- eller CPU-arkitektur kan være strømhungrige basert på typiske strømforbruksmønstre:

  • 30 % til kjernene
  • 30 % til internminnet (L1, L2, L3)
  • 40 % for det eksterne minnet (for eksempel DDR)

Frekvente tilganger til ineffektiv DDR-minne kreves av GPU-er for å støtte programmerbarhet og kan være en flaskehals for høye krav til båndbredde. Zynq MPSoC-arkitekturen som brukes i Kria K26 SOM støtter utvikling av utrustninger med liten eller ingen tilgang til eksternt minne. For eksempel, i en typisk kjøretøyutrustning kreves det kommunikasjon mellom GPU-en og ulike moduler flere tilganger til eksternt DDR-minne, mens den Zynq MPSoC-baserte løsningen inkluderer en rørledning som er utformet for å unngå de fleste DDR-tilganger (figur 2).

Diagram over typisk SOC vs AMD Xilinx Zynq MPSoCFigur 2: I denne typiske kjøretøyutrustningen krever GPU-en flere tilganger til DDR for kommunikasjon mellom de ulike modulene (venstre), mens rørledningsarkitekturen til Zynq MPSoC (høyre) unngår de fleste DDR-tilgangene. (Bildekilde: AMD Xilinx)

Beskjæring utnytter fordelene

Ytelsen til nevrale nettverk på K26 SOM kan forbedres ved å bruke et AI-optimaliseringsverktøy som muliggjør dataoptimalisering og beskjæring. Det er veldig vanlig at nevrale nettverk blir overparameterisert, noe som fører til høye nivåer av redundans som kan optimaliseres ved hjelp av databeskjæring og modellkomprimering. Bruk av Xilinx sin AI Optimizer kan resultere i en 50x reduksjon i modellkompleksitet, med en nominell innvirkning på modellens nøyaktighet. For eksempel ble en enkeltskuddsdetektor (SSD) pluss en VGG convolution neural net (CNN) arkitektur med 117 Giga Operations (Gops) foredlet over 11 iterasjoner med beskjæring ved bruk av AI Optimizer. Før optimalisering kjørte modellen 18 bilder per sekund (FPS) på en Zynq UltraScale+ MPSoC. Etter 11 iterasjoner – den 12th kjøring av modellen – kompleksiteten ble redusert fra 117 Gops til 11,6 Gops (10X), ytelsen økte fra 18 til 103 FPS (5X), og nøyaktigheten falt fra 61,55 gjennomsnittlig presisjon (mAP) for objektdeteksjon til 60,4 mAP (bare 1 % lavere) (Figur 3).

Graf over fordelene ved beskjæring Figur 3: Etter relativt få iterasjoner kan beskjæring redusere modellkompleksiteten (Gop) med 10X og forbedre ytelsen (FPS) med 5X, med bare 1 % reduksjon i nøyaktighet (mAP). (Bildekilde: AMD Xilinx)

Eksempel på utrustninger i den virkelige verden

En maskinlæringutrustning for registrering og gjenkjenning av nummerskilt (bilskilt), også kalt automatisk nummerskiltgjenkjenning (number plate recognition – ANPR), ble utviklet basert på visjonsanalyseprogramvare fra Uncanny Vision. ANPR brukes i automatiserte bompengesystemer, motorveiovervåking, sikker tilgang til port og parkering og andre utrustninger. Denne ANPR-utrustningen inkluderer en AI-basert rørledning som dekoder videoen og forhåndsbehandler bildet, etterfulgt av ML-deteksjon og OCR-tegngjenkjenning (figur 4).

Skjema over typisk bildebehandlingsflyt for et AI-basert ANPR-utrustning (klikk for å forstørre)Figur 4: Typisk bildebehandlingsflyt for et AI-basert ANPR-utrustning. (Bildekilde: AMD Xilinx)

Implementering av ANPR krever en eller flere H.264- eller H.265-kodede RTSP-strømmer (real-time streaming protocol) som er dekodet eller ukomprimert. De dekodede videobildene skaleres, beskjæres, fargerommet konverteres og normaliseres (forhåndsbehandlet), og sendes deretter til ML-deteksjonsalgoritmen. Høyytelses ANPR-implementasjoner krever en flertrinns AI-rørledning. Den første fasen oppdager og lokaliserer kjøretøyet i bildet, og oppretter interesseområdet (region of interest – ROI). Andre algoritmer optimaliserer samtidig bildekvaliteten for senere bruk av OCR-tegngjenkjenningsalgoritmen og sporer kjøretøyets bevegelse over flere rammer. Kjøretøyets ROI beskjæres videre for å generere nummerplaten ROI behandlet av OCR-algoritmen for å bestemme tegnene i nummerplaten. Sammenlignet med andre kommersielle SOM-er basert på GPU-er eller CPU-er, kjørte Uncanny Vision sin ANPR-utrustning 2–3 ganger raskere på Kira KV260 SOM, og kostet mindre enn 100 US-dollar per RTSP-feed.

Utviklingsmiljø for smartsyn

Designere av smartsynsutrustninger som trafikk- og bykameraer, detaljistanalyser, sikkerhet, industriell automatisering og robotikk kan bruke Kria K26 SOM AI Starter-utviklingsmiljøet. Dette miljøet er bygget ved hjelp av Zynq ® UltraScale +™ MPSoC-arkitekturen og har et voksende bibliotek med kuraterte programvarepakker for utrustninger (figur 5). AI Starter SOM inkluderer en quad-core Arm Cortex-A53-prosessor, over 250 tusen logiske celler og en H.264/265-videokodek. Som har også 4 GB DDR4-minne, 245 IOer og 1,4 tera-topper AI-beregning for å støtte opprettelsen av AI-utrustninger med høy ytelse som tilbyr mer enn 3 ganger høyere ytelse med lavere latenstid og kraft sammenlignet med andre maskinvaretilnærminger. De forhåndsbygde utrustningene gjør det mulig for innledende design å kjøre på mindre enn en time.

Bilde av AMD Xilinx Kria KV260 VISION AI-startsettFigur 5: Kria KV260 Vision AI-startsett er et omfattende utviklingsmiljø for maskinsynutrustninger. (Bildekilde: AMD Xilinx)

For å hjelpe med å komme i gang med utviklingsprosessen ved hjelp av Kria K26 SOM, tilbyr AMD Xilinx KV260 VISION AI-startpakken inneholderen strømadapter, ethernet-kabel, microSD-kort, USB-kabel, HDMI-kabel og en kameramodul (figur 6). Hvis hele startpakken ikke er nødvendig, kan utviklere ganske enkelt kjøpe den valgfrie strømadapteren for å begynne å bruke Kira K26 SOM.

Bilde av AMD Xilinx KV260 vision AI-startpakkeFigur 6: KV260 VISION AI-startpakke innbefatter: (øverste rad, venstre til høyre) strømforsyning, Ethernet-kabel, microSD-kort og (nederste rad, venstre til høyre) USB-kabel, HDMI-kabel, kameramodul. (Bilde: AMD Xilinx)

En annen faktor som fremskynder utviklingen, er det omfattende utvalget av funksjoner, inkludert rikelige 1,8 V, 3,3 V enkeltstående og differensial I/O med fire 6 Gb/s-transceivere og fire 12,5 Gb/s-transceivere. Disse funksjonene muliggjør utvikling av utrustninger med høyere antall bildesensorer per SOM og mange variasjoner av sensorgrensesnitt som MIPI, LVDS, SLVS og SLVS-EC, som ikke alltid støttes av programspesifikke standardprodukter (application-specific standard products – ASSP-er) eller GPU-er. Utviklere kan også implementere DisplayPort, HDMI, PCIe, USB2.0/3.0 og brukerdefinerte standarder med den innebygde programmerbare logikken.

Endelig har utviklingen av AI-utrustninger blitt forenklet og gjort mer tilgjengelig ved å koble de omfattende maskinvare- og programvarefunksjonene til K26 SOM med produksjonsklare synsutrustninger. Disse synsutrustningene kan implementeres uten nødvendig FPGA-maskinvaredesign og gjør det mulig for programvareutviklere å raskt integrere tilpassede AI-modeller og programkode og til og med endre syns-bearbeidingen. Vitis unified sin utviklingsplattform for programvare, samt biblioteker fra Xilinx støtter vanlige designmiljøer, for eksempel TensorFlow, Pytorch og Café frameworks, så vel som flere programmeringsspråk, inkludert C, C++, OpenCL™ og Python. Det finnes også en innebygd app-butikk for Edge-utrustninger (inngangspunkt-utrustninger) som bruker Kria SOM-er fra Xilinx og dets økosystempartnere. Xilinx-tilbud er gratis med åpen kildekode og inkluderer sporing av smarte kameraer og ansiktsdeteksjon, naturlig språkbehandling med smartsyn og mer.

Produksjonsoptimalisert Kira 26 SOM-er

Når utviklingsprosessen er fullført, er produksjonsklare versjoner av K26 SOM konstruert for å plugges inn i et adapterkort (carrier card) med løsningsspesifikt periferiutstyr som kan fremskynde overgangen til produksjon (figur 7) tilgjengelig. Den grunnleggende K26 SOM er en enhet med kommersiell handelskvalitet med en temperaturklassifisering fra 0 °C til +85 °C overgangstemperatur, målt av den interne temperatursensoren. En versjon med industrikvalitet av K26 SOM er klassifisert for drift fra -40 °C til +100 °C, er også tilgjengelig.

Industrimarkedet krever lang driftstid i tøffe omgivelser. Kria SOM med industrikvalite er konstruert for ti års drift ved 100 °C og 80% relativ luftfuktighet, samt for å tåle opptil 40 g sjokkvibrasjon og 5 g gjennomsnittlig kvadratisk rotvibrasjon (RMS). Den leveres også med en minste produksjonstilgjengelighet på ti år for å støtte lange produktlivssykluser.

Bilde av produksjonsoptimalisert Xilinx Kira 26 SOM-erFigur 7: Produksjonsoptimalisert KIRA 26 SOM for industrielle og kommersielle miljøer er konstruert for å plugges inn i et adapterkort (carrier card) med løsningsspesifikt tilbehør. (Bilde: DigiKey)

Sammendrag

Designere av maskinsynutrustninger som sikkerhet, trafikk og bykameraer, detaljhandelsanalyser, automatisert inspeksjon, prosesstyring og visjonsstyrt robotikk kan bruke Kria K26 SOM AI Starter for å øke hastigheten for tiden det tar å få produktet ut på markedet, bidra til å kontrollere kostnader og redusere utviklingsrisikoer. En SOM-basert utviklingsplattform kan gi et integrert maskinvare- og programvaremiljø, slik at utviklere kan fokusere på tilpasning av utrustninger og spare opptil ni måneders utviklingstid. Den samme SOM-arkitekturen er tilgjengelig i produksjonsoptimaliserte konfigurasjoner for kommersielle og industrielle miljøer, noe som øker hastigheten for tiden det tar å nå ut på markedet. Industriversjonen har en minimum produksjonstilgjengelighet på 10 år for å støtte lange produktlivssykluser.

DigiKey logo

Disclaimer: The opinions, beliefs, and viewpoints expressed by the various authors and/or forum participants on this website do not necessarily reflect the opinions, beliefs, and viewpoints of DigiKey or official policies of DigiKey.

Om skribenten

Image of Jeff Shepard

Jeff Shepard

Jeff har skrevet om kraftelektronikk, elektroniske komponenter og andre teknologiemner i over 30 år. Han begynte å skrive om kraftelektronikk som seniorredaktør i EETimes. Han grunnla senere Powertechniques, et magasin for design av kraftelektronikk, og grunnla senere Darnell Group, et globalt firma som driver forskning og gir ut publikasjoner innen strømelektronikk. Blant aktivitetene publiserte Darnell Group PowerPulse.net, som ga daglige nyheter til det globale ingeniørsamfunnet som driver med kraftelektronikk. Han er forfatter av en lærebok om ikke-linjær strømforsyninger (switch-mode strømforsyninger), med tittelen «Power Supplies», utgitt av Reston-divisjonen i Prentice Hall.

Jeff var også med på å grunnlegge Jeta Power Systems, en produsent av strømforsyninger med høy effekt (høyt wattall), som ble kjøpt opp av Computer Products. Jeff er også en oppfinner som har navnet sitt på 17 amerikanske patenter innen termisk energihøsting og optiske metamaterialer og er i en bransjekilde som hyppig taler om globale trender innen kraftelektronikk. Videre har han en mastergrad i kvantitative metoder og matematikk fra University of California.

Om denne utgiveren

DigiKeys nordamerikanske redaktører