Heim Der Blog Blog Details

Entwurf eines multifunktionalen Roboterarmsystems mit Gestenerkennungssteuerung auf Basis der FPGA-Technologie

July 28 2025
Ampheo

Anfrage

Globaler Lieferant elektronischer Komponenten AMPHEO PTY LTD: Umfangreiches Inventar für One-Stop-Shopping. Einfache Anfragen, schnelle, individuelle Lösungen und Angebote.

SCHNELLE ANFRAGE
ZUR RFQ-LISTE HINZUFÜGEN
Mit der rasanten Entwicklung der Informationstechnologie hat sich die Mensch-Computer-Interaktionstechnologie schrittweise von traditionellen Methoden auf Basis von Tastatur, Maus und anderen grafischen Benutzeroberflächen zu Informationstypen entwickelt, die menschliche Wahrnehmung simulieren und übertragen.

1. Designübersicht

Mit der rasanten Entwicklung der Informationstechnologie hat sich die Mensch-Computer-Interaktionstechnologie schrittweise von traditionellen Methoden auf Basis von Tastatur, Maus und anderen grafischen Benutzeroberflächen zu Informationstypen entwickelt, die menschliche Wahrnehmung simulieren und übertragen. Die Gestenerkennung hat aufgrund ihrer natürlichen, direkten und effektiven Interaktionseigenschaften zunehmend an Aufmerksamkeit der Forschung gewonnen. Herkömmliche Gestenerkennung basiert auf sensorbestückten Handschuhen, deren Bedienung teuer und umständlich ist und sich nicht großer Beliebtheit erfreut. Die auf maschinellem Sehen basierende Gestenerkennungstechnologie durchbricht Hardwarebeschränkungen, erneuert die Mensch-Computer-Interaktionsmethoden aus der Perspektive von Mustererkennungsalgorithmen und ist besser an die zukünftigen Entwicklungstrends der Mensch-Computer-Interaktion anpassbar.

Entwurf eines multifunktionalen Roboterarmsystems mit Gestenerkennungssteuerung auf Basis der FPGA-Technologie

Als gängigstes Ausführungsterminal in der modernen industriellen Automatisierung und intelligenten Verarbeitung kann der Roboterarm durch die koordinierte Bewegung jedes Gelenks und die Zusammenarbeit der mechanischen Enden Simulationen mit mehreren Freiheitsgraden durchführen. Dank des Steuerungsdesigns des Servos kann der Roboterarm Greif-, Sortier- und kontinuierliche Aktionen ausführen und verfügt somit über eine höhere Flexibilität bei Aktionskombinationen und eine höhere Genauigkeit bei der Ausführung von Anweisungen als menschliche Hände.

Dieses System basiert auf maschinellem Sehen und konzentriert sich auf die Gestenerkennung. Es nutzt die Kamera, um monokulare Bildinformationen zu erfassen, realisiert Gestensegmentierung, Gestenmodellierung, Extraktion von Gestenformmerkmalen und erkennt eine Vielzahl unterschiedlicher Gestenbilder. Das servogesteuerte Roboterarmmodul dient als Antwortterminal, und der Roboterarm wird mithilfe von Gestenänderungen gesteuert, um verschiedene Funktionen auszuführen. Dieses System erweitert nicht nur die Reichweite menschlicher Hände, sondern bietet auch hervorragende Anwendungsaussichten in der industriellen Automatisierung, der Logistikbranche und anderen Bereichen.

2. Systemaufbau und Funktionsbeschreibung

Dieses System verwendet Xilinx ZYNQ SoC als Hauptsteuerchip und ist in ein Prozessormodul, ein Kameramodul, ein Anzeigemodul, ein Servoantriebsmodul und ein Kommunikationsübertragungsmodul unterteilt.

  1. Prozessormodul

Dieses System nutzt für die Systementwicklung das PYNQ-Z2-Entwicklungsboard auf Basis des ZYNQ-7020-Chips. ZYNQ ist in zwei Teile unterteilt: PS (Processing System) und PL (Programmable Logic). Das Linux-Betriebssystem läuft auf dem PS, und Python läuft auf dem Linux-Betriebssystem. Durch Aufruf der Bibliothek Overlay in PYNQ wird die mit dem PS verbundene Schnittstelle analysiert und anschließend die FPGA-Logikressourcen gesteuert, um die Systemdatenverarbeitung zu beschleunigen.

Für den auf maschinellem Sehen basierenden Gestenerkennungsalgorithmus und den für dieses System entwickelten „Tic-Tac-Toe“-Mensch-Maschine-Kampfalgorithmus ist die direkte Programmierung in Hardwaresprachen logisch sehr komplex. Daher wird Python zur Programmierung und FPGA zur Hardwarebeschleunigung der Bildverarbeitung verwendet. Dies verbessert nicht nur die Bildverarbeitungsgeschwindigkeit, sondern erweitert auch die Bildanwendung.

  1. Kameramodul

Dieses System nutzt die hochauflösende Oni C11-Kamera zur Erfassung von Gesten und zur Bildeingabe über USB. Im Vergleich zu herkömmlichen Sensorhandschuhen zur Erfassung von Gesten reduziert die Kamera den Hardwareaufwand und macht das gesamte System skalierbarer.

  1. Anzeigemodul

Die Verwendung des Anzeigebildschirms als Bildausgabeseite zur Anzeige des Bildverarbeitungsprozesses und der Ergebnisse der Gestenerkennung ist nicht nur für das Debuggen und Überprüfen des Algorithmus im Prozess förderlich, sondern bietet auch bessere visuelle Effekte.

  1. Roboterarm-(Servo-)Modul

Der in diesem System verwendete Roboterarm ist ein von Learm entwickelter Roboterarm mit sechs Freiheitsgraden. Seine Bewegung kann vom Hostcomputer gesteuert werden, und der Servo kann per PWM gesteuert werden, um zwei verschiedene Greifmodi und eine kontinuierliche, komplexe Bewegung auszuführen. Das Servomodul (Roboterarm) und das Prozessormodul nutzen die serielle UART-Kommunikation und ein spezifisches Kommunikationsprotokoll für die Befehlsinteraktion.

  1. Kommunikationsübertragungsmodul

Dieses Modul dient der Datenübertragung zwischen dem Prozessormodul und anderen Modulen, um die Zusammenarbeit der verschiedenen Systemteile zu gewährleisten.

3. Gestenerkennung

Das System kann acht häufig verwendete Gesten erkennen und verarbeiten: „0“, „1“, „2“, „3“, „4“, „5“, „Viel Glück“ und „OK“. Nach dem Systemstart führen Sie die entsprechenden Gesten am Kameraende aus, um die Gesteneingabe abzuschließen. Das Display zeigt das entsprechende Erkennungsergebnis an. Der Bildschirm verfügt über einen rechteckigen Rahmen für den Erkennungsbereich. Ein Polygon umrahmt die Handkontur im rechteckigen Rahmen. Das Erkennungsergebnis wird in der oberen rechten Ecke angezeigt. Befindet sich keine Hand im Erkennungsbereich, bleibt der Bildschirm stehen.

Der Roboterarm ist mit einer Komponente zur Speicherung von Aktionsgruppen zur Speicherung von Aktionsanweisungen ausgestattet. Möchte der Benutzer eine Aktion entwerfen, verbindet er den Roboterarm nach dem Einschalten per USB-Kommunikation mit dem Host-Computer, legt die an die sechs Servos im Host-Computer übertragenen PWM-Werte fest, bildet eine Aktionsgruppe mit dieser Aktionsanweisung und lädt sie für spätere Aufrufe in die Speicherkomponente herunter.

4. Detailliertes Hauptsteuerchipmodell und seine Funktion

  1. Xilinx ZYNQ-7020

    • Modell : Xilinx ZYNQ-7020

    • Funktion : Als Hauptsteuerchip kombiniert der ZYNQ-7020-Chip das Prozessorsystem (PS) und die programmierbare Logik (PL) zu einem hochintegrierten System. Der PS-Teil läuft unter Linux und unterstützt Python-Programmierung, was die Implementierung komplexer Gestenerkennungsalgorithmen und Mensch-Computer-Interaktionslogik erleichtert. Der PL-Teil nutzt FPGA zur Hardwarebeschleunigung, um die Bildverarbeitungsgeschwindigkeit zu erhöhen. Diese Architektur ermöglicht dem System sowohl leistungsstarke Verarbeitungsfunktionen als auch hohe Flexibilität.

  2. PAJ7620U2 (alternative Lösung)

    • Modell : PAJ7620U2

    • Funktion : Der PAJ7620U2 ist ein optischer Array-Sensor von PixArt. Er verfügt über eine LED mit integrierter Lichtquelle, Umgebungslichtfilter, Linse und Gestensensor in einem kleinen kubischen Modul, das auch in dunklen oder schwach beleuchteten Umgebungen funktioniert. Der Sensor verfügt über eine integrierte Gestenerkennung, unterstützt neun Gestentypen und gibt Ergebnisse für Gestenunterbrechungen aus. Außerdem verfügt er über eine integrierte Näherungserkennung, mit der sich nähernde oder entfernende Objekte erfassen lassen. Der PAJ7620U2 kann als alternative Lösung für die Gestenerkennung eingesetzt werden und kommuniziert über die I²C-Schnittstelle mit dem Hauptcontroller, um die Gestenerkennung zu realisieren.

5. Arbeitsablauf

  1. Bildaufnahme

    Die Gestenbildinformationen werden über das Kameramodul erfasst.

  2. Bildvorverarbeitung

    Die Bildvorverarbeitung besteht aus vier Hauptschritten: Definieren von Erkennungsbereichen, Farbraumkonvertierung, Dilatation und Gauß-Filterung.

    • Erkennungsbereich definieren : Wird hauptsächlich verwendet, um den Erkennungsbereich zu reduzieren und so die Erkennungseffizienz zu verbessern.

    • Farbraumkonvertierung : Konvertieren Sie die von der Kamera erfassten Bildinformationen im RGB-Farbraum in die Bildinformationen im HSV-Farbraum, um die anschließende Farbsegmentierung des Hintergrunds und der Hände zu erleichtern.

    • Dilatationsverarbeitung : Erhöhen Sie den Hervorhebungsbereich des Erkennungsbereichs und beseitigen Sie Rauschpunkte in der Hand.

    • Gaußsche Filterung : Eliminieren Sie Gaußsche Rauschpunkte im Bild durch gewichtete Summation.

  3. Gestenmodellierung und Merkmalsextraktion

    Der Douglas-Pucker-Algorithmus wird verwendet, um die Handkontur in eine polygonale Kurve einzupassen. Gleichzeitig wird die Fläche berechnet, um die Handkontur mit der größten Handfläche innerhalb der Kontur zu erhalten. Auf dieser Grundlage werden die Gesamtkonturfläche (areacnt), die Handfläche in der Kontur (areahull) und der Prozentsatz der Handfläche zur Gesamtkonturfläche (arearatio) berechnet. Gleichzeitig wird die Anzahl der konvexen Defekte (d. h. Vertiefungen) in der maximalen Konturfläche ermittelt. Außerdem werden die Höhe (d) und der Scheitelpunkt (Winkel) des Dreiecks berechnet, das durch den Startpunkt, den Endpunkt und den am weitesten vom Startpunkt und Endpunkt entfernten Punkt im konvexen Defekt gebildet wird, um die durch Rauschen entstandenen konvexen Defektpunkte zu entfernen. Außerdem wird die Anzahl der konvexen Defekte (l) nach Beseitigung der Rauschpunkte ermittelt.

  4. Gestenerkennung

    Entsprechend den nach der Gestenanalyse erhaltenen Modellparametern werden über das Flussdiagramm zur Gestenerkennung acht Gestenerkennungsergebnisse ausgegeben: „0“, „1“, „2“, „3“, „4“, „5“, „ok“ und „viel Glück“.

  5. Roboterarm-Reaktion

    Durch verschiedene logische Operationen innerhalb des Prozessors werden die entsprechenden Aktionsanweisungen über das entsprechende PWM-Signal an jeden Servo ausgegeben, wodurch der Roboterarm mit sechs Freiheitsgraden dazu gebracht wird, die erforderliche Aktion auszuführen und so die entsprechende kombinierte Funktion zu realisieren.

6. Anwendungsszenarien und Perspektiven

  1. Industrielle Automatisierung

    Dieses System kann im Bereich der industriellen Automatisierung zur Steuerung großer Maschinen zur Objektsortierung eingesetzt werden. Es kann den Roboterarm durch Gestenerkennung steuern, um eine intelligente Steuerung automatisierter Produktionslinien zu erreichen.

  2. Logistikbranche

    In der Logistikbranche kann dieses System zum Sortieren und Handhaben von Waren eingesetzt werden, um die Logistikeffizienz zu verbessern.

  3. Unterhaltung

    Mit diesem System können Unterhaltungsanwendungen wie AR-Spiele und Virtual-Reality-Spiele entwickelt werden und durch Gestenerkennung ein natürlicheres und intuitiveres Spielinteraktionserlebnis erreicht werden.

  4. Medizinischer Bereich

    Im medizinischen Bereich kann dieses System beispielsweise zur chirurgischen Unterstützung und im Rehabilitationstraining eingesetzt werden. Es kann medizinische Geräte oder Rehabilitationsgeräte durch Gestenerkennung steuern, um die medizinische Effizienz und Genauigkeit zu verbessern.

  5. Ausbildung

    Im Bildungsbereich kann dieses System zur Entwicklung interaktiver Lehranwendungen eingesetzt werden, wobei durch Gestenerkennung lebendigere und interessantere Lehrmethoden erreicht werden.

  6. Smart Home

    Im Smart-Home-Bereich kann dieses System zur Steuerung von Haushaltsgeräten, intelligenten Vorhängen und anderen Haushaltsprodukten verwendet werden und ermöglicht eine bequeme Steuerung des Smart Home durch Gestenerkennung.

VII. Fazit

Das multifunktionale Roboterarmsystem mit Gestensteuerung auf Basis von FPGA-Technologie ermöglicht eine effiziente und präzise Gestenerkennung durch die Kombination von maschinellem Sehen und FPGA-Hardwarebeschleunigungstechnologie. Das System bietet vielfältige Anwendungsmöglichkeiten und kann in der industriellen Automatisierung, der Logistikbranche, der Unterhaltungsbranche, der Medizin, dem Bildungsbereich, im Smart Home und weiteren Bereichen eingesetzt werden. Mit der kontinuierlichen Weiterentwicklung der künstlichen Intelligenz und des Internets der Dinge wird das System künftig ein breiteres Anwendungsspektrum und Entwicklungspotenzial bieten.

Ampheo