Google hat ein kleines neuronales Netz errichtet für seine visuelle Echtzeit-Übersetzung app, um effektiv auf Smartphones, die nicht den hohen intensive Rechenleistung von Rechenzentren auszuführen Bilderkennung und Übersetzung haben zu arbeiten.
Die App ermöglicht es Benutzern, ihre Kamera ein Objekt, das Wörter enthält, so dass sie Dinge wie Menüs und Zeichen zu übersetzen zeigen. Die Suche Riese fügte auch 20 Sprachen, seine App.
"Wir wollen in der Lage, einen Brief mit einem kleinen Betrag der Drehung zu erkennen sein, aber nicht zu viel. Wenn wir übertreiben die Rotation wird das neuronale Netz zu viel von ihrer Informationsdichte auf unwichtige Dinge zu verwenden. Also haben wir Mühe in die Herstellung von Werkzeugen uns einen schnellen Iteration Zeit und gute Visualisierungen, dass geben würde ", Otavio Gut, Software-Ingenieur für Google Translate, schrieb in einem Blog-Post.
Die App ermöglicht es Benutzern, ihre Kamera ein Objekt, das Wörter enthält, so dass sie Dinge wie Menüs und Zeichen zu übersetzen zeigen. Die Suche Riese fügte auch 20 Sprachen, seine App.
"Wir wollen in der Lage, einen Brief mit einem kleinen Betrag der Drehung zu erkennen sein, aber nicht zu viel. Wenn wir übertreiben die Rotation wird das neuronale Netz zu viel von ihrer Informationsdichte auf unwichtige Dinge zu verwenden. Also haben wir Mühe in die Herstellung von Werkzeugen uns einen schnellen Iteration Zeit und gute Visualisierungen, dass geben würde ", Otavio Gut, Software-Ingenieur für Google Translate, schrieb in einem Blog-Post.
"Innerhalb von ein paar Minuten, wir können die Algorithmen zur Erzeugung von Trainingsdaten zu ändern, zu generieren, umzuschulen und zu visualisieren.
"Um in Echtzeit zu erreichen, haben wir auch stark optimiert und Hand abgestimmt die mathematische Operationen., Die mit dem mobilen processor'sSIMDinstructions und Tuning Dinge wie Matrix multipliziert, um die Verarbeitung auf allen Ebenen der Cache-Speicher passen soll."
Die App filtert Hintergrundobjekte beim Lesen von Buchstaben in Bilder, wie Menschen, Bäume, Autos, und so weiter. Mit Blick auf "Blobs von Pixel" mit ähnlicher Farbe und sind in der Nähe von Nähe zueinander, erkennt die App es als kontinuierliche Textzeile zu lesen.
Die App wurde mit einem Faltungs neuronales Netz zu erfahren, was andere Buchstaben in Sprachen aussehen und zu differenzieren Briefe von Nicht-Buchstaben trainiert.
Ein Brief Generator wurde auch gebaut, um Lärm zu erstellen um die Buchstaben oder Zeichen, die übersetzt wird, wie Flecken und Rotation, so dass die App muss nicht immer haben klare, gut präsentiert Text, um zu arbeiten.
Lesen Sie mehr: Studie aufdeckt unüberwachten Lernrahmen für Bild Sentiment-Analyse
Die App nutzt Wörterbuch-Lookups für die verschiedenen Sprachen einmal die Buchstaben werden erkannt, mit ihm noch in der Lage, Wörter aus Gruppe von Buchstaben zu erkennen, wenn es versehentlich liest einen Buchstaben als Zahl. Zum Beispiel, wenn es 'S' und liest "5" aus Versehen, es wird immer noch in der Lage, um das Wort aus folgenden Buchstaben "super" zu erkennen.
Diese Übersetzung wird dann auf der Oberseite der ursprünglichen Worte wiedergegeben.
"Wir können dies tun, weil wir bereits festgestellt haben, und lesen Sie die Zeichen aus dem Bild, so dass wir genau wissen, wo sie sind. Wir können in den Farben rund um die Buchstaben zu suchen und verwenden, um die ursprünglichen Buchstaben zu löschen. Und dann ziehen wir können die Übersetzung oben unter Verwendung des ursprünglichen Vordergrundfarbe. "

No comments:
Post a Comment