1. SPIDER'S WEB
  2. Oprogramowanie
  3. Technologie

OCR w iOS 15, czyli automatyczne wykrywanie tekstu na zdjęciach — jak to działa?

iOS 15 iPadOS 15 OCR iphone ipad apple

iOS 15 wprowadza na iPhone’y i iPady funkcję OCR, czyli optyczne rozpoznawanie tekstu — zarówno na grafikach zapisanych w aplikacji Zdjęcia, jak i na świeżo wykonanych zrzutach ekranu oraz nawet… bezpośrednio w aplikacji aparatu. Jak to działa i co to właściwie daje? Sprawdzamy!

OCR, czyli optical character recognition (optyczne rozpoznawania znaków), jest technologią starszą niż internet, ale implementacja tych algorytmów przez Apple’a w iOS 15 robi spore wrażenie. Do tej pory mogliśmy jedynie używać aplikacji, które potrafiły przerobić grafiki na pliki tekstowe. Teraz taką funkcję otrzymał system operacyjny, o czym zorientowałem się, gdy oglądałem… zrzut ekranowy z konferencji w wirtualnej rzeczywistości (nie pytajcie).

Na zrzucie ekranu z konferencji prasowej w VR mogłem zaznaczyć imię i nazwisko jednego z uczestników

Jak działa OCR w iOS 15?

Mechanizmy do optycznego rozpoznawania obrazu pojawiły się między innymi w galerii, dzięki czemu możemy rozpoznawać tekst na wszystkich fotografiach i grafikach przechowywanych w iCloud Photos Library. Wystarczy wejść do galerii, a jeśli tylko algorytmy wykryją na wybranym obrazku w aplikacji Zdjęcia jakiś tekst, to w prawym dolnym rogu pojawi się charakterystyczna ikonka.

Rozpoznane słowo można od razu sprawdzić w słowniku polsko-angielskim lub wyszukać je w sieci

Co istotne, zdjęcie wcale nie musi być wykonane iPhone’em, aby tryb OCR zadziałał. Nie spodziewałem się, że będzie to możliwe, ale udało mi się zaznaczyć i skopiować napis z ramy rowerowej, który uwieczniłem na zaimportowanej do biblioteki iCloud Photos Library rozmazanej fotografii wykonanej w rozdzielczości 640 na 480 pikseli… ponad 18 lat temu.

Pełnoletnie rozmazane zdjęcie w rozdzielczości 640 na 480 pikseli? Żaden problem

Optyczne rozpoznawanie znaku można uruchomić również bezpośrednio w aparacie iPhone’a.

To również bardzo przydatne rozwiązanie, gdyż pozwala szybko zeskanować np. numer telefonu na ogłoszeniu lub menu w restauracji. Treść jest rozpoznawana jeszcze przed zrobieniem zdjęcia i można wejść z nią w interakcję — aczkolwiek warto przy tym uważać, by nie machać za bardzo ręką, a znaki nie wypadły z kadru w chwili, gdy spróbujemy je tąpnąć.

Nowa ikonka w iOS 15 pozwala na skan OCR z poziomu pola tekstowego

Co ciekawe, aparat iPhone’a z włączonym trybem OCR można uruchomić… w każdym polu tekstowym. Po tąpnięciu w nie obok przycisku „wklej” pojawia się nowa ikonka, taka sama jak w galerii, która uruchamia podgląd z obiektywu i automatycznie wkleja litery, które rozpozna — przy czym ta konkretna implementacja OCR-u akurat działa jak na razie… tak sobie.

Rozpoznane litery trafiają do pola tekstowego automatycznie

OCR działa za to świetnie na wykonanych dopiero co zrzutach ekranu.

Strony internetowe pozwalają (zazwyczaj) kopiować z nich treść bez problemu, ale w aplikacjach jest to często niemożliwe — i w tej sytuacji przydaje się właśnie ta nowa funkcja OCR do użycia na zrzucie ekranu. Treść zdobytą w ten sposób można potem skopiować do schowka w iOS 15 i przekleić ją do dowolnego innego programu i już teraz wiem, że to rozwiązanie mi się przyda w pracy.

Kopiowanie rozpoznanych liter, cyfr i znaków specjalnych do schowka i przenoszenie ich do innych aplikacji to w dodatku tylko jedno z zastosowań OCR w iOS 15. Zaznaczone w ten sposób słowa można od razu sprawdzić w słowniku albo przetłumaczyć, a pod numer telefonu — zadzwonić. Z pewnością będę z tego rozwiązania korzystał, zwłaszcza podczas wyjazdów zagranicznych.

Optyczne rozpoznawanie tekstu w iOS 15 działa na zrzutach ekranu

W OCR w iOS15 jest jeden szkopuł — firma z Kalifornii jak zwykle ma w poważaniu Polaków.

Tyle dobrego, że optyczne rozpoznawanie znaków działa w naszym regionie i możemy z niego korzystać do rozpoznawania np. numerów telefonu, ale niestety nie obsługuje ono wszystkich polskich liter. Oznacza to, że nie zawsze zeskanowany tekst będziemy mogli od razu sprawdzić w słowniku, a przy jego kopiowaniu i wklejaniu zawsze trzeba się upewnić, że np. „ł” nie zmieniło się w „t”.

Chciałbym przy tym powiedzieć, że pozostaje mieć nadzieję, iż obsługę polskich znaków doda jedna z aktualizacji iOS-a, ale tej nadziei nie mam. Mijają lata, a lista funkcji iOS-a niedostępnych w języku polskim się powiększa. OCR-a dołącza do paska z podpowiedziami słów, pisania przez mazanie, opcji ustawienia dwóch języków naraz, klawiatury na Apple Watchach, aplikacji Tłumacz oraz Siri…

PS Do działania nowej funkcji OCR w iOS 15 wymagany jest procesor A12 Bionic lub nowszy, co oznacza, że funkcję da się uruchomić na iPhone’ach od XR/XS w górę. Aby nowość się pojawiła, trzeba też dodać ze względu na brak obsługi języka polskiego np. język angielski jako dodatkowy w ustawieniach, a potem zaznaczyć checkbox przy polu Live Text.

iOS 15 oraz iPadOS 15 trafią na smartfony i tablety Apple’a już 20 września 2021 r. Obecnie klienci firmy mogą pobierać system w wersji Release Candidate.