Nauka  / Artykuł

Wyrzuć wszystkie mikrofony. Inżynierom MIT udało się odtworzyć dźwięk z samego obrazu

Uprzedzam, poniższy wpis przedstawia najbardziej niesamowitą nową technologię, o jakiej dziś przeczytasz.

Jak nagrać dźwięk? Na tak postawione pytanie odpowiedź jest prosta – wystarczy użyć mikrofonu. W takim razie podnieśmy trochę poprzeczkę – jak nagrać dźwięk bez mikrofonu? Cóż, nie da się. Tak odpowiedziałbym na to pytanie i… nie miałbym racji. Prawda jest taka, że nie dało się tego zrobić, aż do teraz.

Grupa naukowców, w skład której wchodzą inżynierowie MIT (Massachusetts Institute of Technology), Adobe i Microsoftu, opracowała rewolucyjną technologię, która pozwala odtworzyć dźwięk z… obrazu, a konkretniej mówiąc, z zupełnie niemego nagrania wideo.

Każdy widzialny obiekt jest mikrofonem

MIT-dzwiek-z-obrazu-2

Fale dźwiękowe to nic innego jak drgania ośrodka, jakim jest powietrze. Tak się składa, że w tym samym powietrzu zanurzone są wszystkie otaczające nas przedmioty, a zatem drgające powietrze powoduje drganie wszystkich obiektów wokół nas. Te wibracje są tak delikatne, że zupełnie nie dostrzegamy ich gołym okiem. Wystarczy jednak odpowiednio szybka kamera, by je zobaczyć.

Okazuje się, że wystarczy nagranie z szybkością 2000 – 6000 kl/s, by móc odtworzyć dźwięk z nagrania samych drgań lekkich przedmiotów, takich jak liść, folia opakowania chipsów, czy membrana dousznych słuchawek. Na powiększeniu takiego nagrania ruch odbywa się na przestrzeni dziesiątych części mikrometra, co w nagraniu daje obszar znacznie mniejszy od 1 piksela. Naukowcom udało się opracować algorytm, który przetwarza nawet tak mały ruch.

Mniej niż piksel

MIT-dzwiek-z-obrazu-1

Jak odczytać ruch, który na nagraniu nie ma nawet 1 piksela? Naukowcy posługują się przykładem. Nagrajmy scenę, w której lewa część jest niebieska, a prawa czerwona. Kamera zarejestruje na pikselach znajdujących się w samym środku kolor fioletowy, ponieważ w tym miejscu do sensora będzie docierać informacja o dwóch kolorach - końcu strefy niebieskiej i początku czerwonej. Jeżeli wprawimy tę granicę nawet w minimalny ruch o wielkości poniżej 1 piksela, zauważymy to na filmie. Kolor fioletowy ze środka będzie stawał się delikatnie mocniej czerwony lub niebieski. To wystarczy do zaobserwowania ruchu.

Naukowcom udało się stworzyć algorytm, który przetwarza te mikro drgania bezpośrednio w dźwięk. Zobaczcie sami.

Podsłuch z paczki czipsów, przez dźwiękoszczelną szybę

Efekty zaprezentowane na filmie są wprost nieprawdopodobne. Spodziewałem się, że algorytm będzie w stanie wychwycić pojedyncze dźwięki, lub po prostu rozróżnić zupełną ciszę od dźwięku. Tymczasem analiza nagrania wideo pozwala na naprawdę dokładne odtworzenie dźwięku z samego obrazu. Zarejestrowana w ten sposób melodia jest całkowicie rozpoznawalna, do tego stopnia, że można nawet rozpoznać instrument. Ba, rozpoznawalny jest nawet ludzki głos! Uzyskany dźwięk brzmi podobnie do nagrania rozmowy telefonicznej. Nagranie jest zaszumione i niewyraźne, ale przy odrobinie umiejętnej obróbki możliwe będzie rozszyfrowanie wszystkich słów. Nie wspominając już o dopasowaniu brzmienia głosu do konkretnej osoby, gdyż to słychać od razu.

Ostatni zaprezentowany na filmie eksperyment robi największe wrażenie. Naukowcy nagrali małe słuchawki douszne podłączone do laptopa, z których wydobywał się dźwięk piosenki. Algorytm przetworzył wideo na dźwięk, a naukowcy poszli krok dalej – wyeksportowane nagranie audio przepuścili przez aplikację Shazam. Aplikacja bezbłędnie rozpoznała piosenkę.

MIT-dzwiek-z-obrazu-3

Zaprezentowana na filmiku technologia jest tak niesamowita, że po prostu nie mogłem w nią uwierzyć. Brzmi to jak czyste science-fiction. Pisząc ten wpis co chwilę sprawdzałem źródło, ale inżynierom MIT, Microsoftu i Adobe faktycznie udało się „niemożliwe”. Ich praca zostanie zaprezentowana na odbywającej się za tydzień konferencji naukowej SIGGRAPH, poświęconej grafice komputerowej i technikom interaktywnym.

Póki co widzę jeden zasadniczy minus tej technologii – dźwięk można nagrać tylko w pomieszczeniach. Na zewnątrz prawdopodobnie nawet najmniejszy wiatr, czy ruch powietrza powodowany przez jakąkolwiek poruszającą się istotę, zakłóci działanie algorytmu.

Mimo wszystko jest to najbardziej niesamowity wynalazek, o jakim słyszałem od dłuższego czasu. Na tę chwilę nawet trudno wyobrazić sobie możliwości, jakie oferuje zaprezentowana technologia. Fani teorii spiskowych i maniacy prywatności na pewno mają teraz o czym myśleć.

---

Zdjęcie główne pochodzi z Shutterstock

przeczytaj następny tekst


przeczytaj następny tekst


przeczytaj następny tekst


przeczytaj następny tekst


przeczytaj następny tekst