Model korzysta z technologii Google o nazwie SoundStream, która potrafi zamieniać dźwięki na „tokeny” - czyli cyfrowe odpowiedniki fonemów (fonem to podstawowa jednostka struktury dźwiękowej mowy). To dzięki temu AI może analizować delfinie wokalizacje i próbować przewidzieć, co zostanie powiedziane dalej. Brzmi znajomo? Bo to dokładnie ten sam mechanizm, który pozwala modelom językowym przewidywać kolejne słowa w tekście.