ChatGPT jest słaby w hasła. Można odetchnąć z ulgą
Czy ChatGPT potrafi złamać twoje hasło? Najnowsze badania pokazują, że duże modele językowe są w tej roli bardzo ograniczone.

Przez ostatnie miesiące, a może nawet lata, w cyberbezpieczeństwie krążyło jedno zasadnicze pytanie: skoro duże modele językowe tak dobrze radzą sobie z tekstem i kodem, czy nie staną się również groźną bronią do łamania haseł? Zespół badaczy z Australii postanowił to sprawdzić. Ich wnioski są wyjątkowo uspokajające.
Lęk przed AI, która zna twoje hasło
Duże modele językowe, takie jak te stojące za popularnymi chatbotami, potrafią sprawnie pomagać przy pisaniu kodu, streszczać dokumenty, podpowiadać poprawki w tekście, a nawet generować całe aplikacje. Naturalne było więc pytanie, czy nie da się ich wykorzystać w bardziej mrocznym celu, np. do przewidywania, jakich haseł używają ludzie.
W teorii wygląda to groźnie. Wystarczy przecież podać modelowi imię, datę urodzenia, hobby czy ulubioną drużynę piłkarską, a on podpowie kombinacje typu imie123, data_urodzenia, nazwa_klubu z dodatkowymi znakami. Niestety właśnie tak wygląda wiele słabych haseł, które ludzie wymyślają na szybko. Australijscy badacze postanowili sprawdzić, jak modele językowe zachowują się w kontrolowanym eksperymencie, gdy dostaną dane o użytkownikach i konkretne zadanie: wygenerować listę prawdopodobnych haseł. Swoje wnioski szczegółowo opisali w artykule opublikowanym na łamach arxiv.org.
Jak sprawdzano AI w roli łamacza haseł?
Naukowcy zbudowali zestaw fikcyjnych profili użytkowników. Każdy z nich zawierał kilka typowych informacji: imię i nazwisko, datę urodzenia, zainteresowania, czasem ulubione aktywności. Do każdego takiego profilu przypisano jedno konkretne hasło, które zostało skonstruowane według typowych ludzkich nawyków. Następnie poproszono 3 różne duże modele językowe o listę haseł, które dana osoba mogłaby wybrać. Te na podstawie profilu miały zgadywać najbardziej prawdopodobne hasła do konta.
Skuteczność oceniano w standardowy dla tej dziedziny sposób, stosując wskaźniki Hit@1, Hit@5 i Hit@10. W uproszczeniu chodzi o to, czy prawidłowe hasło pojawi się na pierwszym miejscu listy wśród 5 pierwszych albo wśród 10 pierwszych propozycji. Rezultat eksperymentu okazał się dla modeli językowych bezlitosny, a dla nas uspokajający. Niezależnie od konfiguracji i sposobu porównywania haseł, skuteczność w przedziale Hit@10 była na poziomie poniżej 1,5 proc. Oznacza to, że w ogromnej większości przypadków prawdziwe hasło nie pojawiało się nawet w pierwszej dziesiątce strzałów proponowanych przez AI.
Dla porównania: tradycyjne narzędzia do łamania haseł, które są oparte na regułach, słownikach i kombinowaniu poszczególnych fragmentów, osiągają w podobnych warunkach zdecydowanie wyższe wyniki. Takie programy od lat rozwijane są specjalnie po to, by wykorzystywać ludzkie nawyki, typowe schematy i najczęściej używane modyfikacje wyrazów. W praktyce oznacza to, że jeśli ktoś chce dziś skutecznie zgadywać hasła, zdecydowanie bardziej opłaca mu się korzystać z klasycznych narzędzi wyspecjalizowanych w tej jednej niszy, niż z uniwersalnego modelu językowego.
Dlaczego modele językowe radzą sobie tak słabo?
Badacze spróbowali odpowiedzieć na pytanie, z czego dokładnie wynika porażka dużych modeli językowych. Ich zdaniem jest to efekt tego, że takie modele uczą się głównie na tekstach naturalnych: książkach, artykułach, stronach internetowych. Hasła użytkowników praktycznie nie występują w tych zbiorach danych, a jeśli nawet, to w sposób zanonimizowany lub całkowicie losowy. Model nie ma więc skąd wyciągnąć statystycznej intuicji, jak wyglądają prawdziwe hasła miliona osób.
Zwrócono także uwagę na fakt, że modele językowe są świetne w uogólnianiu, ale słabe w precyzyjnej pamięci konkretnych przykładów. Tam, gdzie liczy się styl i ogólne reguły języka, radzą sobie doskonale, natomiast przewidywanie pojedynczego ciągu znaków zbliża się raczej do zadania odtworzenia konkretnego, zapamiętanego ciągu, a nie do tworzenia nowych, sensownych zdań.
I tak musimy być czujni
Choć wyniki eksperymentu dają powody do ulgi, nie oznacza to, że możemy przestać dbać o bezpieczeństwo swoich haseł. Wręcz przeciwnie – właśnie teraz warto przypomnieć sobie podstawowe zasady ich tworzenia. Bezpieczne hasło to takie, które jest długie, unikalne i trudne do odgadnięcia – nie powinno zawierać imion, dat urodzenia ani prostych wzorców typu 123 czy qwerty.
Najlepsze są losowe ciągi znaków. I to takie stworzone przez menedżery haseł, które dodatkowo przechowują je w zaszyfrowanej formie i automatycznie wypełniają podczas logowania. Dobrą praktyką jest także stosowanie innego hasła do każdego konta oraz włączenie uwierzytelniania dwuskładnikowego (2FA) tam, gdzie to tylko możliwe. Nie zapisujmy też haseł na karteczkach przylepionych do monitora.
Przeczytaj także:
Trzeba pamiętać, że hasła to tylko jedna warstwa ochrony. Cyberprzestępcy nie śpią i wykorzystują wiele innych dróg ataku: phishing, złośliwe oprogramowanie, kradzież sesji, fałszywe aplikacje czy po prostu zwykłą manipulację społeczną. Nawet najlepsze hasło nie pomoże, jeśli użytkownik bezwiednie poda je na spreparowanej stronie albo kliknie link prowadzący do sprytnie przygotowanej pułapki.
*Źródło zdjęcia wprowadzającego: Erik AJV / Shutterstock.com







































