spis treści
Czym jest sztuczna inteligencja?
Jeszcze kilka lat temu słysząc po raz pierwszy o tej technologii, wiele osób wyobrażało sobie sceny z filmów science fiction, w których to ludzie-roboty przejmowały władzę nad światem. Obecna rzeczywistość rysuje jednak nieco inny obraz tego zagadnienia.
Sztuczna inteligencja (w skrócie SI lub z języka angielskiego AI) to system komputerowy o zaawansowanej i skomplikowanej architekturze, który różni się od tradycyjnych programów swoimi możliwościami do działania na zasadach przypominających ludzką inteligencję. Oznacza to, że jest zdolny do m.in:
- uczenia się,
- samodzielnego doskonalenia swoich działań bez konieczności ręcznego programowania,
- podejmowania decyzji w złożonych i niezaplanowanych sytuacjach,
- analizowania kontekstu oraz adaptacji do nowych warunków w czasie rzeczywistym.
Co istotne, może powstać wiele takich niezależnych od siebie sztucznych inteligencji, czyli systemów komputerowych. Nie ma jednego centralnego „mózgu-komputera” sztucznej inteligencji, z którego korzysta cały świat.
Dlaczego dopiero stosunkowo niedawno o sztucznej inteligencji zrobiło się głośno? Nikt wcześniej nie tworzył programów i aplikacji opartych na AI?
Pierwszy program wykorzystujący podstawowe założenia sztucznej inteligencji nosił nazwę Logic Theorist i powstał w… 1956 roku. Był to jednak bardzo prosty i nieskomplikowany projekt, co w głównej mierze wynikało z ograniczeń technicznych. Od tamtego momentu cały czas powstawały programy wykorzystujące sztuczną inteligencję, ale były to rozwiązania typowo zadaniowe np. gra w szachy, tłumaczenia językowe, programy antyspamowe.
Obecnie istnieje cały przekrój modeli AI różniących się wielkością i stopniem zaawansowania. Począwszy od małych aplikacji, które każdy początkujący programista może stworzyć na domowym komputerze, skończywszy na ogromnych modelach, których koszt wytrenowania i utrzymania szacuje się na setki miliardów dolarów rocznie.
Rozwijająca się technologia, coraz bardziej zaawansowane podzespoły oraz dostęp do dużych zbiorów danych treningowych, pozwoliły na skuteczne przetwarzanie ogromnej ilości informacji. W wyniku tego złożonego procesu, możliwe stało się rozmawianie ze sztuczną inteligencją podobnie jak z człowiekiem. I to właśnie ten fakt sprawił, że o AI zrobiło się głośno. Każdy może zalogować się na stronie i samodzielnie porozmawiać ze sztuczną inteligencją praktycznie na dowolny temat.
Dla przykładu szacuje się, że utrzymanie jednej z najbardziej popularnej, dostępnej dla każdego strony AI ChatGPT (model rozumie ludzki język i został wytrenowany na kolosalnych zasobach wiedzy) kosztuje rocznie nawet 250 milionów dolarów.
Drugą bardzo istotną kwestią są dane treningowe, czyli dane na podstawie których AI zdobywała swoją wiedzę. Żeby uzmysłowić jak potężne są to ilościowo dane, wyobraźmy sobie Wikipedię. Cała angielska wersja tej internetowej encyklopedii zawiera ponad 6 milionów artykułów. ChatGPT (wersja GPT-3) został wyszkolony na danych treningowych, ale tylko około 4% z nich stanowi cała Wikipedia! Reszta danych pochodzi z tysięcy książek, publikacji naukowych, artykułów oraz ogromnej części Internetu, obejmując różnorodne strony internetowe, fora, blogi i wiele innych źródeł. Samo szkolenie tego rodzaju sztucznej inteligencji szacuje się na około 5 milionów dolarów.
Różnice pomiędzy zwykłym programem a systemem AI
Cechy | Program oparty na AI | Tradycyjny program |
---|---|---|
Podstawa działania | Analizuje dane i uczy się na ich podstawie, tworząc wzorce bez potrzeby ręcznego kodowania każdej możliwości. | Działa na podstawie dokładnie określonych reguł i instrukcji, które zostały zaprogramowane przez człowieka. Wszystkie możliwości muszą być przewidziane w kodzie przez programistę. |
Zdolność do nauki | Potrafi rozwijać swoje działanie na podstawie nowych danych, co pozwala na automatyczne ulepszanie wyników. | Nie potrafi się uczyć – jego funkcjonalność jest statyczna i ograniczona do tego, co zostało zapisane w kodzie. |
Adaptacja | AI jest zdolne do reagowania na zmieniające się środowisko (dane) bez konieczności ingerencji programisty. To sprawia, że jest bardziej elastyczne i uniwersalne. | Każda zmiana wymaga ręcznej ingerencji programisty, np. dodania nowej funkcji lub modyfikacji istniejących reguł. Nie reaguje automatycznie na nowe dane. |
Jak działa sztuczna inteligencja?
Wiemy już, że AI to program komputerowy zdolny do wykonywania określonych czynności. W celu łatwiejszego zrozumienia jego działania, posłużymy się przykładem narzędzia opartego na sztucznej inteligencji zdolnego do rozpoznawania zagrożeń zarejestrowanych na monitoringu miejskim. Założenie takiego rozwiązania jest proste, na podstawie obrazu z kamer transmitowanego w czasie rzeczywistym, oprogramowanie powinno wykrywać niepokojące sytuacje takie jak awantury, pożary, wypadki, zbiegowiska i zaalarmować operatora monitoringu.
Żeby sztuczna inteligencja mogła się czegoś nauczyć trzeba jej dostarczyć tak zwane dane treningowe. W przypadku naszego oprogramowania dane treningowe to ogromny zbiór ujęć wideo oraz statycznych kadrów, na których uwiecznione zostały napady, rabunki, wypadki, pożary oraz inne niebezpieczne sytuacje. Sztuczna inteligencja bazując na przesłanych danych analizuje je i odnajduje wszystkie wzorce oraz cechy charakterystyczne poszczególnych sytuacji oraz zależności zachodzące między nimi.

Przykład: konfrontacja dwóch osób w tłumie

My ludzie na podstawie życiowego doświadczenia naturalnie rozpoznajemy starcie dwóch osób na podstawie między innymi takich cech jak: kształty sylwetek, gwałtowne zmiany kierunku ruchów, gesty ataków lub blokowania, szybkie zmiany w strukturze tłumu spowodowane próbami ucieczki lub interwencji, zmiany w położeniu osób względem ziemi (np. upadek), charakterystyczne pozycje ciała, zwalniające samochody, przechodnie nagrywający sytuację telefonami oraz dziesiątki a nawet setki innych zmiennych. Wymienione parametry to tylko przykładowe, nazwane przez człowieka kombinacje.
Sztuczna inteligencja rozpoznaje zależności na wideo w podobny sposób co ludzie (odnajduje wzorce), ale technicznie wszystko opiera się na skomplikowanych i rozbudowanych działaniach matematycznych. AI na podstawie dostarczonych danych treningowych (czyli ujęć wideo z niebezpiecznymi sytuacjami) stara się odnaleźć jak najwięcej wzorców na zmieniających się kadrach oraz zachodzących między nimi relacji, współzależności czy związków. Można to przyrównać do rozwoju małego dziecka, które wraz z wiekiem samodzielnie zaczyna rozumieć i rozróżniać sytuacje otaczającego je świata i jest w stanie rozpoznawać zagrożenia.
Opisany powyżej proces rozpoznawania wzorców nazywa się uczeniem maszynowym, a podczas trenowania i przetwarzania informacji program tworzy tak zwane neurony. Nie mówimy tutaj oczywiście o biologicznych neuronach, ale o zapisach matematycznych, których struktura przypomina ludzki układ nerwowy. To właśnie te zapisy matematyczne są odzwierciedleniem tego czego nauczyło się AI. Wspomniane neurony są ze sobą połączone tworząc złożone, wielowarstwowe sieci, co w efekcie umożliwia programowi skuteczne rozpoznawanie niebezpiecznych sytuacji na materiałach wideo.

Grafika przedstawia uproszczony schemat sztucznej sieci neuronowej, składającej się z trzech warstw: wejściowej, ukrytej i wyjściowej.
Warstwa wejściowa (niebieskie neurony) odbiera dane wejściowe, takie jak obrazy z kamer miejskich przetworzone na informacje numeryczne.
Warstwa ukryta (zielone neurony) analizuje te dane, identyfikując wzorce i kluczowe cechy, takie jak ruch, kształty czy anomalie w zachowaniu.
Warstwa wyjściowa (fioletowy neuron) generuje końcowy wynik, klasyfikując zdarzenie jako potencjalnie niebezpieczne, np. wypadek, rabunek czy inne incydenty wymagające interwencji.
Na grafice jest to jedynie symboliczny, niewielki fragment znacznie bardziej złożonej sieci neuronowej, która w rzeczywistości może składać się z wielu warstw i milionów połączeń.
W poniższej tabeli znajdują się przykłady innych programów AI oraz sposób ich trenowania.
Zastosowanie programu | Rodzaj danych treningowych | Jak uczy się AI? |
---|---|---|
Zamiana mowy na tekst np. automatyczne dodawanie napisów do filmów na YouTube | nagrania ludzkich rozmów wraz z przypisaną do nich gotową transkrypcją | Program dokonuje korelacji między dźwiękiem a tekstem poprzez badanie takich cech jak m.in.: częstotliwość, amplituda, wzorce dźwiękowe, cechy czasowe, spektrum dźwiękowe, energia dźwięku. |
Diagnozowanie schorzeń dermatologicznych np. aplikacja medyczna | wyniki badań pacjentów z określonymi chorobami; fotografie zmian skórnych z opisem przypadłości oraz diagnozą; historie chorób i wywiady pacjentów | Aplikacja matematycznie analizuje zależności cech zmian skórnych, takich jak m.in kształt, kolor, wielkość, proporcje, lokalizacje, ewolucję zmian, nasilenie, cechy charakterystyczne, korelacje w stosunku do wieku, płci, historii i wywiadów pacjentów, wyników innych badań np. krwi i wielu innych zmiennych z pozoru często niedostrzegalnych |
Generalizując, im więcej jakościowo dobrych danych treningowych tym sztuczna inteligencja będzie działać skuteczniej.
Przykłady sztucznej inteligencji online – wypróbuj narzędzia
Poniżej publikujemy wybrane strony internetowe, których działanie opiera się na algorytmach sztucznej inteligencji. Przy wyborze sugerowaliśmy się bezpłatnym dostępem, prostotą obsługi oraz różnorodnością możliwości.

ChatGPT to rozbudowane oprogramowanie, które prowadzi konwersacje w sposób przypominający rozmowę między ludźmi. Potrafi tworzyć teksty, analizować, wykonywać skomplikowane i czasochłonne operacje czy rozwiązywać problemy z różnych dziedzin. To właśnie ChatGPT przyczynił się do zwiększenia zainteresowania sztuczną inteligencją, głównie dzięki ogromnym zbiorom danych, na których został wytrenowany. Więcej informacji o ChatGPT.

ElevenLabs jest narzędziem przetwarzającym wprowadzony tekst na ludzką mowę. Do wyboru otrzymujemy kilkadziesiąt wirtualnych głosów lektorskich w 28 językach (w tym polskim). W odróżnieniu od podobnych tego typu rozwiązań, oprogramowanie generuje wyjątkowo naturalnie brzmiący głos. Więcej informacji o ElevenLabs.

Copilot to oprogramowanie AI firmy Microsoft. Wystarczy wejść na stronę, aby otrzymać możliwość rozmowy ze sztuczną inteligencją. Copilot napisze dla nas teksty, artykuły, stworzy analizy, odpowie na pytania, rozwiąże zadania, uporządkuje dane, a nawet wygeneruje grafikę na podstawie polecenia tekstowego – wszystko w formie przyjaznego i prostego czata.

Gemini jest projektem stworzonym przez Google, które powstało w odpowiedzi na popularność ChataGPT. Model również został wytrenowany na pokaźnym zbiorze danych, jest w stanie redagować teksty, odpowiadać na pytania, analizować materiały, a także przeszukiwać czasie rzeczywistym informacje znalezione w Internecie. Więcej informacji o Gemini.

Suno AI to platforma do generowania muzyki z tekstu. Wystarczy wprowadzić krótki opis określający rodzaj muzyki, użytych instrumentów, rytmu czy melodii, aby w ciągu kilku sekund otrzymać od kilka propozycji gotowych utworów. Suno oferuje możliwość użycia własnych tekstów do piosenek, także w języku polskim.
Zastosowania AI w różnych branżach
Medycyna i opieka zdrowotna
- Diagnozowanie chorób na podstawie obrazów i badań medycznych (np. zdjęcia rentgenowskie, tomografia komputerowa, badania krwi).
- Wykrywanie nieprawidłowości w badaniach laboratoryjnych.
- Spersonalizowana terapia i leczenie oparte na analizie danych genetycznych i klinicznych.
Handel detaliczny i e-commerce
- Systemy rekomendacji produktów oparte na analizie zachowań zakupowych klientów.
- Personalizowane oferty promocyjne i kody rabatowe.
- Personalizacja doświadczenia zakupowego.
- Dynamiczne i natychmiastowe wyceny.
- Chatboty rozmawiające z klientami.
- Prognozowanie popytu na produkty i optymalizacja zarządzania zapasami.
Motoryzacja
- Systemy wspomagające kierowcę, w tym asystenci parkowania i systemy ostrzegania o niebezpieczeństwach.
- Samochody autonomiczne zdolne do samodzielnego prowadzenia na drogach.
- Analiza danych z sensorów w celu monitorowania stanu technicznego pojazdów, przewidywania usterek i umawiania wizyt w serwisie.
Rozrywka, wideo, muzyka
- Generowanie muzyki, filmów, tekstów piosenek i tworzenie efektów dźwiękowych.
- Systemy rekomendacji filmów, programów telewizyjnych i książek.
- Personalizowane doświadczenia wirtualnej rzeczywistości (VR) i rozszerzonej rzeczywistości (AR).
Edukacja
- Systemy adaptacyjnego uczenia się, dostosowujące materiał dydaktyczny do indywidualnych potrzeb ucznia.
- Automatyczne ocenianie zadań i testów.
- Tworzenie interaktywnych narzędzi edukacyjnych, takich jak aplikacje mobilne i platformy e-learningowe.
- Personalizowane plany lekcji i materiały dydaktyczne dostosowane do stylu uczenia się ucznia.
Produkcja i przemysł
- Optymalizacja procesów produkcyjnych i zarządzania łańcuchem dostaw.
- Diagnozowanie defektów produkcyjnych przy użyciu analizy obrazów i sensorów.
- Prognozowanie awarii maszyn i planowanie konserwacji zapobiegawczej.
- Automatyzacja magazynowania, pakowania i wysyłki produktów.
Rolnictwo i hodowla
- Monitorowanie upraw rolnych przy użyciu dronów i satelitów w celu oceny zdrowia roślin i prognozowania plonów.
- Systemy automatycznej identyfikacji i klasyfikacji szkodników oraz chorób roślin.
- Personalizowane zalecenia dotyczące nawożenia, nawadniania i ochrony roślin oparte na analizie danych meteorologicznych i glebowych.
- Automatyzacja procesów zbioru plonów i sortowania produktów rolnych.
Podsumowując, sztuczna inteligencja znajdzie zastosowanie wszędzie tam gdzie potrzebne jest generowanie materiałów, analiza, optymalizacja, rozwiązywanie problemów związanych z percepcją, rozpoznawaniem wzorców, czy planowaniem.
Podstawowe definicje i zwroty używane w świecie AI
Prompt
Prompt to polecenie lub instrukcja zadana sztucznej inteligencji w celu wykonania przez nią określonego zadania.
Przykład promptu w narzędziu Copilot: „Stwórz obraz, który przedstawia słonia w zielonym kapeluszu stojącego na czerwonym pontonie na środku oceanu (kapelusz wykonany z liści winorośli). Oprócz słonia na pontonie siedzą kolorowe papugi i grają w karty”.
Oto wynik jaki otrzymaliśmy od sztucznej inteligencji:

Uczenie nadzorowane
Jedna z głównych technik w uczeniu maszynowym, w której algorytm jest trenowany na podstawie zbiorów, które zawierają pary wejście-wyjście (tzw. dane etykietowane). Przykład: Aplikacja do rozpoznawania roślin trenowana jest na obrazkach przedstawiających rośliny (dane wejściowe), a każdy obrazek jest podpisany co to jest konkretnie za roślina (dane wyjściowe).
Uczenie nienadzorowane
Technika w uczeniu maszynowym, w której algorytm jest trenowany na podstawie danych, które nie są opisane lub nie mają wartości wyjściowych. Przykład: Aplikacja do rozpoznawania roślin trenowana jest na obrazkach przedstawiających rośliny, ale te obrazki nie są podpisane jak w przypadku uczenia nadzorowanego. W procesie uczenia nienadzorowanego, sztuczna inteligencja samodzielnie analizuje nawet najdrobniejsze cechy obrazów roślin i stara się znaleźć podobieństwa i zależności odpowiednio je grupując.
Uczenie częściowo nadzorowane
Metoda w uczeniu maszynowym, w której algorytm jest trenowany na podstawie zarówno danych posiadających etykiety (dane nadzorowane), jak i danych bez etykiet (dane nienadzorowane). Algorytm stara się wykorzystać dostępne dane z etykietami, aby poprawić swoje wyniki na danych bez etykiet, co prowadzi do lepszej generalizacji.
Uczenie ze wzmocnieniem
Technika w uczeniu maszynowym, w której model uczy się podejmować optymalne decyzje poprzez interakcję ze środowiskiem. W przeciwieństwie do uczenia nadzorowanego, gdzie model uczy się na podstawie przygotowanego zestawu danych, w uczeniu ze wzmocnieniem program samodzielnie zbiera dane z otoczenia i dąży do maksymalizacji swoich celów
Przykład uczenia ze wzmocnieniem: Program AI do grania w szachy, który nie posiada żadnych danych treningowych w postaci strategii czy możliwych kombinacji ruchów na planszy (posiada tylko zaprogramowane zasady gry) zaczyna grać sam ze sobą. Model dąży do zdobycia wszystkich określonych celów głównych i pośrednich w dyscyplinie jaką są szachy (zajmowanie korzystnych pozycji na planszy, bezpieczeństwo króla, tworzenie i wykorzystywanie słabości przeciwnika, wygranie partii itd.). Wraz z liczbą przeprowadzonych potyczek sztuczna inteligencja samodoskonali swoje umiejętności i strategię gry osiągając wreszcie mistrzowski poziom.
Uczenie głębokie
Podkategoria uczenia maszynowego, która wykorzystuje głębokie sieci neuronowe, co oznacza, że struktura sieci neuronowych składa się z wielu warstw wejściowych, wyjściowych i ukrytych. Stosowanie wielowarstwowości pozwala na osiąganie skuteczniejszych wyników w złożonych zadaniach np. automatyczne przetwarzanie mowy, rozpoznawanie obrazów czy przetwarzanie języka naturalnego.
NLP (Natural Language Processing)
Dziedzina sztucznej inteligencji, która zajmuje się interakcją między komputerami a językiem naturalnym, czyli językiem używanym przez człowieka. Celem NLP jest umożliwienie komputerom rozumienia, interpretowania i generowania języka w sposób, który jest naturalny i użyteczny dla ludzi, bez potrzeby stosowania skomplikowanych kodów programistycznych.
Model językowy
System sztucznej inteligencji, który został przeszkolony na danych tekstowych. Jego głównym zadaniem jest rozumienie i generowanie języka naturalnego (ludzkiego), co umożliwia wykonywanie różnorodnych zadań związanych z językiem np. kreatywne tworzenie tekstu, tłumaczenia, podsumowywania, analizę, odpowiadanie na pytania. Model językowy przeszkolony na ogromnej liczbie danych tekstowych nosi nazwę (LLM, Large Language Model). Przykłady dużych modeli językowych: GPT-3, GPT-4, BERT, LLaMA.
Sieć neuronowa
Sieć neuronowa to rodzaj systemu komputerowego, który działa na wzór ludzkiego mózgu. Jest zbudowana z jednostek zwanych neuronami (neurony to obliczenia matematyczne), które są ze sobą połączone w tak zwane warstwy. Neurony te współpracują ze sobą, aby rozpoznać wzorce, na przykład w obrazach, tekstach lub dźwiękach.
- Sieć neuronowa dostaje dane, na przykład zdjęcie kota. Każdy neuron w pierwszej warstwie analizuje fragment przesłanego zdjęcia.
- Dane przepływają przez kolejne warstwy neuronów, które przetwarzają informacje (wykonują obliczenia) i stopniowo odkrywają różne cechy, jak kształty, kolory czy tekstury.
- Po przetworzeniu danych sieć neuronowa daje wynik, na przykład informację, że na zdjęciu jest kot.
Sieć neuronowa „uczy się”, jak prawidłowo analizować dane, na podstawie wielu przykładów, dostosowując swoje wewnętrzne połączenia. Im więcej przykładów zobaczy, tym lepiej będzie w stanie rozpoznać podobne wzorce w przyszłości.
Transformery
Transformery to zaawansowana architektura sieci neuronowej, która zrewolucjonizowała przetwarzanie danych. Główna idea tego modelu polega na tym, że analizuje cały tekst na raz i potrafi zrozumieć zależności między różnymi częściami tekstu, nawet jeśli są daleko od siebie. Wcześniejsze modele miały problem, bo koncentrowały się głównie na pobliskich słowach, a transformer „widzi” cały kontekst na raz.
Przykład użycia transformera
Załóżmy, że wpisujemy pytanie: „Gdzie znajdują się najważniejsze zabytki Polski?”.
Model zaczyna od analizy całego pytania, a nie tylko jego pojedynczych słów. Podczas przetwarzania, transformer wykorzystuje mechanizm uwagi (attention), który pozwala mu ocenić, które słowa są ze sobą powiązane i które mają największe znaczenie w kontekście całego pytania.
- Mechanizm uwagi pozwala modelowi „zwrócić uwagę” na słowo „Gdzie” i związane z nim lokalizacje, co pomaga w określeniu, że odpowiedź powinna dotyczyć miejsc.
- W odniesieniu do „najważniejsze zabytki”, model będzie skupiać się na pojęciach związanych z zabytkami i ich rangą w kontekście kulturowym lub historycznym.
- Słowo „Polski” jest kluczowe, ponieważ definiuje geograficzny kontekst, w którym model powinien poszukiwać informacji.
Podsumowując: Transformer analizuje treść jako całość, a nie tylko pojedyncze słowa w ujęciu statystycznym.
Generatywna sztuczna inteligencja (GenAI)
Rodzaj sztucznej inteligencji, która ma zdolność do tworzenia nowej zawartości na podstawie istniejących danych. W przeciwieństwie do innych typów AI, generatywna sztuczna inteligencja nie tylko analizuje dane, ale również produkuje nowe materiały np. generuje obrazy, muzykę, teksty.