Spis treści
Co to jest Gemini Google?
Gemini (dawniej Bard) jest tak zwanym czatbotem, czyli dużym modelem językowym opartym na sztucznej inteligencji. W uproszczeniu oznacza to, że oprogramowanie rozumie ludzkie słowa i zwroty, dzięki czemu możliwe jest prowadzenie rozmowy z komputerem w podobny sposób jak z człowiekiem (także w języku polskim). Gemini odpowiada na pytania, generuje teksty, tłumaczy na inne języki, analizuje dokumenty, podsumowuje informacje oraz wykonuje wiele innych zadań. Rozwiązanie powstało w odpowiedzi na błyskawiczny rozwój konkurencyjnego ChatGPT, który także zalicza się do dużych modeli językowych.
Oprogramowanie zostało opracowane przez firmę Google DeepMind, brytyjsko-amerykańskie laboratorium badawcze zajmujące się sztuczną inteligencją (spółka zależna Google) oraz Google AI, oddział Google zajmujący się sztuczną inteligencją. Gemini oficjalnie udostępniono 6 grudnia 2023 r.
Możliwości i cechy
Podstawowe funkcjonalności
Jako duży model językowy, Gemini Google został przystosowany głównie do pracy z tekstem, czyli posiada takie funkcje jak:
- odpowiadanie na pytania (model został wytrenowany na ogromnych zbiorach wiedzy)
- rozwiązywanie zadań i problemów
- tworzenie tekstów (artykuły, publikacje, wiersze, opowiadania, opisy produktów, wymyślanie nazw, tytułów etc.)
- wyszukiwanie informacji
- planowanie zadań
- analiza i optymalizacja tekstu
- uporządkowywanie danych
- streszczanie i podsumowywanie
- poprawianie błędów (składniowych, stylistycznych itp.)
- parafrazowanie
- generowanie kodów programistycznych
- tłumaczenie na inne języki
- wiele innych operacji tekstowych
Generowanie i rozpoznawanie obrazów
Gemini wykorzystuje model Imagen, który jest zdolny do tworzenia obrazów na podstawie opisów tekstowych. Oprócz tego dobrze radzi sobie z analizą przesłanych zdjęć rozpoznając poszczególne elementy – odczytuje tekst, interpretuje okoliczności, wskazuje autora itp.
Natywna multimodalność
Model AI jest w stanie przetwarzać i rozumieć informacje z różnych źródeł sensorycznych, takich jak tekst, obrazy i dźwięk. Takie rozwiązanie ma na celu zachowanie bardziej naturalnej rozmowy.
Pobieranie aktualnych informacji z Internetu
Podczas udzielania odpowiedzi oprogramowanie w czasie rzeczywistym pobiera bieżące dane z Internetu. Dzięki tej funkcji możliwe staje się na przykład analizowanie całych stron internetowych, tworzenie materiałów z uwzględnieniem bieżących wydarzeń, wyników itp.
Rozszerzenia (aplikacje Google)
Do dyspozycji otrzymujemy integrację sztucznej inteligencji z popularnymi aplikacjami Google takimi jak: Mapy Google, YouTube, Dokumenty, Dysk Google, Gmail, Hotele i Loty. Dzięki połączeniu narzędzi w jednym wspólny czacie, możemy zadawać pytania i polecenia dotyczące naszych wiadomości e-mail, dokumentów, filmów na YouTube lub planować podróże z wykorzystaniem map, hoteli i połączeń lotniczych. Więcej o rozszerzeniach w dalszej części artykułu.
Wypróbuj Gemini Google
Wystarczy wejść na stronę gemini.google.com (wymagana rejestracja). Obsługa odbywa się przy użyciu zwykłej przeglądarki internetowej. Oprócz tego do dyspozycji otrzymujemy także aplikację na smartfona.
Pakiety i cennik
Dostęp do narzędzia możliwy jest w wersji darmowej oraz płatnej. W wielkim skrócie główna różnica pomiędzy dwoma pakietami polega głównie na tym, że płatny model efektywniej i skuteczniej radzi sobie z odpowiadaniem na pytania. Więcej cech charakterystycznych prezentujemy poniżej:
Free
- model generacji Gemini 1.0 Pro
- ograniczone umiejętności logicznego rozumowania, analizy, kodowania i kreatywnej współpracy
- okno kontekstowe 32 tys. tokenów
- ograniczona integracja z Google Workspace
Cena: bezpłatny
Advanced
- model nowej generacji Gemini 1.5 Pro
- bardziej rozwinięte umiejętności logicznego rozumowania, analizy, kodowania i kreatywnej współpracy
- okno kontekstowe z milionem tokenów (np. 1.4 milionów słów, 2h wideo, 22h audio)
- pełna integracja z Google Workspace (Gmail, Dokumenty, Dysk Google)
- 2 TB miejsca na dane
Cena: około 99 PLN miesięcznie
Zgodnie z deklaracją twórców Gemini Google, planuje się wprowadzić w najbliższym czasie następujące funkcjonalności:
- Personalizacja czatu za pomocą gemów (doszkalanie AI własnymi danymi treningowymi)
- Połączenie z większą liczbą aplikacji Google (Kalendarz, Google Music, Lista zadań, Keep)
Działanie Gemini
Na jakiej zasadzie funkcjonuje Gemini?
Po zalogowaniu się na stronie czata otrzymujemy do dyspozycji okno rozmowy ze sztuczną inteligencją. Dyskusja odbywa się w formie tekstowej lub głosowej.
Jak to się dzieje, że wprowadzeniu dowolnego zapytania lub polecenia np. „Napisz artykuł na temat najważniejszy zabytków Polski”, Gemini za każdym razem generuje unikalną treść?
Modele językowe (takie jak np. Gemini czy ChatGPT) działają na zasadzie dobierania do siebie słów wykorzystując system wzorców i prawdopodobieństwa. Krótko mówiąc, AI prognozuje każde następne słowo w zdaniu.
Przykład: Jeśli zapytamy “Jakie zwierzę ma cztery łapy?” to jedna z odpowiedzi prawdopodobnie zabrzmi: “Cztery łapy może mieć kot”. Program wygenerował informację zwrotną wykorzystując wcześniejsze szkolenie na ogromnej ilości treści (miliony publikacji, książek, artykułów). Z całą pewnością w tekstach które przyswoił bardzo często słowa kot i cztery łapy były używane w tym samym kontekście, co zostało uznane za pewien wzorzec.
Od strony technicznej podczas generowania odpowiedzi zachodzi ogrom obliczeń, które kooperacyjnie sprawdzają to jak bardzo prawdopodobne jest, że po wyrazach „Cztery łapy może mieć…” wystąpią słowa „kot”. Nawet ciężko sobie wyobrazić jak mnóstwo parametrów posiada w sobie Gemini, że system sztucznej inteligencji potrafi generować długie, logiczne i rzeczowe teksty, nie do odróżnienia od publikacji stworzonych przez człowieka.
Szkolenie modelu, czyli jak Gemini Google zdobywa wiedzę
Model językowy bez danych treningowych nie ma praktycznego zastosowania. Aby sztuczna inteligencja mogła się czegoś nauczyć, konieczne jest dostarczenie jej danych treningowych, czyli ogromnej ilości tekstu. Oczywiście oprócz tekstu danymi treningowymi mogą być obrazy, dźwięki, filmy, czy kody programistyczne, wszystko zależy od funkcji i umiejętności jakie ma docelowo posiadać konkretny model. Twórcy Gemini Google ze względów bezpieczeństwa nie ujawniają źródeł danych szkoleniowych jakie zostały przez nich użyte, ale biorąc pod uwagę inne podobne modele językowe z pewnością są to książki, publikacje, strony internetowe oraz inne uporządkowane dane takie jak np. Common Crawl czy BookCorpus.
Od strony technicznej, proces uczenia modelu językowego polega na zamianie słów na liczby, a następnie wykonywaniu na tych liczbach (słowach) wielu operacji matematycznych. Te operacje mają na celu odkrywanie wzorców w tekście. Wyniki tych operacji wpływają na wzajemne relacje i prawdopodobieństwo występowania wyrazów obok siebie (wynik jednej operacji wpływa na następną i tak dalej).
Ważne jest to, że Gemini nie przechowuje informacji z danych treningowych jako „kopiuj-wklej”, lecz używa tekstów jedynie do identyfikacji wzorców i relacji między słowami. Te wzorce są zapisywane przy użyciu wielowarstwowych sieci neuronowych. W rezultacie każdy tekst generowany przez oprogramowanie jest unikalny i niepowtarzalny.
Ograniczenia
Należy wziąć pod uwagę fakt, iż odpowiedzi generowane przez Gemini mogą być mylące, nieprecyzyjne a nawet nieprawdziwe. Nie jest to oczywiście celowe działanie Google, ale wynika to z samej zasady działania modeli językowych, które opierają się na budowaniu treści na podstawie wzorców i prawdopodobieństwa. Nigdy nie ma 100% pewności, że wygenerowany dany szyk słów stworzy merytorycznie prawdziwą informację (nawet jeśli pod względem stylistycznym jest poprawny). Zwyczajowo mówi się wtedy, że AI konfabuluje lub ma halucynacje.
Jak skutecznie korzystać z Gemini Google?
Fundamentalna zasada rozmowy
Komunikacja z Gemini przypomina rozmowę z prawdziwym człowiekiem i odbywa się w naturalnym języku, bez potrzeby używania specjalistycznych kodów programistycznych. Program doskonale rozumie język polski oraz inne, popularne języki świata.
Każde zapytanie lub polecenie kierowane do sztucznej inteligencji profesjonalnie nosi nazwę promptu. Cała sztuka rozmowy polega na odpowiednim redagowaniu promptów w taki sposób, aby uzyskać jak najbardziej efektywne odpowiedzi.
Żeby uzmysłowić na co w pierwszej kolejności zwrócić uwagę podczas rozmowy z Gemini, posłużmy się przykładem z życia codziennego. Wyobraźmy sobie sytuację, w której partnerka prosi swojego wybranka, aby ten kupił w sklepie “coś dobrego”. Problem polega jednak na tym, że obydwoje mają w swoich myślach zupełnie inne wyobrażenie czegoś dobrego, które wynika z ich aktualnych preferencji. W efekcie może to prowadzić do ogólnego niezadowolenia podczas powrotu z zakupów. W celu uniknięcia nieporozumień komunikat powinien być przede wszystkim jasny, konkretny i wyczerpujący: “Kup proszę jedno opakowanie biszkoptów z nadzieniem truskawkowym”. Podobnie jest z redagowaniem promptów, polecenie lub pytanie skierowane do sztucznej inteligencji powinno być konkretne, bez używania ogólników. W ten sposób oprogramowanie dowie się dokładnie co mamy na myśli i nie użyje własnej interpretacji.
Jak redagować prompty?
W poprzedniej części artykułu omówiliśmy, że prompt to nic innego jak polecenie skierowane do sztucznej inteligencji. Aby komenda była jak najjaśniejsza dla komputera i skutkowała wygenerowaniem optymalnej odpowiedzi, należy ją starannie sformułować. Oto lista pięciu zasad tworzenia dobrego promptu w Gemini Google:
- Unikaj ogólników, pisz konkretnie
Warto upewnić się, że większość wyrazów w prompcie niesie ze sobą istotne i konkretne znaczenie, unikając tym samym formułowania zbędnych ogólników i dwuznacznych stwierdzeń. Przestrzeganie tej zasady wpływa na każdą z pozostałych reguł. - Jedno główne zadanie do wykonania
Kolejnym krokiem jest określenie głównego celu jaki chcemy osiągnąć za pomocą Gemini np. wygenerowanie spisu treści przesłanej publikacji, napisanie artykułu na bloga na temat rodzajów pomp ciepła, streszczenie artykułu, napisanie śmiesznych życzeń urodzinowych itp. Zaleca się, aby w jednym prompcie zawarte było tylko jedno główne zadanie. W ten sposób znaczenie zredukujemy prawdopodobieństwo wygenerowania pomyłek przez AI. - Rola
Model językowy jakim jest Gemini Google został zaprogramowany w taki sposób, aby wcielać się w określone role np. nauczyciel języka angielskiego, specjalista do spraw reklamy itp. - Kontekst i grupa docelowa
W następnym kroku cały prompt należy umocować w określonym kontekście oraz opisać do kogo jest skierowany np. lekcja angielskiego dla dzieci w wieku 10 lat, szkolenie z pierwszej pomocy dla kucharzy, artykuł na bloga o grach komputerowych przeznaczony dla nastolatków itp. - Warunki i wykluczenia
Na końcowym etapie redagowania promptu warto określić dodatkowe wymagania i zastrzeżenia techniczne:
język – np. odpowiedz w języku angielskim
styl – np. zredaguj w stylu nieformalnym, miejscami humorystycznie
cel – np. wygeneruj tekst na potrzeby nauki języka angielskiego
forma – np. odpowiedź wygeneruj w postaci tabeli w dwóch kolumnach
wykluczenia – np. nie używaj trudnych słów
Przykładowy prompt zredagowany na podstawie 5 powyższych zasad:
Jesteś lokalnym przewodnikiem turystycznym. Sporządź listę 10 najważniejszych zabytków w centrum Gdańska i krótko opisz ich historię. Odbiorcą tekstu są turyści z Hiszpanii, którzy będą zwiedzać te zabytki. Napisz tekst w dwóch wersjach (w języku polskim oraz hiszpańskim). Tekst opracuj w stylu luźnym i nieformalnym. Opis zabytków nie powinien przekraczać 20-30 zdań. W tekście nie używaj słów trudnych do wymówienia po hiszpańsku.
Znaczenie kolorów: Zadanie do wykonania, Rola, Kontekst i grupa docelowa, Warunki i wykluczenia
Dodatkowe funkcjonalności i rozszerzenia
Po wprowadzeniu symbolu @ w oknie rozmowy, do dyspozycji otrzymujemy kilka popularnych aplikacji Google. Po wybraniu jednej z nich, sztuczna inteligencja wykorzysta to narzędzie podczas prowadzenia rozmowy (przykłady pod obrazkiem).

Ważne: Należy sprawdzić czy mamy włączone rozszerzenia w ustawieniach. Menu po lewej stronie -> Ustawienia -> Rozszerzenia
Planowanie podróży z Mapami Google:
Przykładowa treść promptu: @Mapy Google Jesteś przewodnikiem turystycznym. Zaplanuj na mapie podróż samochodem osobowym. Wyjazd z Gdańska o godz. 04:00 rano i dojazd do Warszawy najpóźniej o 23:00. Po drodze zaplanuj trzy miejscowości do odwiedzenia, w których są popularne zabytki. Zwiedzanie w każdym mieście potrwa 2 godziny. Opis trasy zredaguj w punktach, w języku polskim oraz dołącz link do Mapy Google.
Jeśli chcemy wygenerować streszczenie filmiku na YouTube, którego nie mamy czasu oglądać:
Przykładowa treść promptu:@YouTube [tu wklej link] Zredaguj streszczenie tego filmu. Treść wygeneruj w punktach.
Wskazówka: Nie zawsze konieczne jest wywoływanie aplikacji poprzez wpisanie znaku @. Kiedy zapytamy Gemini Google o wskazówki dotyczące trasy przejazdu to system samodzielnie uzna, że konieczne jest skorzystanie z Map Google.

Jeśli nie jesteśmy zadowoleni z wygenerowanej odpowiedzi, mamy możliwość szybkiego poprawienia tekstu korzystając z kilku podstawowych opcji takich jak zmiana odpowiedzi na krótszą, dłuższą, prostszą itd. Wystarczy kliknąć niebieską ikonkę filtra.

Otrzymaną od czata Gemini odpowiedź możemy łatwo udostępnić na trzy sposoby:
- Utworzenie publicznego linku (każdy kto ma link może przeczytać całą dyskusję lub wybrane przez nas fragmenty, bez konieczności logowania do Google). Linki możemy w każdej chwili usunąć.
- Eksportowanie do Dokumentów Google (jednym kliknięciem tworzony jest nowy dokument zawierający treść odpowiedzi)
- Wysłanie e-mail (odpowiedź wysyłana jest do wybranego adresata za pośrednictwem naszego konta Gmail, treść maila możemy oczywiście modyfikować)
Najczęściej zadawane pytania (FAQ)
Jakie języki obsługuje Gemini Google?
polski, angielski, arabski, bengalski, bułgarski, chiński (uproszczony i tradycyjny), chorwacki, czeski, duński, estoński, fiński, francuski, grecki, gudżarati, hebrajski, hindi, hiszpański, indonezyjski, japoński, kannada, koreański, litewski, łotewski, malajalam, marathi, niderlandzki, niemiecki, norweski, perski, portugalski, rosyjski, rumuński, serbski, słowacki, słoweński, suahili, szwedzki, tajski, tamilski, telugu, turecki, ukraiński, urdu, węgierski, wietnamski, włoski.
Czy korzystanie z czata jest limitowane?
Korzystanie z Gemini podlega ograniczeniom. Oznacza to, że istnieje określony limit liczby promptów i rozmów w wyznaczonym czasie. Limity te są regularnie odnawiane.
Wyczerpanie limitu zależy od różnych czynników, takich jak długość i złożoność promptów, wielkość i liczba przesyłanych plików oraz długość rozmów z Gemini.