Spis treści
Co to jest Eleven Labs i do czego służy?
Eleven Labs to narzędzie oparte na sztucznej inteligencji, którego głównym zadaniem jest przetwarzanie tekstu na ludzką mowę oraz modyfikacja głosu. W odróżnieniu od podobnych tego typu rozwiązań, oprogramowanie generuje wyjątkowo naturalnie brzmiący głos. Co istotne, działa w języku polskim.
Po wejściu na stronę uzyskujemy dostęp do biblioteki gotowych głosów lektorskich, zdolnych do generowania mowy w 29 językach. Ciekawą opcją jest możliwość wykorzystania próbkowania dźwięku do sklonowania barwy własnego głosu lub reprodukcji mowy znanej osoby.
Na uwagę zasługuje także innowacyjna funkcja tłumaczeń językowych. Polega ona na automatycznym tłumaczeniu mowy w filmie (np. na YouTube) w taki sposób, iż barwa głosu rozmówcy pozostaje oryginalna, zmienia się jedynie język w jakim mówi. Można to przyrównać do ulepszonego dubbingu.
Najważniejsze funkcjonalności
Syntezator tekstu na mowę (text to speech)
Po wprowadzeniu tekstu i wyborze preferowanej barwy głosu – klikamy przycisk „generuj”. W ciągu kilku sekund nagranie lektorskie jest już gotowe do pobrania w formie pliku mp3. Dostępne opcje konfiguracyjne umożliwiają dokładne dopasowanie tonu i stylu wypowiedzi do naszych oczekiwań i potrzeb. Poniżej przykład nagrania wygenerowanego na podstawie tekstu:
Cześć, jestem głosem lektorskim serwisu Eleven Labs. Posiadam umiejętność czytania tekstów w 28 językach, w tym także po polsku. Moje działanie nie ogranicza się jedynie do sztucznego i mechanicznego brzmienia. Potrafię nadawać emocje oraz wyjątkowy charakter każdej wypowiedzi.
Praca na dokumentach
Eleven Labs udostępnia syntezę tekstu na mowę całych dokumentów, na przykład PDF. Po wgraniu pliku otrzymujemy możliwość korzystania z wielu głosów w jednym projekcie, modyfikacji poszczególnych fragmentów czy nagłówków. W efekcie uzyskujemy materiał dźwiękowy czytany przez różnych lektorów z podziałem na role.
Zmieniacz głosu (voice changer)
Narzędzie służy do modyfikacji tonu, barwy i wysokości głosu w czasie rzeczywistym lub w przesłanych nagraniach. Oferuje opcje subtelnej zmiany mowy lub całkowitą transformację głosu, na przykład z damskiego na męski i odwrotnie.
Transkrypcja mowy na tekst (speech to text)
Opcja umożliwia wykrywanie mowy i automatyczne przekształcanie jej na tekst. Dostarcza wsparcie w 99 językach, oferując dodanie znaczników czasowych, rozróżnianie mówców oraz tagowanie zdarzeń dźwiękowych, takich jak śmiech czy kroki. Działa zarówno z plikami audio, jak i w czasie rzeczywistym, zapewniając wysoką dokładność transkrypcji.
Klonowanie głosu (PVC)
Kolejnym rozwiązaniem w ofercie Eleven Labs jest replikacja głosu. Proces ten obejmuje analizę przesłanej próbki mowy (np. pliku mp3). Na podstawie nagrania, oprogramowanie klonuje głos, który następnie używa do zamiany dowolnego tekstu na mowę. Opcja klonowania głosu jest dość często używana w humorystyczny sposób w przypadku imitacji znanych postaci np. polityków.
Dubbing
Funkcja pozwala na dźwiękowe tłumaczenie nagrań audio i filmów na 29 języków. Nie chodzi tutaj o wyświetlanie napisów, ale o zastępowanie głosu aktorów ich własnym głosem, ale w innym języku. Jak to działa? Podajemy link do filmu lub wgrywamy go z dysku. Wybieramy pożądany język, a Eleven Labs w ciągu maksymalnie kilku minut zwraca zmodyfikowany plik wideo z tłumaczeniem dźwiękowym.
Generowanie efektów dźwiękowych (sound effects)
Jeśli zachodzi potrzeba zastosowania w naszym projekcie efektów dźwiękowych np. ruchu ulicznego, odgłosów plaży czy szczekającego psa – wystarczy wprowadzić krótki opis. Eleven Labs na podstawie tekstu stworzy odpowiednie nagranie.
Wykrywacz głosów AI (speech classifier)
Funkcjonalność pozwala użytkownikom na przesyłanie próbek audio w celu określenia prawdopodobieństwa, że dany głos lub inny dźwięk został wygenerowany za pomocą strony ElevenLabs.
Edycja dźwięku i projektów
Oprogramowanie dostarcza studio montażowe pozwalające na importowanie własnego wideo, automatycznie dodawanie lektora, ustawianie multimediów na osi czasu, usuwanie szumów z nagrań oraz izolację poszczególnych dźwięków np. separuje wokal od muzyki.
Ile kosztuje korzystanie z Eleven Labs?
Serwis oferuje łącznie 4 pakietów w tym jeden darmowy. W wielkim skrócie główne różnice pomiędzy pakietami to liczba znaków do wykorzystania oraz dostęp do poszczególnych funkcji.
Pojedynczy znak to jedna litera/spacja/przecinek itp. Jeśli chcemy, aby lektor przeczytał zdanie “Witaj w kolejnym odcinku!” wykorzystamy 25 znaków. Jeśli nie jesteśmy zadowoleni z efektu, mamy prawo do trzech kolejnych (bezpłatnych) wygenerowań tego samego tekstu. Warunkiem jest jednak to, że tekst musi być w 100% niezmieniony, dodanie nawet jednego przecinka uniemożliwi darmową poprawkę.
Wersja darmowa pozwala na skorzystanie z 10 000 znaków miesięcznie. Dla przykładu artykuł, który teraz czytasz składa się z blisko 11 000 znaków. W bezpłatnym pakiecie nie skorzystamy jednak ze wszystkich funkcji oferowanych przez Eleven Labs. Przykładowo opcja klonowania głosu dostępna jest tylko w płatnych wariantach.
Wszystkie pakiety przedstawiają się następująco:
| Nazwa pakietu | Limit znaków / kredytów miesięcznie | Cena za miesiąc (USD) |
|---|---|---|
| Free | 10 000 znaków | $0 |
| Starter | 30 000 znaków | $5 |
| Creator | 100 000 znaków | $22 |
| Pro | 500 000 znaków | $99 |
Liczba znaków to nie jedyne różnice pomiędzy pakietami. Szczegóły znajdziesz na stronie Eleven Labs.
Aspekty prawne i licencje
Czy nagrania można użyć do celów komercyjnych?
Tak, można wykorzystywać materiały głosowe do użytku komercyjnego, pod warunkiem, że posiadamy niezbędne prawa własności intelektualnej do tekstu i treści, które używamy do generowania głosu. Nagrania mogą być wykorzystane komercyjnie przez każdego użytkownika Eleven Labs, bez względu na to czy korzysta z wersji darmowej bądź płatnej.
Czy można klonować głos cudzej osoby?
Nie, na ElevenLabs nie można tworzyć profesjonalnych klonów głosu innych osób z własnego konta – nawet jeśli posiadamy ich zgodę.
Szczegóły:
- Dozwolone jest wyłącznie klonowanie własnego głosu w ramach tzw. Professional Voice Clone
- Proces klonowania wymaga weryfikacji tożsamości, np. nagrania specjalnego komunikatu potwierdzającego, że głos należy do właściciela konta
- Regulamin zabrania tworzenia lub używania nagrań, które celowo imitują głos innej osoby bez spełnienia wymagań platformy
- Jeśli ktoś chce, aby jego głos był używany przez innych, musi samodzielnie utworzyć i zweryfikować swój klon, a następnie udostępnić go innym użytkownikom
W skrócie: nie da się legalnie ani technicznie sklonować głosu innej osoby z własnego konta; klon głosu musi być tworzony i weryfikowany przez właściciela tego głosu.
Porady i wskazówki
Na początku warto nadmienić, że generowanie mowy za pośrednictwem sztucznej inteligencji nie jest deterministyczne. Oznacza to, że ustawienie suwaków na określone wartości nie zagwarantuje takich samych wyników za każdym razem. Kilkukrotne wygenerowanie głosu z identycznego tekstu zawsze da nieco inny wynik i będzie brzmiało inaczej. To jak bardzo poszczególne wersje będą się od siebie różnić, zależy od tego jak duży zakres tolerancji ustawimy.
Ustawienia głosu
Stability (0% – 100%)
Regulacja stabilności jest najistotniejszym ustawieniem przy generowaniu mowy w Eleven Labs. Im większa wartość procentowa tym głos brzmi bardziej jednolicie i będzie spójny przy zestawieniu ze sobą kilku nagrań. Wadą jest to, że mowa na poziomie 90-100% może zostać uznana za monotonną. Jeśli z kolei wybierzemy niski stopień stabilności, głos nabierze bardziej indywidualnego charakteru. Pewnym ryzykiem takich ustawień jest fakt, że im bliżej granicy 0% tym emocje mówiącego popadają w różne skrajne tony. Zaleca się nie schodzenie poniżej 30%.
Speed (Slower – Faster)
Suwak pozwala ustawić pożądaną prędkość czytania tekstu. Im wartość bliżej górnej granicy Faster tym lektor będzie czytał tekst szybciej.
Similarity (0% – 100%)
Opcja określa jak bardzo wygenerowany głos powinien być podobny do pierwotnej próbki głosu. Jeśli korzystamy z funkcji przesyłania własnej próbki głosu i suwak Similarity jest ustawiony na zbyt wysoką wartość (a w oryginalnym pliku obecne są szumy lub artefakty) to wygenerowana mowa będzie zawierać zniekształcenia.
Style Exaggeration (zakres: 0% – 100%)
Ustawienie wyraża siłę wyolbrzymiania stylu wypowiadania się, co w praktyce przekłada się na to, że mowa bogata jest w różnego rodzaju charakterystyczne maniery. Zaleca się pozostawienie suwaka na poziomie 0, jeśli nie zamierzamy eksperymentować.
Jak zaakcentować konkretne słowo lub wyrażenie?
Jeśli chcemy, aby lektor wyróżnił coś w trakcie czytania, wystarczy umieścić to wyrażenie w cudzysłowie
Powiedz jej "wszystko", co ci wiadomo na ten temat.
Jak zmienić tempo wypowiedzi?
Oprogramowanie oferuje dwie opcje zmiany tempa wypowiedzi. Pierwszy sposób dotyczy całości wprowadzonego tekstu, natomiast druga metoda umożliwia kontrolę prędkości tylko wybranych fragmentów.
Sposób nr 1: Użycie suwaka Speed
W tym przypadku możliwe jest globalne ustawienia tempa wypowiedzi od bardzo wolnego do bardzo szybkiego. Prędkość czytania jest jednolita dla całego nagrania.
Sposób nr 2: Zmiana tempa wybranego fragmentu
Aby zmienić szybkość czytania określonego zdania, możemy użyć promptu, czyli tekstowego opisu umieszczonego na końcu. Przykład:“Być albo nie być, oto jest pytanie” - he said slowly. W tym przypadku lektor powinien wypowiedzieć ten fragment wolniej. Minusem zastosowania takiego rozwiązania jest konieczność usunięcia w procesie edycji wyrażenia „he said slowly”, które też jest generowane.
Jak wymusić określone emocje?
Jedynym zalecanym przez twórców sposobem nacechowania mowy emocjami, jest zastosowanie promptu na końcu danego wyrażenia:"oo nie!! proszę, nie rób tego!" he shouted angrily
"to koniec, już po mnie" she said very sadly
W powyższym przypadku zachodzi konieczność samodzielnego usunięcia z nagrania treści promptu, który też jest generowany w nagraniu.
W celu uzyskania określonego tonu wypowiedzi, nie zawsze konieczne jest formułowanie promptu. Sztuczna inteligencja co do zasady rozumie kontekst wprowadzonego tekstu i bardzo często samodzielnie kreuje odpowiednio dopasowane emocje.
Jak dodać pauzę w wypowiedzi?
Dostępne są dwa sposoby na tworzenie przerwy w nagraniu oraz wpływanie na rytm mówiącego.
Sposób nr 1: Zastosowanie składni <break time="1.5s" />
Użycie tego polecenia spowoduje wykreowanie naturalnej przerwy w mowie o długości 1.5 sekundy (przerwa wystąpi jedynie w miejscach tekstu, gdzie umieścimy ten kod). Nie chodzi o dodanie zwykłej ciszy między słowami, ale sztuczna inteligencja realnie rozumie znaczenie słów i dodaje naturalną pauzę. Czas odstępu należy podawać w sekundach np. 1.5s, 2s. (nie więcej niż 3 sekundy). Wykorzystanie nadmiernej liczby składni “break time” może powodować niestabilność w działaniu.
"Ale to nie wszystko mój przyjacielu <break time="1.5s" /> musisz wiedzieć jeszcze o czymś"
Sposób nr 2: Dodanie myślnika pomiędzy wyrazami “-”
Zastosowanie zwykłego myślnika dodaje pauzę w wypowiedzi. Każdy kolejny myślnik postawiony obok siebie – przedłuża przerwę.
"Posłuchaj mnie - mam coś bardzo ważnego do przekazania"
Czy można wygenerować szept?
Nie istnieje bezpośrednia opcja nadająca efekt szeptu, ale biblioteka Eleven Labs oferuj lektora, który czyta tekst przyciszonym głosem. Nazwa głosu: Ethan (ważne, aby wybrać opcję: multilingual v1, przy wersji v2 efekt szeptu może nie być słyszalny).
Wypróbuj Eleven Labs
Poniższy link prowadzi do oficjalnej strony i ma charakter reklamowy:
Kliknij, aby przejść do elevenlabs.io w języku polskim


