Spis treści
Co to jest Eleven Labs i do czego służy?
Eleven Labs to narzędzie oparte na sztucznej inteligencji, którego głównym zadaniem jest przetwarzanie tekstu na ludzką mowę (wirtualny lektor). W odróżnieniu od podobnych tego typu rozwiązań, oprogramowanie generuje wyjątkowo naturalnie brzmiący głos. Co istotne, działa w języku polskim.
Po wejściu na stronę uzyskujemy dostęp do biblioteki gotowych głosów lektorskich, zdolnych do generowania mowy w 28 językach. Ciekawą opcją jest możliwość wykorzystania próbkowania dźwięku do sklonowania barwy własnego głosu lub reprodukcji mowy znanej osoby.
Na uwagę zasługuje także innowacyjna funkcja tłumaczeń językowych. Polega ona na automatycznym tłumaczeniu mowy w filmie (np. na YouTube) w taki sposób, iż barwa głosu rozmówcy pozostaje oryginalna, zmienia się jedynie język w jakim mówi. Można to przyrównać do ulepszonego dubbingu.
Najważniejsze funkcjonalności
Syntezator tekstu na mowę
Po wprowadzeniu tekstu i wyborze preferowanej barwy głosu – klikamy przycisk „generuj”. W ciągu kilku sekund nagranie lektorskie jest już gotowe do pobrania w formie pliku mp3. Dostępne opcje konfiguracyjne umożliwiają dokładne dopasowanie tonu i stylu wypowiedzi do naszych oczekiwań i potrzeb. Poniżej przykład nagrania wygenerowanego na podstawie tekstu:
Cześć, jestem głosem lektorskim serwisu Eleven Labs. Posiadam umiejętność czytania tekstów w 28 językach, w tym także po polsku. Moje działanie nie ogranicza się jedynie do sztucznego i mechanicznego brzmienia. Potrafię nadawać emocje oraz wyjątkowy charakter każdej wypowiedzi.
Syntezator mowy na mowę (modulacja głosu)
Jeśli posiadamy nagranie, na którym coś mówimy, możemy z łatwością zmodyfikować nasz głos na zupełnie inny. Nic nie stoi na przeszkodzie, żeby przekształcać głosy męskie na żeńskie i odwrotnie.
Praca na dokumentach
Eleven Labs udostępnia syntezę tekstu na mowę całych dokumentów, na przykład PDF. Po wgraniu pliku otrzymujemy możliwość korzystania z wielu głosów w jednym projekcie, modyfikacji poszczególnych fragmentów czy nagłówków. W efekcie uzyskujemy materiał dźwiękowy czytany przez różnych lektorów z podziałem na role.
Klonowanie głosu (PVC)
Kolejnym rozwiązaniem w ofercie Eleven Labs jest replikacja głosu. Proces ten obejmuje analizę przesłanej próbki mowy (np. pliku mp3). Na podstawie nagrania, oprogramowanie klonuje głos, który następnie używa do zamiany dowolnego tekstu na mowę. Opcja klonowania głosu jest dość często używana w humorystyczny sposób w przypadku imitacji znanych postaci np. polityków.
Dubbing
Funkcja pozwala na dźwiękowe tłumaczenie nagrań audio i filmów na 29 języków. Nie chodzi tutaj o wyświetlanie napisów, ale o zastępowanie głosu aktorów ich własnym głosem, ale w innym języku. Jak to działa? Podajemy link do filmu lub wgrywamy go z dysku. Wybieramy pożądany język, a Eleven Labs w ciągu maksymalnie kilku minut zwraca zmodyfikowany plik wideo z tłumaczeniem dźwiękowym.
Generowanie efektów dźwiękowych
Jeśli zachodzi potrzeba zastosowania w naszym projekcie efektów dźwiękowych np. ruchu ulicznego, odgłosów plaży czy szczekającego psa – wystarczy wprowadzić krótki opis. Eleven Labs na podstawie tekstu stworzy odpowiednie nagranie.
Izolator głosu
Narzędzie usuwa z nagrania trzaski i szum tła, pozostawiając tylko wyraźny głos rozmówcy.
Ile kosztuje korzystanie z Eleven Labs?
Serwis oferuje łącznie 6 pakietów w tym jeden darmowy.
W wielkim skrócie główne różnice pomiędzy pakietami to liczba znaków do wykorzystania. Pojedynczy znak to jedna litera/spacja/przecinek itp. Jeśli chcemy, aby lektor przeczytał zdanie “Witaj w kolejnym odcinku!” wykorzystamy 25 znaków. Należy wziąć pod uwagę fakt, że kilkukrotne wygenerowanie tego samego zdania (nawet jeśli nie zajdzie w nim żadna zmiana), za każdym razem pozbawi nas kolejnych 25 znaków z posiadanej puli.
Wersja darmowa pozwala na skorzystanie z 10 000 znaków miesięcznie. W bezpłatnym pakiecie nie skorzystamy jednak ze wszystkich funkcji oferowanych przez Eleven Labs. Przykładowo opcja klonowania głosu dostępna jest tylko w płatnych wariantach.
Wszystkie pakiety przedstawiają się następująco:
Nazwa pakietu | Limit znaków na miesiąc | Cena za miesiąc |
---|---|---|
Free | 10 000 | $0 |
Starter | 30 000 | $5 |
Creator | 100 000 | $22 |
Independent Publisher | 500 000 | $99 |
Pakiet Growing Business | 2 000 000 | $330 |
Enterprise | Dostosowane indywidualnie | N/A |
Liczba znaków to nie jedyne różnice pomiędzy pakietami. Szczegóły znajdziesz na stronie Eleven Labs.
Aspekty prawne i licencje
Czy nagrania można użyć do celów komercyjnych?
Tak, można wykorzystywać materiały głosowe do użytku komercyjnego, pod warunkiem, że posiadamy niezbędne prawa własności intelektualnej do tekstu i treści, które używamy do generowania głosu. Nagrania mogą być wykorzystane komercyjnie przez każdego użytkownika Eleven Labs, bez względu na to czy korzysta z wersji darmowej bądź płatnej.
Warunek prawny darmowego pakietu
Zgodnie z warunkami licencji, każdy użytkownik który korzysta z planu bezpłatnego bądź nie jest zarejestrowany, zobowiązuje się do zamieszczenia informacji o pochodzeniu nagrania. W praktyce oznacza to konieczność zamieszczenia w opisie swojego materiału nazwy stron: elevenlabs.io lub 11.ai. Nie muszą tego robić osoby korzystające z płatnych planów.
Porady i wskazówki
Na początku warto nadmienić, że generowanie mowy za pośrednictwem sztucznej inteligencji nie jest deterministyczne. Oznacza to, że ustawienie suwaków na określone wartości nie zagwarantuje takich samych wyników za każdym razem. Kilkukrotne wygenerowanie głosu z identycznego tekstu zawsze da nieco inny wynik i będzie brzmiało inaczej. To jak bardzo poszczególne wersje będą się od siebie różnić, zależy od tego jak duży zakres tolerancji ustawimy.
Ustawienia głosu
Stability (0% – 100%)
Regulacja stabilności jest najistotniejszym ustawieniem przy generowaniu mowy w Eleven Labs. Im większa wartość procentowa tym głos brzmi bardziej jednolicie i będzie spójny przy zestawieniu ze sobą kilku nagrań. Wadą jest to, że mowa na poziomie 90-100% może zostać uznana za monotonną. Jeśli z kolei wybierzemy niski stopień stabilności, głos nabierze bardziej indywidualnego charakteru. Pewnym ryzykiem takich ustawień jest fakt, że im bliżej granicy 0% tym emocje mówiącego popadają w różne skrajne tony. Zaleca się nie schodzenie poniżej 30%.
Similarity (0% – 100%)
Opcja określa jak bardzo wygenerowany głos powinien być podobny do pierwotnej próbki głosu. Jeśli korzystamy z funkcji przesyłania własnej próbki głosu i suwak Similarity jest ustawiony na zbyt wysoką wartość (a w oryginalnym pliku obecne są szumy lub artefakty) to wygenerowana mowa będzie zawierać zniekształcenia.
Style Exaggeration (zakres: 0% – 100%)
Ustawienie wyraża siłę wyolbrzymiania stylu wypowiadania się, co w praktyce przekłada się na to, że mowa bogata jest w różnego rodzaju charakterystyczne maniery. Zaleca się pozostawienie suwaka na poziomie 0, jeśli nie zamierzamy eksperymentować.
Jak zaakcentować konkretne słowo lub wyrażenie?
Jeśli chcemy, aby lektor wyróżnił coś w trakcie czytania, wystarczy umieścić to wyrażenie w cudzysłowie
Powiedz jej "wszystko", co ci wiadomo na ten temat.
Jak zmienić tempo wypowiedzi?
Oprogramowanie nie oferuje bezpośredniej funkcji regulacji szybkości czytania tekstu. Istnieją jednak pośrednie sposoby na uzyskanie pożądanego tempa.
Sposób nr 1: Wykorzystanie funkcji generowania mowy na mowę
W tym przypadku zachodzi konieczność samodzielnego przeczytania tekstu. Następnie system przekształca barwę naszego głosu na inną, pozostawiając bez zmian inne cechy takie jak prędkość wypowiedzi oraz przerwy.
Sposób nr 2: Zastosowanie odpowiedniego promptu (ten sposób nie zawsze działa)
W celu zmniejszenia tempa czytanego zdania: “Być albo nie być, oto jest pytanie” należy użyć wyrażenia uzupełniającego na końcu zdania:“Być albo nie być, oto jest pytanie” he said slowly.
Jak wymusić określone emocje?
Jedynym zalecanym przez twórców sposobem nacechowania mowy emocjami, jest zastosowanie promptu na końcu danego wyrażenia:"oo nie!! proszę, nie rób tego!" he shouted angrily
"to koniec, już po mnie" she said very sadly
Minus tego rozwiązania jest taki, że zachodzi konieczność samodzielnego usunięcia z nagrania treści promptu, który też jest generowany w nagraniu.
W celu uzyskania określonego tonu wypowiedzi, nie zawsze konieczne jest formułowanie promptu. Sztuczna inteligencja co do zasady rozumie kontekst wprowadzonego tekstu i bardzo często samodzielnie kreuje odpowiednio dopasowane emocje.
Jak dodać pauzę w wypowiedzi?
Dostępne są dwa sposoby na tworzenie przerwy w nagraniu oraz wpływanie na rytm mówiącego.
Sposób nr 1: Zastosowanie składni <break time="1.5s" />
Użycie tego polecenia spowoduje wykreowanie naturalnej przerwy w mowie o długości 1.5 sekundy (przerwa wystąpi jedynie w miejscach tekstu, gdzie umieścimy ten kod). Nie chodzi o dodanie zwykłej ciszy między słowami, ale sztuczna inteligencja realnie rozumie znaczenie słów i dodaje naturalną pauzę. Czas odstępu należy podawać w sekundach np. 1.5s, 2s. (nie więcej niż 3 sekundy). Wykorzystanie nadmiernej liczby składni “break time” może powodować niestabilność w działaniu.
"Ale to nie wszystko mój przyjacielu <break time="1.5s" /> musisz wiedzieć jeszcze o czymś"
Sposób nr 2: Dodanie myślnika pomiędzy wyrazami “-”
Zastosowanie zwykłego myślnika dodaje pauzę w wypowiedzi. Każdy kolejny myślnik postawiony obok siebie – przedłuża przerwę.
"Posłuchaj mnie - mam coś bardzo ważnego do przekazania"
Czy można wygenerować szept?
Nie istnieje bezpośrednia opcja nadająca efekt szeptu, ale biblioteka Eleven Labs oferuje jednego lektora, który czyta tekst przyciszonym głosem. Nazwa głosu: Ethan (ważne, aby wybrać opcję: multilingual v1, przy wersji v2 efekt szeptu może nie być słyszalny).
Wypróbuj Eleven Labs
Oficjalna strona w języku polskim.