Precyzyjna Separacja Dźwięku

na bazie Obiektów Dźwiękowych

Nasza technologia jest nowym sposobem dekompozycji sygnału dźwiękowego. Jej atutem jest możliwość precyzyjnego opisania sygnału próbka po próbce w sposób umożliwiający swobodną manipulację jego wewnętrznymi składowymi. Obiekty Dźwiękowe opisujące ten sygnał informują nas o dokładnej amplitudzie, częstotliwości oraz fazie w każdej dowolnej chwili czasu. Taki sposób dekompozycji pozwala na dokładne odzwierciedlenie sygnału, jego analizę oraz separację i syntezę jego elementów składowych, nawet w przypadku sygnałów które nakładają się na siebie w czasie i częstotliwości.

Proces wektoryzacji

Wzorując się na budowie ludzkiego narządu słuchu, do dekompozycji i analizy sygnału dźwiękowego, stosujemy specjalnie zaprojektowany bank filtrów oraz opatentowany układ rozróżniania i śledzenia obiektów dźwiękowych.

ic10

FILTRY

W odróżnieniu od tradycyjnych metod przetwarzania dźwięku za pomocą Transformaty Fouriera (FFT) i jej pochodnych (DCT, CQT), nasza technologia wykorzystuje specjalnie zaprojektowany bank filtrów do uzyskania niespotykanej dotąd dokładności odzwierciedlenia sygnału.

Zastosowanie filtrów

W naszym rozwiązaniu sygnał akustyczny w postaci zapisu cyfrowego wprowadzany jest na Bank Filtrów odpowiadający funkcjonalnie ślimakowi ucha wewnętrznego. Filtry nastrojone są selektywnie na częstotliwości od 16,35 Hz (nuta C2) do 22 030 Hz (nuta f7), zgodnie z zapisem nutowym, który jest zapisem logarytmicznym (każda następna oktawa jest 2 razy wyższa od poprzedniej). Dzięki zastosowaniu 500 filtrów w pełnym zakresie częstotliwościowym dysponujemy rozdzielczością 4 filtrów na półton  (48 filtrów na oktawę).

ic12

NOWE WIDMO

Proces tworzenia obiektów dźwiękowych jest czymś więcej niż proces tworzenia widma. Nowy rodzaj spektrum powstały w wyniku wektoryzacji sygnału opisuje zmieniające się zależności częstotliwościowe obiektów w czasie przy zachowaniu ciągłości fazy. Nowe widmo pozwala na precyzyjne rozdzielenie wielu nałożonych w czasie częstotliwości, które różnią się o zaledwie >4% (1 półton). Ponadto charakteryzuje się on stałą rozdzielczością we wszystkich 500 logarytmicznych zakresach częstotliwościowych.

Analiza widma

Na wyjściu opisanego wcześniej banku filtrów pojawia się widmo sygnału audio, który w przestrzeni czas/częstotliwość pokazuje amplitudę występujących elementów składowych. W odróżnieniu od obecnie dostępnych „rozmytych” spectrogramów dźwięku nasze rozwiązanie pozwala na identyfikację i precyzyjne wyodrębnienie poszczególnych obiektów pochodzących z różnych źródeł dźwięku. W rozłożonym sygnale audio występuje jednocześnie od kilku do kilkudziesięciu elementów podstawowych i ich harmonicznych. Często te elementy mają bardzo zbliżone lub wręcz nakładające się częstotliwości. Aby je rozróżnić, a następnie połączyć z już zidentyfikowanymi, system musi „wsłuchać” się w dźwięki i przyporządkować je do odpowiedniej grupy obiektów.

ic11

WEKTORY

Wykorzystując nasze algorytmy jesteśmy w stanie wyodrębnić poszczególne wektorowe Obiekty Dźwiękowe i rozpocząć proces ich grupowania według źródeł pochodzenia.

Tworzenie wektorowych obiektów dźwiękowych

Obiekty dźwiękowe z uwagi na swój wektorowy zapis mogą być dowolnie modyfikowane (parametryzowane), zarówno na poziomie pojedynczego obiektu, jak i grupy obiektów opisujących dane źródło dźwięku (np.: częstotliwości harmoniczne charakterystyczne dla danego instrumentu). Ścieżki dźwiękowe zapisane w postaci obiektów dźwiękowych posiadają cechy zarówno oryginalnego pliku audio (wysoka jakość i oryginalne brzmienie), jak i pliku midi (nieograniczone możliwości edycji i manipulacji elementami składowymi). Prosta modyfikacja parametrów grup obiektów dźwiękowych pozwala m.in. zmieniać brzmienie instrumentów lub głosów, zmieniać intonację mowy i łączenie głosek, co może mieć zastosowanie w nowoczesnych interfejsach Human Computer Interface (HCI).

Czym jest Obiekt Dźwiękowy?

Obiekty Dźwiękowe (Sound Objects) uzyskujemy w wyniku dekompozycji złożonego sygnału audio na jego sinusoidy składowe, przy czym każda z otrzymanych w wyniku dekompozycji sygnału sinusoid charakteryzuje się: zmienną częstotliwością, zmienną amplitudą oraz ciągłością fazy. Obiekty dźwiękowe pozawalają m.in. na precyzyjne wyodrębnienie: poszczególnych źródeł dźwięku (np.: mówców lub instrumentów muzycznych), poszczególnych słów, tonów lub odgłosów otoczenia, a także na odczytanie szeregu dodatkowych informacji takich jak: cechy osobnicze mówcy, stan emocjonalny, ton wypowiedzi itp.

KOMPRESJA

Konwersja sygnału audio na parametryczny zapis za pomocą Obiektów Dźwiękowych pozwala na automatyczne wyselekcjonowanie i usunięcie znaczącej ich ilości, bez wpływu na słyszalną jakość złożonego powtórnie nagrania, co umożliwia otrzymanie znaczącej kompresji rozmiaru pliku audio.

element

Zastosowanie kompresji

Głównym celem prowadzonych przez nas prac badawczo-rozwojowych jest poprawa jakości i zwiększenie możliwości systemów przetwarzania sygnałów dźwiękowych. Jednak „efektem ubocznym”, jaki zaobserwowaliśmy, jest kompresja danych. W odróżnieniu od dominujących na rynku stratnych systemów kompresji danych, takich jak MP3, kompresja uzyskiwana w naszym rozwiązaniu jest zmienna i zależy od ilości obiektów występujących w sygnale.  Jedna sekunda zapisu .wav mono 16 bitów przy próbkowaniu 44 100 próbek na sekundę zajmuje 88 200 bajtów, co daje kompresję na poziomie 42. Kompresja dla zapisu MP3 wynosi od 15 do 25.

SEPARACJA

Rozłożenie sygnału na poszczególne Obiekty Dźwiękowe pozwala na ich późniejsze automatyczne grupowanie według znanych źródeł dźwięku, takich jak: poszczególne instrumenty muzyczne, wokal, szumy i inne.

element2

Zastosowanie separacji

Precyzyjne zlokalizowanie parametrów obiektów w dziedzinie amplitudy, fazy i częstotliwości pozwala na grupowanie obiektów w celu ustalenia ich źródła.

Relacje między częstotliwością podstawową i jej harmonicznymi określające barwę dźwięku oraz chwile czasowe wyznaczające pojawienie się obiektów pozwalają określić, od jakiego instrumentu muzycznego dźwięk pochodzi, czy jest mową oraz, czy pochodzi od jednej, czy od różnych osób.

Precyzyjna separacja obiektów daje szansę przeprowadzania dalszej analizy dla każdej grupy obiektów, bez zakłóceń, za pomocą już istniejących systemów, które z czystym (niezakłóconym) sygnałem radzą sobie dobrze.

.

EDYCJA I SYNTEZA

Wektorowy zapis dźwięku w formie Obiektów Dźwiękowych umożliwia ich dowolną edycję i syntezę. Możliwości, jakie daje wektorowy zapis dźwięku, porównać można do możliwości grafiki wektorowej względem grafiki bitmapowej.

element

Zastosowanie edycji i syntezy

Sygnał akustyczny zbudowany z obiektów dźwiękowych zachowuje korzystne cechy sygnałów:

WAV z uwagi na jego dobrą jakość odtwarzania

MP3 z uwagi na jego wysoki poziom kompresji

MIDI z uwagi na duże możliwości modyfikacji elementów składowych

Zapisanie dźwięku w formie wektorowych Obiektów Dźwiękowych umożliwia dowolną zmianę ich parametrów, ponadto pozwala wycinać, wklejać, łączyć i rozdzielać sygnały audio oraz sygnały zbudowane z obiektów dźwiękowych.