Bundespatentgericht, Urteil vom 06.12.2021, Az. 4 Ni 10/21 (EP)

4. Senat | REWIS RS 2021, 10238

Tags hinzufügen

Sie können dem Inhalt selbst Schlagworten zuordnen. Geben Sie hierfür jeweils ein Schlagwort ein und drücken danach auf sichern, bevor Sie ggf. ein neues Schlagwort eingeben.

Beispiele: "Befangenheit", "Revision", "Ablehnung eines Richters"

QR-Code

Gegenstand

Patentnichtigkeitsklageverfahren - "Verfahren und Einrichtung zur Schätzung der Tonalität eines Schallsignals" – teilweise Nichtigkeit – Zur Frage der Patentfähigkeit und Ausführbarkeit


Tenor

In der Patentnichtigkeitssache

betreffend das europäische Patent EP 2 162 880

([X.] 2008 036 032)

hat der 4. Senat (Nichtigkeitssenat) des [X.] auf Grund der mündlichen Verhandlung vom 6. Dezember 2021 durch die Vorsitzende [X.]in [X.] sowie die [X.] Dipl.-Phys. Univ. Dipl.-Wirt.-Phys. [X.], [X.], [X.] und Dipl.-Phys. Univ. Dr. Haupt

für Recht erkannt:

[X.] Das [X.] Patent 2 162 880 wird mit Wirkung für das Hoheitsgebiet der [X.] dadurch teilweise für nichtig erklärt, dass seine Ansprüche 1, 2, 5, 19, 20 und 21 die nachfolgende Fassung erhalten:

1. A method for estimating a tonality of a sound signal, the method comprising:

calculating a current residual spectrum of the sound signal by subtracting a spectral floor from a spectrum of the sound signal in a current frame;

detecting peaks in the current residual spectrum;

calculating a correlation map between the current residual spectrum and a previous residual spectrum for each detected peak; and

calculating a long-term correlation map based on the calculated correlation map, the long-term correlation map being indicative of a tonality in the sound signal.

2. A method as defined in preceding claim 1, [X.]:

searching for minima in the spectrum of the sound signal in the current

frame;

estimating the spectral floor by connecting the minima with each other;

5. A method as defined in any of the preceding claims, wherein calculating the long-term correlation map comprises:

filtering the correlation map through a one-pole filter on a frequency bin by frequency bin basis; and

summing the filtered correlation map over the frequency bins so as to

produce a summed long-term correlation map.

19. A device for estimating a tonality of a sound signal, the device comprising:

a calculator for calculating a current residual spectrum of the sound signal by subtracting a spectral floor from a spectrum of the sound signal in a current frame;

a detector for detecting peaks in the current residual spectrum;

a calculator for calculating a correlation map between the current

residual spectrum and a previous residual spectrum for each detected

peak; and

a calculator for calculating a long-term correlation map based on the

calculated correlation map, the long-term correlation map being indicative of a tonality in the sound signal.

20. A device as defined in preceding claim 19, wherein the calculator of the current residual spectrum comprises:

a locator of minima in the spectrum of the sound signal in the current

frame;

an estimator of the spectral floor which connects the minima with each

other; and

a subtractor of the estimated spectral floor from the spectrum so as to

produce the current residual spectrum.

21. A device as defined in preceding claim 19 or 20, wherein the calculator of the long-term correlation map comprises:

a filter for filtering the correlation map on a frequency bin by frequency bin basis; and

an adder for summing the filtered correlation map over the frequency bins so as to produce a summed long-term correlation map.

I[X.] Im Übrigen wird die Klage abgewiesen.

II[X.] Von den Kosten des Rechtsstreits haben die Klägerin 90% und die Beklagte 10 % zu tragen.

[X.] Das Urteil ist im Kostenpunkt gegen Sicherheitsleistung in Höhe von 120 % des jeweils zu vollstreckenden Betrages vorläufig vollstreckbar.

Tatbestand

1

Die Beklagte ist eingetragene Inhaberin des u. a. für die [X.] erteilten [X.] Patents 2 162 880 (im Folgenden: [X.]), das aus der [X.] PCT/[X.]/001184 (offengelegt als [X.] 2009/000073 [X.]) hervorgegangen ist, am 20. Juni 2008 unter Inanspruchnahme der Priorität der [X.] 929336 vom 22. Juni 2007 angemeldet und dessen Erteilung am 24. Dezember 2014 veröffentlicht worden ist. Im [X.] des [X.] wird das [X.] mit der Bezeichnung „Verfahren und Einrichtung zur Schätzung der Tonalität eines [X.]“ unter dem Aktenzeichen 60 2008 036 032 geführt.

2

Das [X.] umfasst in seiner erteilten Fassung 27 Ansprüche mit u. a. dem unabhängigen Anspruch 1, den auf diesen direkt bzw. indirekt rückbezogenen Unteransprüchen 2 und 5, dem Vorrichtungsanspruch 19 und den auf diesen rückbezogenen Unteransprüchen 20 und 21.

3

Die erteilten Ansprüche 1, 2, 5, 19, 20 und 21 lauten in der [X.] Verfahrenssprache und ihrer [X.] Übersetzung unter Hinzufügung einer Merkmalsgliederung des Senats wie folgt:

4

1.1 Verfahren zum Schätzen der Tonalität eines [X.], wobei das Verfahren umfasst:

5

A method for estimating a tonality of a sound signal, the method comprising:

6

1.2 Berechnen eines aktuellen [X.]s des [X.];

7

calculating a current residual spectrum of [X.];

8

1.3 Erkennen von Spitzen im aktuellen [X.];

9

detecting peaks in the current residual spectrum;

1.4 Berechnen einer Korrelationskarte zwischen dem aktuellen [X.] und einem vorherigen [X.] für jede erkannte Spitze; und

calculating a correlation map between the current residual spectrum and a previous residual spectrum for each detected peak; and

1.5 Berechnen einer Langzeit-Korrelationskarte basierend auf der berechneten Korrelationskarte, wobei die Langzeit-Korrelationskarte eine Tonalität im Schallsignal anzeigt.

calculating a long-term correlation map based on the calculated correlation map, the long-term correlation map being indicative of a tonality in [X.].

2.2 Verfahren wie in Anspruch 1 definiert, wobei das Berechnen des aktuellen [X.]s umfasst:

A method as defined in claim 1, [X.]:

2.2.1 Suchen nach Minima im Spektrum des [X.] in einem aktuellen Rahmen;

searching for minima in the spectrum of [X.] in a current frame;

2.2.2 Schätzen eines spektralen Untergrunds durch Verbinden der Minima miteinander; und

estimating a spectral floor by connecting the minima with each other; and

2.2.3 Subtrahieren des geschätzten spektralen Untergrunds vom Spektrum des [X.] im aktuellen Rahmen, um so das aktuelle [X.] zu erzeugen.

subtracting the estimated spectral floor from the spectrum of [X.] in the current frame so as to produce the current residual spectrum.

5.5 Verfahren wie in einem der vorstehenden Ansprüche definiert, wobei das Berechnen der Langzeit-Korrelationskarte umfasst:

A method as defined in any of the preceding claim [sic!], [X.]:

5.5.1 Filtern der Korrelationskarte durch ein einpoliges Filter für jedes einzelne Frequenzbin; und

filtering the correlation map through an one-pole filter on a frequency bin by frequency bin basis; and

5.5.2 Summieren der gefilterten Korrelationskarte über die [X.], um eine summierte Langzeit-Korrelationskarte zu erzeugen.

summing the filtered correlation map over the frequency bins so as to produce a summed long-term correlation map.

19.1 Vorrichtung zum Schätzen einer Tonalität eines [X.], wobei die Vorrichtung umfasst:

A device for estimating a tonality of a sound signal, the device comprising:

19.2 einen Berechner zum Berechnen eines aktuellen [X.]s des [X.];

a calculator for calculating a current residual spectrum of [X.];

19.3 einen Detektor zum Erkennen von Spitzen im aktuellen [X.];

a detector for detecting peaks in the current residual spectrum;

19.4 einen Berechner zum Berechnen einer Korrelationskarte zwischen dem aktuellen [X.] und einem vorherigen [X.] für jede erkannte Spitze; und

a calculator for calculating a correlation map between the current residual spectrum and a previous residual spectrum for each detected peak; and

19.5 einen Berechner zum Berechnen einer Langzeit-Korrelationskarte basierend auf der berechneten Korrelationskarte, wobei die Langzeit-Korrelationskarte eine Tonalität im Schallsignal anzeigt.

a calculator for calculating a long-term correlation map based on the calculated correlation map, the long-term correlation map being indicative of a tonality in [X.].

20.2 Vorrichtung wie in Anspruch 19 definiert, wobei der Berechner des aktuellen [X.]s umfasst:

A device as defined in claim 19, wherein the calculator of the current residual spectrum comprises:

20.2.1 einen Lokalisierer von Minima im Spektrum des [X.] in einem aktuellen Rahmen;

a locator of minima in the spectrum of [X.] in a current frame;

20.2.2 einen Schätzer eines spektralen Untergrunds, der die Minima miteinander verbindet; und

an estimator of a spectral floor which connects the minima with each other; and

20.2.3 einen Subtrahierer des geschätzten spektralen Untergrunds vom Spektrum, um ein aktuelles [X.] zu erzeugen.

a subtractor of the estimated spectral floor from the spectrum so as to produce the current residual spectrum.

21.5 Vorrichtung wie in einem der Ansprüche 19 oder 20 definiert, wobei der Be-rechner der Langzeit-Korrelationskarte umfasst:

A device as defined in [X.], wherein the calculator of the long-term correlation map comprises:

21.5.1 ein Filter zum Filtern der Korrelationskarte für jedes einzelne Frequenzbin; und

a filter for filtering the correlation map on a frequency bin by frequency bin basis; and

21.5.2 einen [X.] zum Summieren der gefilterten Korrelationskarte über die [X.], um eine summierte Langzeit-Korrelationskarte zu erzeugen.

an [X.] so as to produce a summed long-term correlation map.

Die Klägerin greift das erteilte [X.] im Umfang der Ansprüche 1, 2, 5, 19 bis 21 – und folgend alle von der Beklagten eingereichten geänderten Fassungen nach den [X.] – an und macht die Nichtigkeitsgründe der mangelnden ausführbaren [X.] und der fehlenden Patentfähigkeit geltend. Die Beklagte verteidigt das [X.] im angegriffenen Umfang in der erteilten Fassung sowie mit drei [X.] in geänderten Fassungen, weiter hilfsweise verteidigt sie die [X.], 5, 20 und 21 in der erteilten Fassung isoliert.

Nach Hilfsantrag 1 weisen die Ansprüche 1 und 19 gegenüber der erteilten Fassung nach dem Merkmal 1.2/19.2 jeweils das zusätzliche Merkmal 2.2.3:

durch Subtrahieren eines spektralen Untergrunds von einem Spektrum des [X.] in einem aktuellen Rahmen;

by subtracting a spectral floor from a spectrum of [X.] in a current frame;

Wegen der geänderten Anspruchsfassungen nach den [X.] 2 und 3 wird auf den Schriftsatz der Beklagten vom 28. Mai 2021 verwiesen.

Die Klägerin, die die wirksame Inanspruchnahme der [X.] u. a. deswegen verneint, weil in dieser der Aspekt der Tonalität nicht thematisiert werde, vertritt die Auffassung, dass das [X.] dem Fachmann keine Lehre liefere, wie sich durch die Merkmale der Ansprüche 1 und 19 eine Tonalität im Sinne einer Beziehung von Tonhöhen schätzen lasse. Der Beschreibung sei eine dahingehende Lehre nicht zu entnehmen, weil sie mit der tonalen Stabilität die Dauer der Tonhöhen betreffe. Die beiden Ausführungsbeispiele mit einem Verfahren zum Schätzen der tonalen Stabilität einerseits und einem Verfahren zum Schätzen der Tonalität andererseits stünden im Gegensatz zueinander, wobei das erste Ausführungsbeispiel nicht von den Ansprüchen 1 und 19 erfasst sei. Bei den Begriffen Tonalität und tonale Stabilität handele es sich nämlich um zwei Fachbegriffe mit unterschiedlicher Bedeutung. Die Merkmale 1.2 bis 1.5 bzw. 19.1 bis 19.5 der angegriffenen Ansprüche 1 und 19 mögen allenfalls dienlich sein, um die Dauer von Tönen festzustellen, was dem Fachmann jedoch nicht weiterhelfe, wenn die Tonalität eines [X.] zu schätzen sei. Darüber hinaus seien die Gegenstände der erteilten unabhängigen Ansprüche 1 und 19 ausgehend von der Schrift

[X.] [X.], M. J.: Structure out of Sound. [X.], 1993, S. 1 – 185

auch nicht patentfähig, nämlich weder neu noch beruhten sie auf erfinderischer Tätigkeit. Als weiteren Stand der Technik nennt die Klägerin u. a. die Schrift:

[X.] [X.], K. et. al.: Video Handling with Music and Speech Detection. [X.], vol. 5, no. 3, S. 17 – 25, 1998

Der in der [X.] gezeigte Musikdetektor unterscheide ebenso wie das [X.] Sprache und Musik auf der Grundlage eines Spektrogramms, welches die zeitliche Entwicklung der spektralen Information des Audiosignals trage, und basiere damit ebenfalls auf der Erkenntnis, dass bestimmte Musikstücke Töne enthielten, die über einen vergleichsweise langen Zeitraum eine konstante Frequenz aufwiesen.

Auch die abhängigen Ansprüche 2, 5, 20 und 21 könnten keine Patentfähigkeit begründen. So seien die Ansprüche 2 und 20 durch die Schrift [X.] bzw. durch das Wissen des Fachmanns nahegelegt, da sie nur eine der trivialen Spielarten von Basislinienkorrektur beschrieben, die dem Fachmann unter der Bezeichnung [X.] bekannt sei. Der Gegenstand der Ansprüche 5 und 21 sei nicht ausführbar offenbart, jedenfalls aus [X.] bekannt und dem Fachmann durch [X.] bzw. durch sein Fachwissen nahegelegt.

Der Hilfsantrag 1 sei unzulässig, weil das zusätzlich aufgenommene Merkmal in den Ansprüchen 1 und 19 nicht ursprünglich offenbart sei. Es vermöge aber auch nicht die Patentfähigkeit der Gegenstände nach Anspruch 1 und 19 zu begründen, weil es im üblichen Handeln des Fachmanns liege, die Grobstruktur des [X.]pektrums möglichst zu eliminieren, um die Feinstruktur freizustellen und es insoweit mithin an einer erfinderischen Tätigkeit fehle. Die [X.] und 3 seien ebenfalls unzulässig und unbegründet.

Der Senat hat den Parteien einen qualifizierten Hinweis vom 17. Februar 2021 und am 3. Dezember 2021 einen weiteren rechtlichen Hinweis erteilt.

Die Klägerin beantragt,

das [X.] Patent 2 162 880 im Umfang seiner Ansprüche 1, 2, 5, 19 bis 21 mit Wirkung für das Hoheitsgebiet der [X.] für nichtig zu erklären.

Die Beklagte beantragt,

die Klage abzuweisen,

hilfsweise die Klage mit der Maßgabe abzuweisen, dass das [X.] eine der Fassungen der angegriffenen Ansprüche 1, 2, 5, 19 bis 21 gemäß den [X.] 1 bis 3, eingereicht mit Schriftsatz vom 28. Mai 2021, erhält,

weiter hilfsweise die Klage abzuweisen, soweit sie sich gegen die angegriffenen Ansprüche 2, 5, 20 und 21 in der erteilten Fassung richtet.

Sie tritt der Auffassung der Klägerin in allen Punkten entgegen und meint, dass die Gegenstände der Ansprüche 1 und 19 sowohl ausführbar offenbart als auch patentfähig seien. Wie dem Gesamtinhalt der [X.]schrift zu entnehmen sei, handele es sich bei den darin verwendeten Begriffen tonale Stabilität und Tonalität um Synonyme, so dass bei [X.] Verständnis der Ansprüche 1 und 19 deren Ausführbarkeit nicht in Frage stehe. Entgegen der klägerischen Ansicht sei die Druckschrift [X.] auch nicht neuheitsschädlich, da es in dieser – anders als im [X.] – nicht um die Unterscheidung stimmloser Sprachsignale von Musiksignalen, sondern um die Unterscheidung stimmhafter Sprachsignale von Musiksignalen gehe. Auch stelle weder der Peak-Rahmen der [X.] das erfindungsgemäße [X.] nach Merkmal 1.2 dar, noch werde in der [X.] eine Korrelationskarte und eine Langzeitkorrelationskarte gemäß den Merkmalen 1.4 und 1.5 berechnet.

Ihr Verständnis des in der [X.] gezeigten Musikdetektors hat die Beklagte in der Anlage [X.] zum Ausdruck gebracht:

[X.] Funktionsweise der Funktion ,,music“ in [X.], eine Seite

Des Weiteren seien die Merkmale der Ansprüche 2 und 20, die Details der Berechnung des [X.]s angeben, entgegen der Auffassung der Klägerin aus der [X.] und [X.] nicht bekannt und durch diese Druckschriften auch nicht nahegelegt. Der Fachmann habe schließlich auch keine Veranlassung, die Druckschriften [X.] und [X.] miteinander zu kombinieren. Die Gegenstände der Ansprüche 5 und 21 seien ausführbar offenbart und sowohl neu als auch erfinderisch gegenüber [X.] und [X.].

Die Hilfsanträge 1 bis 3 seien zulässig, da die Änderungen beschränkend wirkten und in der ursprünglichen Anmeldung als zur Erfindung gehörend offenbart seien. Die Gegenstände der Ansprüche nach den [X.] seien auch patentfähig, da sie neu seien und auch auf erfinderischer Tätigkeit beruhten.

Wegen der weiteren Einzelheiten des Sach- und Streitstandes wird auf die Schriftsätze der Parteien nebst Anlagen und den weiteren Inhalt der Akte Bezug genommen.

Entscheidungsgründe

[X.], mit der die Nichtigkeitsgründe der mangelnden ausführbaren [X.] und der fehlenden Patentfähigkeit geltend gemacht werden (Art II § 6 Abs. 1 S. 1 Nr. 1, 2 [X.] [X.]. 138 Abs. 1 lit. a), b), Art. 54, Art 56 EPÜ), ist zulässig.

Sie ist insoweit begründet, als das Streitpatent im angegriffenen Umfang für nichtig zu erklären ist, soweit es über die von der [X.] beschränkt verteidigten Fassung nach Hilfsantrag 1 hinausgeht. Das Streitpatent erweist sich nämlich in der erteilten Fassung als nicht patentfähig. Dagegen ist das Streitpatent in der Fassung nach dem zulässigen Hilfsantrag 1 sowohl ausführbar offenbart als auch patentfähig, nämlich neu und zudem auf erfinderischer Tätigkeit beruhend. Die Klage ist daher insoweit unbegründet. Auf die weiteren Hilfsanträge kam es daher nicht mehr an.

I.

1. Das Streitpatent beschäftigt sich mit dem effizienten [X.]odieren von [X.]signalen. Die [X.] ([X.]) sei eine der besten Techniken, um einen guten Kompromiss zwischen subjektiver Qualität und Bitrate zu erzielen. Die quellengesteuerte bitratenvariable Sprachcodierung ([X.], Variable Bit Rate) erhöhe die [X.] signifikant, da in Abhängigkeit von der Art des Eingangssignals (stimmhaft, stimmlos, Übergang, Hintergrundrauschen) ein Signalklassifizierungsmodul für jeden Sprachrahmen das zugehörige optimierte [X.] bzw. Bitrate wähle. Die bei [X.] verwendeten Techniken Spracherkennungsdetektion ([X.], [X.]), diskontinuierliche Übertragung ([X.], Discontinuous Transmission) und Komfortrauscherzeugung ([X.]NG, [X.]omfort Noise Generation) reduzierten die durchschnittliche Bitrate deutlich ([X.]chrift, Abs. 3 – 6).

Der mit [X.] gut funktionierende [X.]-Algorithmus könne gravierende Probleme bereiten, wenn [X.] des [X.] versehentlich als stimmlose Signale oder als stabiles Hintergrundrauschen klassifiziert würden. Daher wäre es vorteilhaft, den [X.]-Algorithmus so zu erweitern, dass er [X.] besser von anderen Signalen unterscheiden könne. Das Streitpatent bezeichnet diese Erweiterung als [X.]signalerkennungsalgorithmus ([X.], [X.]), wobei [X.] sowohl Sprache als auch Musik oder jedes andere brauchbare Signal umfasse. Das [X.] bzw. Schätzen der Tonalität / der tonalen Stabilität erhöhe die Leistungsfähigkeit des [X.]-Algorithmus und könne auch in einem Super-Breitband [X.]odierer-Decodierer (codec) verwendet werden, um für Signale oberhalb von 7 kHz das richtige [X.] auszuwählen (Abs. 2, 6, 7-9, 97, 149).

Die bessere Differenzierbarkeit von Musik- und anderen Signalen soll erreicht werden mit den Gegenständen

- der unabhängigen Ansprüche 1 und 19, d. h. einem Verfahren und einer Vorrichtung zum Schätzen der Tonalität eines [X.],

-  der von den Ansprüchen 1 bzw. 19 abhängigen und nebengeordneten Ansprüchen 6 und 22, d. h. mit einem Verfahren und einer Vorrichtung zum Erkennen von [X.]aktivität in einem [X.]signal, wobei die Tonalitätsschätzung zur Unterscheidung eines Musiksignals von Hintergrundrauschen dient,

- der Ansprüche 11 und 23, d. h. mit einem Verfahren und einer Vorrichtung zum Klassifizieren eines [X.] mit dem Ziel, die [X.]odierung des [X.] zu optimieren, wobei die Tonalitätsschätzung eine Klassifizierung von [X.]n als stimmlose Sprachsignale verhindern soll, und

- der Ansprüche 14 und 25, d. h. mit einem Verfahren und einer Vorrichtung zum [X.]odieren eines höheren Bandes eines [X.] anhand einer Klassifizierung des [X.], wobei die Tonalitätsschätzung zum Einstufen des [X.] als tonales oder nicht tonales [X.]signal dient.

Die [X.]ur 5 des [X.] zeigt die Einbettung des Verfahrens zum Schätzen der Tonalität in den Prozess der Signalklassifizierung bei der Unterscheidung zwischen stimmloser Sprache und Musik:

Abbildung

[X.]. 5, mit Kommentierung und Kolorierung durch den Senat

Dabei ist die Tonalitätsschätzung nur ein Parameter von mehreren, die darüber entscheiden, ob ein Sprachrahmen mit stimmloser Sprache oder mit Musik vorliegt, wie aus der nachfolgend wiedergegebenen [X.]ur 6 ersichtlich:

Abbildung

zweimal linker Ausschnitt aus [X.]. 6, jeweils mit Kommentierung und Kolorierung durch den Senat

2. Als zuständigen Fachmann sieht der Senat einen Ingenieur der Elektro-, Nachrichten- oder Informationstechnik mit einem universitären Master oder Diplom an. Er hat mehrere Jahre Berufserfahrung auf dem Gebiet der Audiocodierung unter Berücksichtigung von Sprache und Musik in [X.]signalen.

3. Einige Merkmale bedürfen der Erläuterung:

a) Das Spektrum eines [X.] (Merkmal 2.2.3 des erteilten Anspruchs 2) hat in Abhängigkeit von dem [X.]signaltyp (Sprache (stimmhaft, stimmlos), Musik, sonstige Geräusche) unterschiedliche Gestalt. [X.] weisen regelmäßig Spektren auf, in denen bestimmte Signalanteile, die Töne, ihre Frequenz (position) und Form (shape) über eine gewisse Zeit beibehalten ([X.]chrift, Abs. 97; [X.], [X.] – 81, Abschnitt [X.]; [X.], [X.]. 2, 3).

In dem Ausführungsbeispiel des [X.] werden [X.] bzw. Breitband-[X.]signale mit 8 bzw. 16 kHz abgetastet, auf 12,8 kHz aufwärtsaufwärtsabgetastet bzw. dezimiert und quantisiert. Damit enthält ein als Rahmen (frame; Merkmal 2.2.1 des erteilten Anspruchs 2) bezeichneter, 20 ms langer, Zeitabschnitt 256 quantisierte Abtastwerte (samples). Zwei um 128 Abtastwerte verschobene und gefensterte Abschnitte ([X.]. 2) werden jeweils mittels einer schnellen Fouriertransformation ([X.], [X.]) in den Frequenzbereich transformiert und liefern zwei Spektren (Xspectral parameters) pro Rahmen (Abs. 17, 21, 22, 26, 36 - 42):

Abbildung

Aus den Real- und Imaginärteilen (XR,I(k)) der [X.] werden u. a. die normierte Energie für jede diskrete Frequenz (EBIN(k)) sowie das über jeweils zwei Spektralanalysen gemittelte logarithmische Energiespektrum des [X.] eines Rahmens (average log-energy spectrum; EdB(k)) im Sinne des Merkmals 2.2.3 des erteilten Anspruchs 2 bestimmt (Abs. 44, [X.]. (3), (4)):

Abbildung

b) Unter einem [X.] des [X.] nach Merkmal 1.2 versteht der Fachmann ein Spektrum, welches aus dem Spektrum des [X.] gewonnen ist und dessen lokal dominierende Frequenzanteile stärker hervortreten lässt, um deren zeitliche Stabilität besser beurteilen zu können. Dabei muss sich die Größe und Form der lokal dominierenden Signalanteile des ursprünglichen [X.]pektrums nicht exakt im [X.] widerspiegeln. Beispielsweise ist auch ein nur zweiwertiges Spektrum – „1“ (= Spitze) bei lokalen Maxima im Spektrum des [X.], „0“ sonst – als ein [X.] gemäß Merkmal 1.2 anzusehen. Auch ein solchermaßen vereinfachtes Spektrum liefert eine hinreichend genaue Aussage über die „Töne“, d. h. die lokal dominierenden Frequenzanteile des ursprünglichen Signalspektrums.

Aus der Eigenschaft „aktuell“ entnimmt der Fachmann, dass das [X.] durch Untersuchung eines aktuell untersuchten Zeitabschnitts des [X.] gewonnen wurde.

Nach dem insoweit nicht einschränkenden Ausführungsbeispiel des [X.] werden zur Berechnung des [X.]s in dem gemittelten logarithmischen Energiespektrum (EdB(k)) des [X.] eines Rahmens zunächst die lokalen Minima gesucht (Merkmal 2.2.1 des erteilten Anspruchs 2) und deren Indizes in einem Puffer (imin) gespeichert (Abs. 99, 100; [X.]. (30)):

Abbildung

Die Verbindung der lokalen Minima im Spektrum des [X.] mittels einer stückweise linearen Funktion liefert einen spektralen Untergrund (spectral floor, [X.](j); Merkmal 2.2.2 des erteilten Anspruchs 2), der von dem Energiespektrum des [X.] (EdB(k)) subtrahiert wird (Merkmal 2.2.3 des erteilten Anspruchs 2). Das Ergebnis ist das [X.] (residual spectrum, EdB, res; Abs. 101 – 103; [X.]. (32); [X.]. 3):

Abbildung

Abbildung

c) Große Werte im berechneten [X.] entsprechen lokal dominierenden Signalanteilen im Spektrum des [X.] und werden als „Spitzen“ (peaks; Merkmal 1.3) erkannt. Sie sind im Ausführungsbeispiel jeweils von zwei Minima begrenzt, die nicht zu den Spitzen gehören (Abs. 104). Eine Spitze des [X.]s kann somit mehrere benachbarte [X.] umfassen.

d) Zum Schätzen der Tonalität des [X.] werden fortlaufend [X.] berechnet. Ein Vergleich, im Sinne einer Korrelation, der erkannten Spitzen bzw. der zu den einzelnen Spitzen gehörenden [X.] des aktuellen [X.]s mit den entsprechenden [X.]n eines vorherigen [X.]s liefert eine „[X.]“ (correlation map) gemäß Merkmal 1.4. Vor dem Hintergrund der Gesamtoffenbarung des [X.] ergibt sich, dass nicht etwa für jede erkannte Spitze etwa für jede erkannte Spitze eine eigene [X.] berechnet wird, sondern dass für jedes neue (aktuelle) [X.] eine [X.] berechnet wird, die mindestens so viele Einträge (Werte) aufweist, wie Spitzen im aktuellen [X.] erkannt wurden.

Merkmal 1.4 schließt nicht aus, dass die [X.] auch für Frequenzen, die nicht zu einer „Spitze“ gehören, einen Eintrag aufweist. Für das vorstehend skizzierte zweiwertige [X.] kann eine gleichfalls zweiwertige [X.] so berechnet werden, dass sich bei einer Frequenz nur dann ein großer Korrelationswert ([X.] „1“) ergibt, wenn in zwei aufeinanderfolgenden [X.] der jeweilige [X.] gleich „1“ ist, also ein „Ton“ vorhanden ist. Bei allen anderen Kombinationen („1-0“, „0-1“, „0-0“) läge ein niedriger Korrelationswert vor ([X.] „0“).

Nach dem insoweit nicht einschränkenden Ausführungsbeispiel ist die [X.] (cor_map) eine Relation, die den zu einer Spitze gehörenden Frequenzen einen mittels des aktuellen (EdB, res(k)) und des vorherigen (EdB, res min = Anzahl der Minima im Spektrum des [X.]; imin = Puffer der Indizes der Minima, vgl. [X.]. (30)):

Abbildung

Der obere Teil der [X.]ur 4 der [X.]chrift zeigt die [X.] eines aktuellen (current frame) und eines vorhergehenden Rahmens (previous frame), der untere Teil der [X.]ur 4 die daraus errechnete [X.]:

Abbildung

[X.]. 4, mit Kolorierung und Kommentierung durch den Senat: [X.] zweier aufeinanderfolgender Rahmen und zugehörige [X.]

e) Gemäß Merkmal 1.5 wird, basierend auf der berechneten [X.], eine Langzeit-[X.] berechnet, die eine Tonalität des [X.] (Merkmale 1.1, 1.5) anzeigt. Während die [X.] eine Aussage über die Korrelation der Spitzen zweier (unmittelbar) aufeinanderfolgender [X.] liefert, berücksichtigt die Langzeit-[X.] somit mehr als zwei [X.], um eine (bessere) Aussage über die Dauer der einzelnen Töne, also über die tonale Stabilität treffen zu können. Die Werte der Langzeit-[X.] gemäß Merkmal 1.5 sind somit ein Maß für die zeitliche Stabilität der einzelnen spektralen Komponenten im [X.] und damit auch im Spektrum des ursprünglichen [X.]. Der Fachmann liest mit, dass die Langzeit-[X.] mit jedem neu berechneten [X.] bzw. jeder neu berechneten [X.] aktualisiert wird. Dabei ist dem Fachmann eine sogenannte exponentielle [X.]ättung der Form yn = α*yn-1 +(1-α)*xn bekannt, um aus den aktuellen Werten xn (der [X.]) und den vergangenen Werten yn-1, yn-2, …, yn-m (der Langzeit-[X.]) einen Schätzwert yn (der Langzeit-[X.]) zu gewinnen. In dem skizzierten Fall zweiwertiger [X.] und [X.]n ({0; 1}) ergibt sich mit exponentieller [X.]ättung eine Langzeit-[X.], deren Wertemenge (für 0 < α < 1) die reellen Zahlen zwischen Null und Eins sind.

Auch das Ausführungsbeispiel des [X.] verfährt so. Die Langzeit-[X.] (cor_map_LT) wird rekursiv wie folgt berechnet (Abs. 107, cor_map_LT(k) wird für alle k mit „0“ initialisiert; αmap = 0,9):

Abbildung

Der Fachmann liest mit, dass die [X.]eichung (34) wie folgt um einen Laufindex für die Rahmennummer n zu ergänzen ist:

cor_map_LT (k) = α map cor_map_LT (k) + (1 – α map )cor_map (k) (34*)

Somit ergeben sich die einzelnen Werte der [X.] durch fortlaufende Filterung der entsprechenden Werte der [X.]n mittels eines einpoligen Filters mit der Übertragungsfunktion Abbildung5.5.1 des erteilten Anspruchs 5), welches für 0 < αmap < 1 stabil ist. Ein Marker (cor_strong) wird auf Eins gesetzt, wenn einer der Werte der Langzeit-[X.] größer als 0,95 ist (Abs. 109), d. h., wenn ein Ton besonders lange andauert.

f) Nach dem Ausführungsbeispiel wird mit jedem neuen Rahmen eine neue Langzeit-[X.] berechnet. Durch Aufsummierung ihrer Werte über alle Frequenzen wird rahmenweise ein [X.] ([X.]) gebildet (Abs. 108) (Merkmal 5.5.2 des erteilten Anspruchs 5: Summieren der gefilterten [X.] über die [X.], um eine summierte Langzeit-[X.] zu erzeugen):

Abbildung

Die Entscheidung, ob Tonalität vorliegt oder nicht, wird anhand eines Vergleichs des [X.]s ([X.]) mit einem adaptiven Schwellwert ([X.]) getroffen, der auf einen Anfangswert gesetzt, mit jedem Rahmen aktualisiert (Abs. 110) und auf einen bestimmten Wertebereich begrenzt wird (Abs. 111).

Ein Parameter (tonal_stability) wird auf „Eins“ gesetzt, wenn der [X.] ([X.]), d. h. die summierte Langzeit-[X.], größer als der Schwellwert ([X.]) ist oder der Marker für besonders stabile ([X.] gesetzt ist (cor_strong = 1); anderenfalls hat der Parameter den Wert „Null“ (Abs. 112):

Abbildung

Das [X.]signal wird somit als „tonal“ eingeschätzt, wenn die aufeinanderfolgenden [X.] des [X.] einen nicht unerheblichen Anteil von zeitlich hinreichend stabilen [X.]n (Tönen) aufweisen und/oder wenn ein (oder mehrere) [X.](e) zeitlich sehr lange konstant bleiben (cor_strong = 1, vgl. Abs. 109).

g) Der Fachmann entnimmt dem Streitpatent, dass mit Tonalität (tonality; Ansprüche 1, 6, 11, 14 - 16, 19, 22, 23, 25 - 27; Abs. 2, 6, 9 - 12, 85, 148, 157) nichts Anderes gemeint ist als die tonale Stabilität eines [X.] (tonal stability; Anspruch 13; Abs. 70, 85, 92, 97, 98, 110, 112, 113, 115, 122, 139, 141, 143, 149).

Nach Ansicht der Klägerin handelt es sich dagegen um zwei Fachbegriffe mit unterschiedlicher Bedeutung. Unter Tonalität verstehe der Fachmann ein System hierarchischer Tonhöhenbeziehungen, während die tonale Stabilität ein Maß für die zeitliche [X.] der Töne sei.

Die Klägerin verweist u. a. auf den Anspruch 13, der den Begriff tonality mit dem unbestimmten Artikel einführe, obwohl Anspruch 13 auf Anspruch 11 rückbezogen und in letzterem der Begriff tonal stabilty bereits eingeführt sei. Somit werde beim Gegenstand des Anspruchs 13 zweifelsfrei zwischen [X.] und tonal stability im Kontext des Merkmals „classifying the active sound signal as an unvoiced speech signal“ unterschieden. Denn anderenfalls, also bei einer Auslegung der beiden Begrifflichkeiten als Synonyme, wären die zusätzlichen Merkmale des Anspruchs 13 teilweise redundant.

Diese Ansicht trifft nicht zu. Die nicht angegriffenen Ansprüche 11 und 13 lauten in der erteilten Fassung:

Abbildung

Anspruch 11 beschäftigt sich demnach mit der Klassifizierung eines [X.] als inaktives oder aktives [X.]signale und differenziert letzteres in ein nicht-stimmloses und bzw. stimmloses Sprachsignal. Um eine fehlerhafte Klassifizierung eines Musiksignals als stimmloses Sprachsignal zu verhindern, umfasst die Klassifizierung eines aktiven [X.] als stimmloses Sprachsignal das Schätzen einer Tonalität des [X.] gemäß einem der Ansprüche 1 bis 5. Da diese sich unstreitig mit der Schätzung der tonalen Stabilität eines [X.] beschäftigen, lässt (auch) der Anspruch 11 klar erkennen, dass die beiden Begriffe im Streitpatent synonym verwendet werden.

Der Anspruch 13 macht Angaben dazu, welche Größen in die in Anspruch 11 genannte Klassifizierung eines aktiven [X.] als stimmloses Sprachsignal eingehen können. Hierzu wird eine Entscheidungsregel berechnet, die nicht nur auf einer tonalen Stabilität, sondern alternativ oder zusätzlich auf weiteren Größen basiert (gemäß [X.]ur 6 und Abs. 139 – 144 gehen alle im Anspruch 13 genannten Größen und weitere ein), nämlich auf [X.], average spectral tilt measure, maximum short-time energy increase at increase at low level, tonal stability und relative frame energy.

Während Anspruch 11 mit der Schätzung der Tonalität im Sinne der tonalen Stabilität nur einen Teilaspekt der Klassifizierung eines Signals als stimmloses Sprachsignal herausgreift, liefert Anspruch 13 die vorstehend wiedergegebenen weiteren Kriterien.

Damit lassen auch die Ansprüche 11 und 13, vor dem Hintergrund der zugehörigen Beschreibung, erkennen, dass es stets um die Schätzung der tonalen tonalen Stabilität geht und nicht um die Bestimmung einer Tonalität in dem Sinne eines Systems hierarchischer „Tonhöhenbeziehung“. Eine Grundlage für eine solche Auslegung des Begriffs der Tonalität kann der Fachmann dem Streitpatent nicht entnehmen. Das Streitpatent bildet hier sein eigenes Lexikon ([X.], Urteil vom 2. März 1999 – [X.] – Spannschraube).

Die Klägerin ist weiter der Auffassung, nur das „erste“ Ausführungsbeispiel (Abs. 97 – 112) zeige die Bestimmung der tonalen Stabilität, während sich das „zweite“ Ausführungsbeispiel (Abs. 149 – 159) auf das Schätzen der Tonalität im Sinne einer tonalen Struktur, also einer strukturellen Beziehung zwischen Tonhöhen, beziehe.

Auch diese Ansicht trifft nicht zu. Das „zweite“ Ausführungsbeispiel möchte Rahmen mit starkem tonalen Inhalt bestimmen, um einen geeigneten [X.]odierer auszuwählen und bedient sich dazu der Analyse der tonalen Stabilität gemäß dem ersten Ausführungsbeispiel ([X.]: [X.]). Dabei werden zwar einzelne Verfahrensschritte abgeändert, etwa das Bestimmen des spektralen Untergrunds (Abs. 150 – 153), jedoch werden alle im erteilten Anspruch 1 genannten Verfahrensschritte durchgeführt, insbesondere das Berechnen eines [X.]s, einer [X.] und einer Langzeit-[X.] (Abs. 154 – 156). Aus letzterer bzw. aus der summierten Langzeit-[X.] ([X.]) wird – wie im ersten Ausführungsbeispiel – eine (binäre) Entscheidung über das Vorliegen einer Tonalität im Sinne der tonalen Stabilität getroffen (Abs. 157: [X.] in the present disclosure).

Mithin ist auch im „zweiten“ Beispiel keine Rede von der Bestimmung einer „Struktur von Tönen“ oder einer „strukturellen Beziehung zwischen Tonhöhen“. In diesem Zusammenhang spielt es auch keine Rolle, ob das Streitpatent die Priorität der [X.] wirksam in Anspruch nehmen kann oder – wie die Klägerin meint – dies nicht der Fall sei, weil das genannte „zweite“ Ausführungsbeispiel in der [X.] nicht enthalten sei.

II.

1. Hinsichtlich der angegriffenen Ansprüche 1 und 19 der erteilten Fassung des [X.] liegt der [X.] der fehlenden Patentfähigkeit vor (Art. 138 Abs. 1 lit. a) [X.]. 54 EPÜ [X.]. II § 6 Abs. 1 S. 1 Nr. 1 IntPatÜG).

Der Gegenstand des Anspruchs 1 erweist sich als nicht neu gegenüber dem aus der Dissertation Structure out of Sound von [X.] ([X.]) bekannten Verfahren.

a) [X.] beschäftigt sich u. a. mit dem Erkennen von Musik in Audiosignalen ([X.], [X.]. 1.1, Abs. 3: 2: [X.] in general soundstreams) mittels eines [X.]s (S. 78ff, [X.]. 2.3 A music detector). Dieser basiert auf der Erkenntnis, dass Musik, im Gegensatz zu Sprache, Töne enthält, die über einen vergleichsweise langen Zeitraum eine konstante Frequenz aufweisen ([X.], Abs. 2: music […] has […] notes with frequencies that remain relatively fixed for a finite period of time; [X.], Abs. 1: but unlike most music, [X.] in [X.].):

Abbildung

[X.], [X.]: mit vom Senat vorgenommenen Markierungen der [X.]

Die vorstehend wiedergegebene [X.]ur zeigt [X.]nspektren (Abszisse: Zeit, Ordinate: Frequenz, Schwärzung/Graustufen: [X.]) eines 13 Sekunden langen Ausschnitts eines Audiosignals (fsample =8 kHz; NSamples /Rahmen = 48; tRahmen = 6 ms; NRahmen in 13 s = 2167). In den rot umrahmten Zeitabschnitten zeigen die Spektren eine für Musik typische kammartige Struktur, d. h. einzelne (dominierende) Signalanteile weisen über mehrere Rahmen eine annähernd konstante Frequenz auf ([X.], Abs. 2 – [X.], Abs. 1).

Der [X.] ist als Filter (harmonic prediction filter) implementiert, dessen mehrere Rahmen umfassendes Analysefenster über die zeitlich aufeinanderfolgenden (Rahmen-)Spektren gleitet und dabei die Spitzen, also die ausgeprägten und zeitlich stabilen Frequenzen (Töne), sammelt. Nach jedem Weiterrücken des Analysefensters, d. h. nach jedem neu eingelesenen Rahmen, gibt der [X.] die durchschnittliche Dauer (in der Maßeinheit der Anzahl von Rahmen) der [X.] an. Dieser gleitende Mittelwert ist hoch für Musik und niedrig für Sprache, so dass – wie im Streitpatent – durch Vergleich mit einem geeignet gewählten Schwellwert festgestellt werden kann, welche Signalart vorliegt ([X.], Abs. 2):

Abbildung

[X.], [X.]

[X.] kommt zu der Erkenntnis, dass sich Sprache und Musik in Audiosignalen in dieser Hinsicht deutlich unterscheiden, wie auch das nachfolgend eingeblendete Histogramm zeigt. Dabei wurde die Grenze zwischen Sprache und Musik bei einer durchschnittlichen Spitzen-Dauer von 8,7 Rahmen definiert, d. h. Musik hat eine durchschnittliche Tondauer vor mehr als 52 ms (8,7*6 ms)):

Abbildung

[X.], [X.]: Histogramm; Abszisse: durchschnittliche Spitzen-Dauer in Rahmen

Damit zeigt [X.] ein Verfahren zum Schätzen der Tonalität, im Sinne der tonalen Stabilität, nach Merkmal 1.1, welches – wie das Verfahren nach Anspruch 1 des [X.] – dazu dient, Musik von Sprache zu unterscheiden.

b) [X.] realisiert den [X.] in Form eines in der Programmiersprache [X.] abgefassten [X.]. Nachfolgend eingeblendet ist ein Ausschnitt ([X.]), der u. a. die Programme [X.] und music zeigt:

Abbildung

[X.], [X.]

In dem Programm music wird durch den Aufruf des Programms Spectrum(m, h, s, n) aus den Abtastwerten s eines neuen Rahmens ein [X.]nspektrum m[i] als logarithmierter Betrag der Fourierkoeffizienten [X.]] gebildet ([X.], unten):

Abbildung

Danach werden mittels des Aufrufs des Programms [X.]([X.],n2) in dem [X.]nspektrum m[i] des neu eingelesen Rahmens die Spitzen, also die lokalen Maxima, detektiert. Hierzu werden die [X.] jeweils mit vier [X.] verglichen ([X.]: [X.] […] m[0] >= m[1] && m[0] > m[2] && m[0] >= [X.]] && m[0] > [X.]]) und liefern den sogenannten Spitzenrahmen (peak frame p[i]), dessen Einträge für die Frequenzen i, bei denen im [X.]nspektrum m[i] lokale Maxima vorliegen, den Wert „1“ ([X.] […] *p = 1) und sonst den Wert „0“ ([X.] […] bzero(p,…)) hat ([X.], letzter Absatz):

Abbildung

Abbildung

[X.], [X.]: Erzeugung von p[i] aus m[i]

Der aus den Spitzenrahmen p[i] gebildete Puffer P(t)[i] ([X.], #define P(n)) gibt an, bei welcher Frequenz i des Rahmens mit der Nr. t eine Spitze vorliegt. Während im ursprünglichen [X.]nspektrum m[i] des [X.] noch eine Vielzahl unterschiedlicher [X.]nwerte vorhanden ist, ist der daraus abgeleiteten Puffers P(t)[i] zweiwertig ([X.], Abs. 1).

Der Puffer [X.]] ist ein aktuelles [X.] des [X.] gemäß Merkmal 1.2, denn er ist ein Spektrum (für jede Frequenz i liefert [X.]] eine Aussage über die [X.], nämlich „1“ oder „0“), ist aus dem Spektrum m[i] des [X.] s des aktuellen Rahmens berechnet und lässt dessen dominierende Frequenzanteile, die lokalen Maxima, stärker hervortreten.

c) Da das aus [X.] bekannte [X.] [X.]] nur zweiwertig ist, sind auch automatisch seine Spitzen ([X.]] = 1) erkannt, wie von Merkmal 1.3 gefordert.

d) Der nachfolgend eingeblendete Abschnitt des Programms music ([X.]) zeigt die Bildung des gleitenden Mittelwerts ([X.]/[X.]) der durchschnittlichen Spitzendauer mittels einer for-Schleife und darin enthaltener if / else if-Abfrage:

Abbildung

Dabei wird ein Frequenzbereich von 150 - 1000 Hz ([X.] = 10 bis [X.] = 70) ausgewertet und es werden nur Spitzen (als Töne) gezählt, die mehr als drei (*[X.] > minRun = 3) und weniger als 42 aufeinanderfolgende Rahmen andauern (*[X.] < [X.] = [X.]/3 = 128/3) ([X.], Abs. 2; [X.]).

In den Speicherzellen, auf die die [X.] *[X.] zeigt, ist vor Beginn der for-Schleife für jede Frequenz die über die vorherigen Rahmen summierte Anzahl von unmittelbar aufeinanderfolgenden Spitzen gespeichert, während in der Speicherzelle, auf die *[X.] zeigt, im aktuellen Rahmen für jede Frequenz eine „1“ (Spitze) oder eine „0“ (keine Spitze) vorliegt. Mittels der über den auszuwertenden Frequenzbereich laufenden for-Schleife und der darin enthaltenen if-Abfrage wird zunächst für jede einzelne Frequenz überprüft, ob die drei Bedingungen *[X.] && *[X.] && *[X.] < [X.] erfüllt sind, wobei die if-Abfrage in der Programmiersprache [X.] streng von links nach rechts ausgewertet wird, d. h. bei [X.] der ersten Bedingung werden die weiteren Bedingungen nicht mehr geprüft. Die drei Bedingungen haben die folgende Bedeutung:

1. Lagen in dem vorherigen und ggfs. in noch älteren Rahmen Spitzen bei dieser Frequenz vor (*[X.])? Diese Bedingung ist nur dann wahr, wenn *[X.] ≠ 0, [X.] *[X.] = 7.

2. Liegt im aktuellen Rahmen eine Spitze bei der Frequenz vor (*[X.])? Diese Bedingung ist nur dann wahr, wenn *[X.] ≠ 0, also nur für *[X.] = 1.

3. Liegen in den vorherigen Rahmen weniger als [X.] aufeinanderfolgende Spitzen bei der Frequenz vor (*[X.] < MaxRun)?

Sind alle drei Bedingungen erfüllt, wird – für jede Frequenz – in der Speicherzelle, auf die die [X.] *[X.] zeigt, der neue [X.] der Spitzen gespeichert (*[X.] += *[X.]; im Beispiel: *[X.] =*[X.] + [X.] = 1 + 7 = 8) und die Speicherzelle, auf die die [X.] [X.] zeigt, auf „0“ gesetzt (*[X.] = 0).

Falls eine (oder mehrere) der Bedingungen nicht erfüllt ist (sind), da [X.] im aktuellen Rahmen bei der betrachteten Frequenz keine Spitze vorliegt (*[X.] = 0), wird im else-if-Zweig geprüft, ob die Anzahl der Spitzen in den vorigen Rahmen größer als der Wert minRun ist (*[X.] > minRun = 3). Ist dies der Fall (im Beispiel: *[X.] = 7), wird der Zähler [X.], der die Anzahl der Spitzen-Läufe angibt, um Eins ([X.]++) und der Zähler [X.], der die Gesamtzahl der Spitzen angibt, um den Wert der bis dahin aufgelaufenen Spitzen erhöht ([X.] += *[X.]).

Sind weder die drei Bedingungen des if-Zweigs, noch die Bedingung des else-if-Zweigs erfüllt, [X.] weil bei der betrachteten Frequenz im aktuellen Rahmen keine Spitze vorliegt (*[X.] = 0) und in den vorigen Rahmen nur drei Spitzen aufeinander folgten (*[X.] = 3), so werden weder die Speicherbereiche, auf die die [X.]n *[X.] und *[X.] zeigen, noch die Zähler [X.] und [X.] verändert.

Nach dem Ende der for-Schleife, also der Abarbeitung eines Rahmens, werden die in der [X.]n *[X.] gespeicherten Werte auf die [X.] *[X.] umgespeichert, so dass bei einem neu eingelesenen Rahmen die [X.] *[X.] auf das aktuelle [X.] verweist. Die vorstehend skizzierte Funktionsweise des [X.]s nach [X.] ergibt sich auch durch die von der [X.] in der mündlichen Verhandlung überreichten Anlage [X.] (vgl. dort insbesondere die Tabelle im mittleren Bereich der einzigen Seite).

e) Das Ergebnis der Überprüfung *[X.] && *[X.] ist bei einer Frequenz nur dann gleich „1“ (WAHR), wenn sowohl in dem vorherigen als auch im aktuellen [X.] bei dieser Frequenz eine Spitze vorlag bzw. vorliegt. Anderenfalls ergibt sich eine „0“ (FALS[X.]H). Damit liegt aber für jede Frequenz, also auch für die Frequenzen, bei denen im aktuellen Rahmen eine Spitze erkannt wurde, ein Korrelationswert vor („1“ oder „0“), so dass eine [X.] gemäß Merkmal 1.4 berechnet wird. Dabei hat es auf das Ergebnis der Überprüfung *[X.] && *[X.], also auf das Berechnen der [X.], keinen Einfluss, wie viele Spitzen in den Vorgängerrahmen vorlagen ([X.]: *[X.] = 7 oder *[X.] = 1), maßgeblich ist alleine, dass im (unmittelbar) vorherigen [X.] eine Spitze vorlag, dass also *[X.] ≠ 0 gilt.

f) Basierend auf dem Ergebnis der Überprüfung *[X.] && *[X.], d. h. basierend auf der berechneten [X.], wird mit der Anweisung *[X.] += *[X.] eine [X.] gemäß Merkmal 1.5 berechnet, denn für jede Frequenz gibt der Speicher, auf den die [X.] *[X.], bzw. *[X.] nach erfolgtem Umspeichern, zeigt (vgl. [X.], Tabelle, Spalte 2 zeigt Inhalt von *[X.] nach Übernahme des Werte von *[X.], Spalte 3 zeigt Inhalt von *[X.] vor Übergabe nach *[X.]), an, über wie viele Rahmen eine Spitze vorhanden ist, was zweifelsfrei eine Tonalität anzeigt, wie von Merkmal 1.5 gefordert. Dies gilt auch in den Fällen, in denen bei einer Frequenz zwar in den vorherigen Rahmen keine (*[X.] = 0), im aktuellen Rahmen jedoch eine Spitze (*[X.] = 1) vorliegt. Denn auch dann gibt der Speicher, auf den die [X.] *[X.] bzw. *[X.] zeigt, an, für wie viele Rahmen eine Spitze vorliegt – in diesem Fall ein Rahmen.

Nach alledem zeigt [X.] ein Verfahren zum Schätzen der Tonalität gemäß Anspruch 1 des [X.]. Entsprechendes gilt für den Vorrichtungsanspruch 19.

2. Der Hilfsantrag 1 ist zulässig. Die Fassung des [X.] im angegriffenen Umfang nach Hilfsantrag 1 vom 28. Mai 2021 verteidigt die Beklagte erfolgreich.

Hilfsantrag 1 ergänzt im Anspruch 1 ein Merkmal aus dem erteilten Anspruch 2 (Unterschiede zwischen Merkmal 2.2.3

1.2 Berechnen eines aktuellen [X.]s des [X.];

calculating a current residual spectrum of the sound signal;

2.2.3durch Subtrahieren eines des geschätzten spektralen Untergrunds von einem vom Spektrum des [X.] in einem im aktuellen Rahmen; , um so das aktuelle [X.] zu erzeugen

by subtracting a the estimated spectral floor from a the spectrum of the sound signal in a the current frame ; so as to produce the current residual spectrum.

a) Nach Merkmal 2.2.3spektraler Untergrund vom dem Spektrum des [X.] in einem aktuellen Rahmen subtrahiert wird. Der Untergrund (floor) bzw. Untergrenze eines Spektrums ist – jedenfalls lokal – kleiner als der kleinste [X.], da anderenfalls durch die Subtraktion negative Werte im [X.] auftreten würden. Der spektrale Untergrund muss nicht – wie im Ausführungsbeispiel nach [X.]ur 3 bzw. nach dem erteilten Anspruch 2 – lokal an das Spektrum angepasst sein. Vielmehr könnte er im betrachteten Frequenzbereich, nach Art eines Rauschbodens, konstant sein. Dem Fachmann ist bewusst, dass die Anzahl und die Frequenzen der [X.] des [X.] und des spektralen Untergrunds gleich sein müssen, um eine Subtraktion der einzelnen [X.] voneinander zu ermöglichen.

b) Der Anspruch 1 nach Hilfsantrag 1 geht nicht über den Inhalt der Anmeldung in der ursprünglichen Fassung hinaus Das zusätzliche Merkmal 2.2.3

- calculating a spectral floor (through a spectral floor estimator for example ) and subtracting it from the spectrum (via a suitable subtractor for example). (S. 32, [X.] 14 – 16)

- the spectral floor is subtracted from the spectrum using the following relation: E dB,res (j) = E dB (j) - [X.](j) j = 0, …, N SPE[X.] – 1 (32) and the result is called the residual spectrum ([X.], [X.] 4 – 9)

Der Fachmann hat der Anmeldung als zur Erfindung gehörend entnommen, dass ein [X.] des [X.] durch Subtrahieren eines spektralen Untergrunds von dem Spektrum des [X.] gewonnen wird. Die exakte Vorgehensweise zur Berechnung des spektralen Untergrunds ist von untergeordneter Bedeutung. Die Gewinnung des spektralen Untergrunds nach allen Merkmalen des erteilten Anspruchs 2, also auch searching for minima … und [X.] ist für den Fachmann nur eine von mehreren denkbaren Ausgestaltungen. Darüber hinaus lehrt auch das Streitpatent eine andere Möglichkeit zur Bestimmung des spektralen Untergrunds (Abs. 150 – 153; Anspruch 15). Insofern trifft die Auffassung der Klägerin nicht zu, es sei nur das Subtrahieren eines solchen spektralen Untergrunds (floor) ursprünglich offenbart, der durch die abschnittsweise Verbindung benachbarter Minima durch Linien gebildet wird.

c) Die Ansprüche nach Hilfsantrag 1 sind deutlich und knapp gefasst und von der Beschreibung gestützt (Art. 84 EPÜ).

In der mündlichen Verhandlung hat die Klägerin erstmals geltend gemacht, der Gegenstand des Anspruchs 1 nach Hilfsantrag 1 erfülle nicht die Anforderungen nach Art. 84 EPÜ, weil gemäß Merkmal 2.2.3

Abgesehen davon, dass das Merkmal 2.2.3dB(k)) des [X.] in einem aktuellen Rahmen zu berechnen (Abs. 27, 37 – 39, 44 - 46, [X.]. 2 und insbesondere Abs. 44, [X.]. (4)), von dem dann der spektrale Untergrund subtrahiert wird, um ein aktuelles [X.] des [X.] zu erhalten (Abs. 103, [X.]. (32)).

d) Das Streitpatent offenbart die Erfindung so deutlich und vollständig, dass ein Fachmann sie ausführen kann (Art. II § 6 Abs. 1 Nr. 2 [X.], Art. 138 Abs. 1 lit b EPÜ).

Nach Ansicht der Klägerin offenbart das Streitpatent nicht, wie die Tonalität eines [X.] zu schätzen sei. Vielmehr beschäftige es sich ausschließlich mit dem Schätzen der tonalen Stabilität. Letzteres trifft – wie zur Auslegung dargelegt – zwar zu. Da das Streitpatent die beiden Begriffe jedoch synonym [X.] tonalen Stabilität verwendet, offenbart das Streitpatent die Erfindung, also das Schätzen der Tonalität, so deutlich und vollständig, dass ein Fachmann sie ausführen kann. Die hierzu erforderlichen einzelnen Verfahrensschritte sind in dem Streitpatent detailliert beschrieben und ermöglichen dem Fachmann so die Nacharbeitung der Erfindung.

e) In der Fassung nach Hilfsantrag 1 erweist sich das Streitpatent als patentpatentfähig (Art. 138 Abs. 1 Buchstabe a) [X.]. 54 EPÜ [X.]. II § 6 Abs. 1 S. 1 Nr. 1 [X.]).

(i) Der Anspruch 1 nach Hilfsantrag 1 ist neu gegenüber [X.] ([X.]).

Die Merkmale 1.1 bis 1.5 sind zwar – wie zum Hauptantrag dargelegt – aus [X.] bekannt. Das Berechnen eines aktuellen [X.]s des [X.] (Merkmal 1.2) findet bei [X.] jedoch nicht durch das Subtrahieren eines spektralen Untergrunds von einem Spektrum des [X.] in einem aktuellen Rahmen statt (nicht Merkmal 2.2.3

[X.] berechnet aus den Abtastwerten s des [X.] eines aktuellen Rahmens die [X.] [X.]] und bestimmt daraus mittels der Beziehung m[i] = log|[X.]]| ein logarithmisches [X.]nspektrum ([X.], letzter Absatz; [X.]: Programme Spectrum(m, h, s, n), [X.](h, n, s, n)). Mittels des Programms [X.] werden sodann die lokalen Maxima in dem [X.]nspektrum m[i] bestimmt und in dem „Spitzenrahmen“ (peak frame) p[i] wird gespeichert, bei welchen Frequenzen ein lokales Maximum vorliegt ([X.]: p[i] =1 if m[i] is a local maximum (in i), [X.]). Damit ist – wie zum Hauptantrag dargelegt – das aktuelle [X.] des [X.] berechnet (Merkmal 1.2) und dessen Spitzen (p[i] = 1) erkannt (Merkmal 1.3), hierfür wurde jedoch kein spektraler Untergrund von dem Spektrum des [X.] subtrahiert. Merkmal 2.2.3

(ii) Der Anspruch 1 nach Hilfsantrag 1 ist neu gegenüber [X.] ([X.]).

[X.] schlägt vor, Videomaterial anhand von [X.] zu indexieren, um einem Benutzer einen schnellen Zugang zu bestimmten Szenen zu ermöglichen (S. 17, re. [X.], Abs. 2; [X.], re. [X.], Abs. 3). Eine Audiosignalanalyse unterscheidet zwischen Musik und Sprache (S. 17, re. [X.], Abs. 2, letzter Satz), basiert auf der Dissertation von [X.] ([X.], re. [X.], Abs. 4; S. 25, li. [X.], Quelle [X.]) und wandelt diese insofern ab, als dass ein Kantendetektions-Algorithmus zur Ermittlung der Spitzen, also der lokalen Maxima, im Spektrum verwendet wird ([X.], re. [X.], Abs. 4).

[X.] berechnet rahmenweise (alle 64 ms) Spektren des [X.] ([X.], li. [X.], Abs. 1) und behandelt diese als Graustufenbilder, in welchen mittels eines Kantendetektionsoperators anhand der Helligkeit der Pixel die Spitzen verortet werden ([X.], li. [X.], letzter Abs.; Merkmale 1.2 und 1.3). Die Kanten-Intensität der Spitzen wird durch Vergleich der Intensitäten der in Frequenzrichtung benachbarten Pixel ermittelt ([X.], re. [X.], Satz 1). Die Kanten-Intensitäten bei einer diskreten Frequenz werden über eine Vielzahl von Rahmen ([X.] für eine oder eine halbe Sekunde) summiert. Die nachfolgende Summation dieser Werte in der Frequenzrichtung liefert die Gesamt-Kanten-Intensität, die bei [X.]n hoch ist ([X.], re. [X.], Abs. 1, 2). Damit offenbart [X.] zwar ein Verfahren zum Schätzen der Tonalität eines [X.] (Merkmal 1.1) und berechnet eine Größe (Gesamt-Kanten-Intensität), die eine Tonalität im [X.]signal anzeigt (Teil des Merkmals 1.5). Die Summationen in Zeit- und Frequenzrichtung realisieren jedoch weder das Berechnen einer [X.] noch einer [X.] (nicht Merkmale 1.4 und 1.5).

[X.] zeigt auch nicht das Subtrahieren eines spektralen Untergrunds von einem Spektrum des [X.] in einem aktuellen Rahmen gemäß Merkmal 2.2.3

(iii) Der Anspruch 1 nach Hilfsantrag 1 beruht auch auf einer erfinderischen Tätigkeit.

Nach Ansicht der Klägerin lese der Fachmann bei [X.] mit bzw. es ergebe sich für ihn in naheliegender Weise, dass von dem Spektrum m[i] des [X.] ein spektraler Untergrund abgezogen werde. Denn anderenfalls würde der Hintergrund in denen das Spektrum darstellenden Graustufenbildern ([X.], [X.] – 83) einen Helligkeitsverlauf zeigen, der den Kontrast der Spitzen bei weitem übersteige. Dann wären die hohen Frequenzen nicht zu erkennen, da bei Sprach- und [X.]n die unteren Frequenzbereiche regelmäßig wesentlich größere [X.]n aufwiesen als die oberen. Ohne Subtraktion eines frequenzabhängigen spektralen Untergrunds müsste der Hintergrund bei unteren Frequenzen um ein Mehrfaches dunkler sein als die Spitzen bei hohen Frequenzen.

Dies trifft aus mehreren Gründen nicht zu. Zum einen zeigen die Graustufenbilder eine deutliche Zunahme der Schwärzung des Hintergrunds zu tieferen Frequenzen ([X.]), was dagegen spricht, dass ein spektraler Untergrund abgezogen wurde. Zum anderen dienen die Graustufenbilder in [X.] lediglich der Illustration der spektralen Unterschiede zwischen Musik- und [X.]. Der Fachmann kann [X.] nicht entnehmen, dass die Graustufenbilder in einem Zusammenhang mit der den [X.] realisierenden Software stehen. Deren Aufbau ist auf den Seiten 82 und 176 angegeben. Dort finden sich keine Programme oder Programmteile, die eine Subtraktion eines spektralen Untergrunds von dem Spektrum des [X.] realisieren würden.

Hinzu kommt, dass [X.] die spektrale Analyse in dem Musikfilter auf den Frequenzbereich zwischen 150 und 1000 Hz beschränkt ([X.], Abs. 2, Satz 2), so dass die von der Klägerin angeführten großen Dynamikunterschiede zwischen unterem und oberem Frequenzbereich des [X.]pektrums ohnehin nicht vorhanden sind.

Weiter ist zu beachten, dass [X.] das [X.] p[i] aus dem logarithmischen [X.]nspektrum m[i] des [X.] durch Suche der lokalen Maxima gewinnt. Die for-Schleife der Funktion [X.] ([X.], [X.]) durchläuft den Frequenzbereich von [X.] bis [X.], und die if-Abfrage prüft, ob ein [X.] größer oder gleich als seine unmittelbaren und größer als seine übernächsten Nachbarwerte ist. Ist dies der Fall, wird ein lokales Maximum festgestellt (*p = 1) und drei Frequenzen weiter gesprungen (i += 3, m += 3, p += 3). Wird kein lokales Maximum festgestellt, wird die Prüfung mit dem unmittelbar benachbarten [X.] fortgesetzt (else-Zweig: [X.], [X.], p++).

Der Fachmann erkennt, dass die Anzahl der Vergleiche mit [X.] zum einen so groß ist (zwei Vergleiche wäre das Minimum, vier Vergleiche werden durchgeführt), dass kleine rauschartige Spitzen nicht versehentlich als lokale Maxima erkannt werden, zum anderen aber so klein ist, dass lokale Maxima auch dann noch erkannt werden, wenn die Grobstruktur des Spektrums in dem relevanten Bereich relativ steil ansteigt oder abfällt.

Damit präsentiert [X.] eine in sich geschlossene und gut funktionierende ([X.], [X.], vorletzter Abs.: 2 errors per hour) Lösung für das Berechnen eines aktuellen [X.]s des [X.] und liefert dem Fachmann somit keinen Anlass, eine „Begradigung“ des [X.]pektrums durch Subtrahieren eines spektralen Untergrunds in Betracht zu ziehen.

Auch [X.] vermag dem Fachmann keine Hinweise in dieser Richtung zu geben, da aus [X.] das Subtrahieren eines spektralen Untergrunds ebenfalls nicht bekannt ist.

(iv) Die vorstehenden Ausführungen zu Anspruch 1 des [X.] gelten in entsprechender Weise für den Vorrichtungsanspruch 19, der sich damit ebenfalls als neu und als auf einer erfinderischen Tätigkeit beruhend erweist. Auch die übrigen angegriffenen Ansprüche nach Hilfsantrag 1 erfüllen die an sie zu stellenden Anforderungen.

III.

Die Kostenentscheidung beruht auf § 84 Abs. 2 [X.] i. V. m. § 92 Abs. 1 ZPO. Die ausgeurteilte Kostenquote entspricht dem Anteil des Obsiegens und Unterliegens der Parteien. Da der wirtschaftliche Wert, der dem Streitpatent aufgrund des nach Hilfsantrag 1 als schutzfähig verbleibenden Patentgegenstands gegenüber der erteilten Fassung zukommt, nur um einen relativ geringen Teil reduziert ist, ist das Unterliegen der Klägerin mit 90 % und dementsprechend das der [X.] mit 10 % zu bewerten.

Die Entscheidung über die vorläufige Vollstreckbarkeit folgt aus § 99 Abs. 1 [X.] i. V. m. § 709 S. 1 und S. 2 ZPO.

Meta

4 Ni 10/21 (EP)

06.12.2021

Bundespatentgericht 4. Senat

Urteil

Sachgebiet: Ni

nachgehend BGH, 16. Januar 2024, Az: X ZR 14/22, Urteil

Art II § 6 Abs 1 Nr 1 IntPatÜbkG, Art II § 6 Abs 1 Nr 2 IntPatÜbkG, Art 54 EuPatÜbk, Art 56 EuPatÜbk, Art 138 Abs 1 Buchst a EuPatÜbk, Art 138 Abs 1 Buchst b EuPatÜbk

Zitier­vorschlag: Bundespatentgericht, Urteil vom 06.12.2021, Az. 4 Ni 10/21 (EP) (REWIS RS 2021, 10238)

Papier­fundstellen: REWIS RS 2021, 10238


Verfahrensgang

Der Verfahrensgang wurde anhand in unserer Datenbank vorhandener Rechtsprechung automatisch erkannt. Möglicherweise ist er unvollständig.

Az. 4 Ni 10/21 (EP)

Bundespatentgericht, 4 Ni 10/21 (EP), 06.12.2021.

Bundespatentgericht, 4 Ni 10/21 (EP), 06.12.2021.


Az. X ZR 14/22

Bundesgerichtshof, X ZR 14/22, 16.01.2024.


Auf dem Handy öffnen Auf Mobilgerät öffnen.


Die hier dargestellten Entscheidungen sind möglicherweise nicht rechtskräftig oder wurden bereits in höheren Instanzen abgeändert.

Ähnliche Entscheidungen

X ZR 14/22 (Bundesgerichtshof)


4 Ni 11/21 (EP), verb. mit 4 Ni 28/22 (EP (Bundespatentgericht)

Patentnichtigkeitssache - "Verfahren, Codierer und Decodierer zur linearen prädiktiven Codierung und Decodierung von Tonsignalen beim …


X ZR 119/20 (Bundesgerichtshof)


6 Ni 30/17 (EP) (Bundespatentgericht)

Patentnichtigkeitsklageverfahren – "Verfahren zum Codieren eines Audiosignals (europäisches Patent)" – zur Frage der Patentfähigkeit


2 Ni 10/21 (EP) (Bundespatentgericht)

Wirkungslosigkeit dieser Entscheidung.


Referenzen
Wird zitiert von

Keine Referenz gefunden.

Zitiert

Keine Referenz gefunden.

Zitieren mit Quelle:
x

Schnellsuche

Suchen Sie z.B.: "13 BGB" oder "I ZR 228/19". Die Suche ist auf schnelles Navigieren optimiert. Erstes Ergebnis mit Enter aufrufen.
Für die Volltextsuche in Urteilen klicken Sie bitte hier.