TRAITÉ
de
PHYSIQUE DE LA MUSIQUE

1. Les signaux périodiques

Un signal périodique quelconque se décompose en une somme infinie de ses harmoniques entiers 0, 1, 2, 3, 4,... appelée série des harmoniques ou série de Fourier du célèbre mathématicien français Joseph Fourier (Auxerre 1768 - Paris 1830). L'harmonique 0 correspond à la composante continue de fréquence nulle. L'harmonique 1 est dit " harmonique fondamental ". La série des harmoniques d'un signal périodique de fréquence w est :

f(t)    =     a0
              + a1 * sin(2π*(α1 + w*t))
              + a2 * sin(2π*(α2 + 2*w*t))
              + a3 * sin(2π*(α3 + 3*w*t))
              ...
              + an * sin(2π*(αn + n*w*t))
              ...

f(t) : Valeur du signal à l'instant t, exprimée en volt.
a1 * sin(2π*(α1 + w*t))
: Harmonique 1 ou harmonique fondamental de fréquence w.
a2 * sin(2π*(α2 + 2*w*t))
: Harmonique 2 de fréquence 2*w.
an * sin(2π*(αn + n*w*t)) : Harmonique n de fréquence n*w.

t
: Temps exprimé en seconde.
w
: Fréquence du signal périodique, fréquence de l'harmonique fondamental exprimée en hertz.
n
: Numéro de l'harmonique.
a0 : Composante continue
a1
: Amplitude du premier harmonique exprimée en volt.
α1
: Phase du premier harmonique exprimée en tour.
an
: Amplitude du n-ième harmonique exprimée en volt.
αn
: Phase du n-ième harmonique exprimée en tour.

Le facteur est placé dans chaque fonction sinus afin d'exprimer la fréqence w en hertz (tour par seconde), le temps t en seconde, et les phases αn en tour. Le signal possède une unité selon sa nature. Il peut s'agire d'un signal électrique exprimé en volt. Par convention nous exprimons la fréquence en hertz et le temps en seconde. La période exprimée en seconde s'obtient en prenant l'inverse de la fréquence exprimée en hertz.

Un signal périodique possède une période T et se répète donc à l'identique après chaque intervalle de temps T. Un tel signal se décompose en une série d'harmoniques. Sa période T est égale à la période de l'harmonique fondamental. La fréquence étant l'inverse de la période, nous avons T = 1/w.

Si le signal ne dure qu'un temps T, alors il n'est plus périodique. On le rend périodique en le répétantà l'identique après chaque intervalle de temps T. On peut alors le décomposer en une série d'harmoniques, dite série de Fourier. La fréquence de l'harmonique fondamental est alors égale à l'inverse de la durée du signal w = 1/T.

Dans le cas d'un signal sinusoïdal pur de fréquence f limité sur une durée T, on rend le signal périodique en le répètant à l'identique après chaque intervalle de temps T, et on en calcul sa série de Fourier. On remarque alors que la fréquence de l'harmonique fondamental n'est pas f mais 1/T, et que l'harmonique le plus important est le multiple de 1/T le plus proche de f. En prenant T suffisament grand, la fréquence de l'harmonique fondamental w = 1/T devient très petite, et notre signal sinusoïdal pur sera transcrit dans cette série de Fourier comme un harmonique trés élevé de w. Mais il reste toujours une incertitude sur la fréquence f de ce signal valant ± w/2 ou ± 1/(2*T).

Le théorème de l'échantillonnage découvert par C.E.Shannon, ingénieur américain (1916-2001) dit :
Un signal qui ne contient pas de composantes de fréquences supérieures ou égales à une valeur fmax, est entièrement déterminé par la suite de ses valeurs à des instants régulièrements espacés par la demie période de la fréquence fmax, soit régulièrements espacés de la durée 1/(2*fmax).

Autrement dit, un signal ne contenant pas de fréquence supérieure ou égale à fmax peut être échantillonné à la fréquence 2*fmax sans qu'il n'y est aucune perte d'information.

L'oreille ne perçoit pas les sons de fréquences supérieurs à 20000 Hz. Nous pouvons donc retirer ces composantes de fréquences, puis échantillonner ces signaux à 44100 Hz (un standard communément rencontré), et utiliser les outils discrets, convolution, transformation de Fourrier, transformation en Z…, décrits dans l'excellent ouvrage du Professeur Bellanger.

M. Bellanger "Traitement numérique du signal", 7ème édition, Dunod, 2002
P.Destuynder & F.Santi "Analyse et contrôle numérique du signal", Ellipses, 2003

2. La transformée de Fourier discrète (TFD)

Un signal possède à chaque instant une valeur, sa dérivée, sa dérivée seconde, etc., Mais dans la pratique il n'est pas commun de mesurer cette suite des dérivées, et je ne sais pas dans quelle mesure cela est techniquement possible. Le signal se caractérise à un instant précis par sa valeur, et il est difficile de mesurer d'autres caractéristiques tel que ses dérivées à partir de ce seul instant précis. Pour découvrire le spectre du signal, il faut donc considérer un intervalle de temps plus long T. Cet intervalle de temps définie une sorte d'échelle dans laquelle se situe l'observateur. La portion de signal analysée est rendue périodique en la répétant à chaque intervalle de temps T. Elle peut alors être remplacée par sa série de Fourier, que l'on tronque à partir de 20000 Hz, les fréquences au delà étant inaudibles pour l'oreille humaine.

Le tronquage de la série de Fourier à partir de 20000 Hz, va enlever toutes les composantes de fréquences supérieurs à 20000 Hz.

Dans la pratique les signaux sont échantillonnés à la fréquence F = 44100 Hz. Cet échantillonnage est sans perte si les signaux ne comprennent pas de composante de fréquence supérieur à F/2 = 22050 Hz. Le signal échantillonné à la fréquence F est la suite des N valeurs du signal aux instants 0, 1/F, 2/F, 3/F..., (N-1)/F, soit une valeur à peu près toutes les 23 µs. Les deux paramètres pertinents pour définire un échantillonnage sont la fréquence d'échantillonnage F et le nombre d'échantillons N.

Le signal analysé est rendu périodique en le répétant à chaque intervalle de temps T=N/F c'est à dire après chaque série de N échantillons. Dés lors, le signal s'apparente à une suite périodique.

On définit un langage pour manipuler ces suites pérodiques et découvrire les sructures mathématiques sous-jacentes. La résolution des problèmes tient en grande partie dans leurs formulations à l'aide de langages cohérents et pertinents. Le langage formel permet la programmation et donc l'expérimentation. Cela donne à l'utilisateur final la possibilité de vérifier l'intégrité d'une traduction ou d'une copie d'une théorie, en vérifiant expérimentalement les invariants de la théorie sur quelques cas au hasard, et selon une méthodologie intuitionniste, où la charge de la preuve partielle revient à l'utilisateur final.

Pour procéder à ces expérimentations on utilise un logiciel de calcul formel. Le logiciel MuPad est pratique pour cela. Malheureusement ce logiciel a été privatisé il y a une dixaine d'années, Il est possible de récupérer sur internet en cherchant bien une version 4-0-6 du logiciel juste avant que celui-ci ne devienne exclusivement commercial sous un autre nom avec un générateur de codes pyratés. Remercions les pirates qui ont ainsi oeuvré au bien commun en redonnant au public un outils bien pratique pour appréhender le calcule scientifique, et qui ont redonné par la même occasion aux développeurs et théoriciens à la base de ce projet de recherche de l'Université de Paderborn leurs noblesses malencontreusement dévoyées par des intérêts commerciaux illégitimes. En effet on ne peut se permettre de privatiser un bien qui appartient à tous, tel un théorème ou une preuve, et cela est valable aussi pour les logiciels dont le développement s'appuit pour l'essentiel sur des techniques et des connaissances publiques et sur la recherche publique. Si vous ne souhaiter pas violer les règles du copyrigth et que vous préfériez participer à un projet vivant, vous pouvez vous rabattre sur scilab, axiom, etc., qui sont libres, open-source et en évolution. Rappelez-vous que la quête scientifique n'a de vertu que si elle est démocratique.

2.1 Suite périodique

Par convention, on note une suite périodique par la liste de ses valeurs sur une période mise entre crochet <>. Par exemple <1,2,3> désigne le signal 1,2,3,1,2,3,1,2,3..., Par exemple nous pouvons écrire :

<1,2> = <1,2,1,2,1,2,1,2>

<2,0,5> = <2,0,5,2,0,5>

<5> = <5,5>

On accède aux valeurs du signal par un appel fonctionnelle avec comme paramètre la position entière commençant par zéro. Par exemple, si S = <1,2,3> alors S(0)=1 , S(1)=2 , S(2)=3 et comme la suite est périodique S(3)=1, S(4)=2, etc.. Par exemple, nous pouvons écrire :

<1,2,3>(0) = 1

<4,5,6>(1) = 5

<1,2,3>(-1) = 3

On enrichie la structure des suites périodiques en adjoignant à chaque suite, une mesure dont la taille est déterminé par ce que contient la représentation et qui est nécessairement un multiple de la période. Et on note cette suite périodique mesurée par la liste de ses valeurs sur une mesure mise entre parenthèse ( ), sachant que la mesure est necessairement un multilple de la période. Par exemple (1,2,1,2) désignera le signal 1,2,1,2,1,2,1,2..., avec une mesure (période de référence) de 4 alors que la période est de 2. La suite périodique mesurée (1,2,1,2) se distingue de (1,2,1,2,1,2) par la mesure de 4 pour l'un et de 6 pour l'autre. Les suites périodiques sans mesure sont notées entre crochets <>, et les suites périodiques avec mesure sont notées entre parenthèse ( ).

On enrichie encore la structure des suites périodiques en adjoignant à chaque suite une fréquence d'échantillonnage comme un tempo, que l'on met en premier séparé par le symbôle " | ". Ainsi (F | x, y, z) désigne une succession de valeurs à des instants précis ; à l'instant 0 la valeur est x, à l'instant 1/F la valeur est y, à l'instant 2/F la valeur est z. Et le signal est périodique, c'est à dire que à l'instant 3/F la valeur est x, à l'instant 4/F la valeur est y, etc.. Chaque valeur est espacée d'un intervalle de temps 1/F.

On accède à la valeur de la fréquence et à la valeur de la mesure du signal par les appels aux attributs "Freq" et "Mesure" comme dans un langage de programmation object. Par exemple, posons S = (5|2,0,4). C'est une suite fréquencée 5 et mesurée 3. Nous avons S.Freq=5 et S.Mesure = 3 et S(0)=2, S(1)=0, S(2)=4, S(3)=2, S(-1)=4, etc..

2.2 Echantillonnage

Etant donné un signal f(t)t représente le temps en seconde. On définit l'opération d'échantillonnage de fréquence F de N échantillons, par la fonction suivante :

Echantillonnage(f,F,N) = (F| f(0), f(1/F) , f(2/F), f(3/F)..., f((N-1)/F))

L'échantillonnage est une suite périodique fréquencée F et mesuré N. Le signal analysé est rendu périodique en le répétant à chaque intervalle de temps T=N/F (par copiage et collage). Ce faisant, le signal f est alors de période T et l'échantillonnage est de période N.

S = Echantillonnage(f,F,N)

S =  (F| S(0), S(1), S(2), S(3)..., S(N-1))

S(k) = f(k/F) pour k entier.

Le signal f est de période T. Nous avons f(t) = f(t mod T) pour tout t réel.
La suite S est de période N. Nous avons S(k) = S(k mod N) pour tout k entier.

N = F*T

S(0) : Valeur du signal à l'instant 0
S(1)
: Valeur du signal à l'instant 1/F
S(2)
: Valeur du signal à l'instant 2/F
S(k)
: Valeur du signal à l'instant k/F
S(N-1)
: Valeur du signal à l'instant (N-1)/F

t
: Temps en seconde
k
: Numéro de l'échantillon correspondant à l'instant t=k/F
N
: Nombre d'échantillons.
T : Période du signal.
F : Fréquence de l'échantillonnage.

2.3 La transformée de Fourier discrète (TFD)

La transformée de Fourier discrète permet de calculer le spectre du signal, c'est à dire une description du signal par ses composantes de fréquences. La Transformée de Fourier discrète de la suite S = (F| S(0), S(1), S(2), S(3)..., S(N-1)) est la suite S+ = (N/F | S+(0), S+(1), S+(2)..., S+(N-1)) défini comme suit :

S = (F| S(0), S(1), S(2), S(3)..., S(N-1))

S+(ν) = sum(S(k)*exp(2πi*ν*k/N), k=0..N-1) / sqrt(N)

S+(ν)   =   (     S(0)
                    + S(1) * exp(2πi*ν*1/N)
                    + S(2) * exp(2πi*ν*2/N)
                    + S(3) * exp(2πi*ν*3/N)
                    ...
                    + S(n) * exp(2πi*ν*n/N)
                    ...
                    + S(N-1) * exp(2πi*ν*(N-1)/N)     ) / sqrt(N)

S+.Freq = N/F
S+.Mesure = N

Noter que S et S+ sont des suites périodique fréquencée et mesurée, et que S est composée de valeurs réelles tandis que S+ est composé de valeur complexes.

La suite S+ ainsi définie est bien périodique. Nous avons en effet :

S+(ν+N) = sum(S(k)*exp(2πi*(ν+N)*k/N), k=0..N-1) / sqrt(N)
S+(ν+N) = sum(S(k)*exp(2πi*ν*k/N + 2πi*k), k=0..N-1) / sqrt(N)
S+(ν+N) = sum(S(k)*exp(2πi*ν*k/N)*exp(2πi*k), k=0..N-1) / sqrt(N)
S+(ν+N) = sum(S(k)*exp(2πi*ν*k/N), k=0..N-1) / sqrt(N)

car exp(2πi*k)=1 lorsque k est entier.

Cette transformation est déjà remarquable par cette propriété de périodicité. Mais ce qu'il y a d'encore plus étonnant est que la transformation inverse se calcule presque pareillement. Elle s'obtient en changeant simplement le signe dans l'expression exponentielle.

Posons une suite périodique fréquencée et mesurée S = (F| S(0), S(1), S(2), S(3)..., S(N-1)).

La transformée de Fourier discrète de S se note TFD(S) ou simplement S+ :

S = (F| S(0), S(1), S(2), S(3)..., S(N-1))
S+(ν) = sum(S(k)*exp(2πi*ν*k/N), k=0..N-1) / sqrt(N)
S+.Freq = N/F
S+.Mesure = N

La transformée de Fourier discrète inverse de S se note TFD-1(S) ou simplement S- :

S = (F| S(0), S(1), S(2), S(3)..., S(N-1))
S-(u) = sum(S(k)*exp(-2πi*u*k/N), k=0..N-1) / sqrt(N)
S-.Freq = N/F
S-.Mesure = N

Avant d'expliquer la signification des termes de la suite TFD(S), Nous allons d'abord explorer les nombreuses propriétées remarquables, car ces propriétés à elles seuls permettront de donner un sense précis aux termes de la suite TFD(S). Nous commençons par décrire une technique d'interpolation en fréquence simple à mettre en oeuvre.

2.4 L'interpolation en fréquence

Le principe de cette interpolation consiste à déterminer les différentes composante de fréquences qui compose le signal grace à la TFD. Le passage entre la TFD d'un signal S et la série des harmoniques du signal S, sera décrite plus loin dans notre exposé. Mais il est déjà possible de mettre en oeuvre cette interpolation en effectuant sur la suite TFD(S) un remplissage par des zéros dit "zéro padding" et en effectuant la TFD inverse.

On échantillonne le signal à la fréquence F sur N échantillons. Puis on calcule la TFD. On complète la suite obtenue en insérant après chaqu'une de ses valeurs, x zéros en même nombre, comme par exemple :

(1,2,3) --> (1,0,0,2,0,0,3,0,0)

ce qui change la mesure à (1+x)*N. On a ainsi changer d'échelle en ne gardant que les seuls composantes de fréquences du signal telles qu'elles nous ont été dévoilées par la TFD. Il ne reste alors plus qu'à prendre la TFD inverse pour obtenir le signal initial interpollé en fréquence avec une définition plus grande de (1+x)*N valeurs, c'est à dire avec une fréquence d'échantillonnage plus grande égale à F*(1+x).

Cette interpollation n'est pas une approximation. Le calcul est exacte s'il n'existe pas de composante de fréquence supérieures à la demi fréquence de l'échantillonnage initial F/2. Et c'est justement cette condition qui explique pourquoi les termes rajoutés dans la suite TFD(S) sont nuls.

Cette méthode de remplissage par des zéros dite de "zéro padding" permet de recalculer le signal initial avec un échantillonnage (1+x) fois plus fin, c'est à dire avec une fréquence d'échantillonnage (1+x) fois plus grande.

 

F. Castanié "Panorama des Méthodes en Traitement du Signal", cours, 1998


3. De la nature des signaux

Le signal électrique se transforme en un signal sonore par le biais d'un interface appelé haut-parleur, qui est un composant électronique linéaire passif. Il opère une transformation linéaire sur le signal et plus précisement il applique un spectre d'absorbtion sur le signal qui a pour effet, pour chaque harmonique, de multiplier son pôle par un complexe de norme inférieur ou égale à 1, réduisant ainsi son amplitude et modifiant sa phase.

Dans un cas simplifié, le haut-parleur se comporte comme une résistance R et le signal est considéré d'impédance nulle. Le signal électrique impose son voltage U(t) au borne du haut-parleur exprimé en volt (V). Le courant qui circule I(t) s'exprime en ampère (A) c'est à dire en Coulomb par seconde (C/s). La loi de Joule affirme que U(t) = R*I(t). La résistance R s'exprime en ohm (Ω). La puissance électrique instantanée absorbée par le haut parleur P(t) est égale à I(t)*U(t) et s'exprime en joule par seconde (J/s) c'est à dire en watt (W). Nous avons donc P(t) = U(t)^2 / R. On en déduit que la puissance est proportionnelle au carré du signal. Cette propriétée est une conséquence de la linéarité du système électronique.

Une grandeur physique dont le carré est proportionnel à une puissance est appelée grandeur de champ. Ainsi la valeur du signal est une grandeur de champ et non une grandeur de puissance.

Une fraction de cette énergie est transformée en chaleur, le reste est transformée en signal sonore. Ce signal sonore est une pression exprimée en pascal. La linéarité est toujours présente, et on peut décomposer tout son comme une somme de sons sinusoïdaux purs. Toutes les règles précédentes s'appliquent, seul les unités ont changées, passant du potentiel électrique exprimé en volt à une pression exprimée en pascal.


4. Le bel

La loi de Weber-Fechner affirme que la sensation varie proportionnellement au logarithme de l'excitation : Sensation = k*log(Excitation). Mais la base du logarithme qui correspond au facteur de proportionnalité reste une inconnue.

L'expérience nous montre que la sensation physiologique du volume sonore double lorsque la puissance (la quantité d'énergie transportée par seconde) du signal sonore est multipliée par 10. Le chiffre est évidement trés approximatif et le fait que ce chiffre soit égale à 10 n'est qu'une pure coïncidence, fruit de l'expérimentation.

" En pratique, cela signifie que si un chef d'orchestre veut doubler la sensation du volume sonore, il devra multiplier le nombre de musiciens par 10 " Fred Borzeix

De ces deux constats, Alexander Graham Bell (3 mars 1847 à Édimbourg en Écosse - 2 août 1922 à Baddeck au Canada), ingénieur britannique d'origine écossaise naturalisé canadien en 1882, (connu pour l'invention du téléphone), définie une unité qui porte son nom, le bel (noté B), mesurant la variation de la puissance sonore correspondant au doublement de la sensation physiologique du volume sonore :

v = log(P2/P1)

v : variation exprimée en bel
P1: puissance du signal en entré exprimée en watt
P2 : puissance du signal en sorti exprimée en watt
log : Logarithme en base 10

Une variation d'un bel correspond au doublement de la sensation physiologique du volume sonore, et cela correspond à une augmentation de la puissance du signal (débit d'énergie du signal) par 10. Une diminution d'un bel correspond à une division par 2 de la sensation physiologique du volume sonore, et cela correspond à une division par 10 de la puissance du signal.

La puissance étant proportionnel au carré du signal, le bel se définie également avec un facteur 2 en fonction de la variation de la valeur du signal :

v = 2*log(U2/U1)

v : variation exprimée en bel
U1: valeur du signal en entré exprimée en volt
U2 : valeur du signal en sorti exprimée en volt
log : Logarithme en base 10

Pour doubler la sensation sonore, c'est à dire augmenter d'un bel, il faut multiplier par 10 la puissance du signal exprimée en watt, c'est à dire multiplier par 10^(1/2) = 3,16 la valeur du signal exprimée en volt.

Dans la pratique on utilise le décibel (noté dB), 1/10 de bel. L'échelle étant logarithmique, une variation d'un décibel correpond à la multiplication de la puissance par 10^(1/10) = 1.26 et correspond à la mutliplication du signal par 10^(1/20) = 1.12

x = 10 * log(P2/P1)
x = 20 * log(U2/U1)

x : variation exprimée en décibel
P1: puissance du signal en entré exprimée en watt
P2 : puissance du signal en sorti exprimée en watt
U1: valeur du signal en entré exprimée en volt
U2 : valeur du signal en sorti exprimée en volt
log : Logarithme en base 10

Le décibel coincïde à peu près à la plus petite variation discernable par l'oreille humaine. 10 dB = 1 B

Le bel et le décibel sont des échelles logarithmiques c'est à dire qu'ils représentent une notation additive pour des variations multiplicatives de la puissance du signal ou de la valeur du signal :

Facteur multiplicatif
de la puissance
Facteur multiplicatif
du signal
10 B
10^10
10000000000
10^(10/2)
100000
5 B
10^5
100000
10^(5/2)
320
2 B
10^2
100
10^(2/2)
10
1 B
10
10
10^(1/2)
3.2
6 db
10^(6/10)
4
10^(6/20)
2
5 db
10^(5/10)
3.2
10^(5/20)
1.8
2 db
10^(2/10)
1.6
10^(2/20)
1.3
1 db
10^(1/10)
1.3
10^(1/20)
1.1
0
1
1
1
1
-1 db
10^(-1/10)
0.79
10^(-1/20)
0.89
-2 db
10^(-2/10)
0.63
10^(-2/20)
0.79
-5 db
10^(-5/10)
0.32
10^(-5/20)
0.56
-6 db
10^(-6/10)
0.25
10^(6/20)
0.5
-1 B
10^(-1)
0.1
10^(-1/2)
0.32
-2 B
10^(-2)
0.01
10^(-2/2)
0.1
-5 B
10^(-5)
0.00001
10^(-5/2)
0.0032
-10 B
10^(-10)
0.0000000001
10^(-10/2)
0.00001

Les variations s'ajoutent et les facteurs multiplicatifs se multiplient. Par exemple, ajouter +1 dB, puis +5 dB, puis +1 B correspond à une augmentation de 1dB + 5dB + 10dB = 16 dB. Et cela correspond aussi à la multiplication de la puissance par 1.3 * 3.2 * 10 = 41.6, et cela correspond aussi à la multiplication du signal par 1.1 * 1.8 * 3.2 = 6.4

Ajouter 1 B correspond à multiplier la puissance par 10 ou à multiplier le signal par 10^(1/2). Ajouter 1 dB correspond à multiplier la puissance par 10^(1/10) ou à multiplier le signal par 10^(1/20). Diminuer de 1 B correspond à diviser la puissance par 10 ou à diviser le signal par 10^(1/2). Diminuer de 1 dB correspond à diviser la puissance par 10^(1/10) ou à diviser le signal par 10^(1/20)

On remarquera que la multiplication par deux du signal correspond à une variation de +20*log(2) dB c'est à dire à peu près à une variation de +6 db.

5. Le néper

Une autre unité, le néper (noté Np), est utilisée en dehors de toutes considération physiologique pour exprimer le logarithme néperien d'un rapport de même espèce. On choisie la base néperienne du logarithme, c'est la base e, car elle est la seule a présenter les propriétés mathématiques remarquables suivantes :

ln(ex)=x
d(ex)/dx=ex
d(ln(x))/dx=1/x

Plus précisement, le néper est utilisé pour exprimer un rapport de signal dans une echelle logarithmique néperienne, tandis que le bel est utilisé pour exprimer un rapport de puissance dans une echelle logaritmique de base 10. Et d'autre part nous savons que dans un système linéaire, le rapport de puissance est égale au carré du rapport de signal.

Une variation de +1 B désigne une multiplication par 10 de la puissance, et donc désigne une multiplication par sqrt(10) du signal.

Une variation de +1 Np désigne une multiplication du signal par e=2.718, et donc désigne une multiplication par e2=7.389 de la puissance.

Un changement de système d'unités de base ne modifie pas les rapports puisque ceux-ci sont sans unités, et donc ne modifie pas le néper ni le bel.

x = ln(U2/U1)

x : variation exprimée en neper
U1: valeur du signal en entré exprimée en volt
U2 : valeur du signal en sorti exprimée en volt
ln : Logarithme néperien

Le rapport de puissance étant égale au carré du rapport de signal, un néper est proche d'un bel. Nous avons :

1 Np = 0.869 B

Le doublement de la sensation physiologique du volume sonore est une notion trés subjective donc difficilement appréhendable objectivement. Et on peut se demander si la valeur du doublement de cette sensation ne correspondrait pas en faite au néper, ce qui donnerait une explication mathématique à ce critère physiologique.

6. Le décibel Sound Pressure Level (dBSPL) et le décibel Sound Intensity Level (dBSIL)

Le décibel peut être défini de façon absolue en fixant la valeur du signal ou de la puissance correspondant à zéro décibel, sachant que dans un système linéaire la puissance est proportionnelle au carré du signal.

On rend l'unité absolue en spécifiant la valeur au dénominateur du rapport. Par exemple on notera B(1mW) l'unité d'une puissance en bel relative à 1 milliwatt :

x B(1mW) = log(x/1mW)

x : Niveau d'énergie dans une echelle logarithmique.
log : Logarithme en base 10.
mW : Unité, le milli watt.
B(1mW) : Unité, le bel relatif à 1 milli watt.


-4 B(10mW) -3 B(1mW) 1 µW
-3 B(10mW) -2 B(1mW) 0.01 mW
-2 B(10mW) -1 B(1mW) 0.1 mW
-1 B(10mW) 0 B(1mW) 1 mW
0 B(10mW) 1 B(1mW) 10 mW
1 B(10mW) 2 B(1mW) 100 mW
2 B(10mW) 3 B(1mW) 1 W

Le signal sonore se manifeste dans l'air sous forme d'un champ de pression. La pression est exprimée en pascal (noté Pa). C'est une force par unité de surface : Pa = N/m² = kg/(m*s²). La puissance qui traverse un élément de surface s'appelle l'intensité du son, et est proportionnelle au carré du signal de pression. L'intensité du son s'exprime en W/m²

On fixe le zéro dBSPL à 20 micro pascal. Et on fixe le zéro dBSIL à 1 pico watt par mètre carré.

Le facteur de proportionnalité entre le carré du signal de pression et l'intensité du son dépend du milieu. Mais le plus souvent, le dBSPL sera équivalent au dBSIL.

Le fonctionnement simultané de dix instruments équivalents, multiplie par 10 l'énergie acoustique reçue par les tympans. La puissance est ainsi multiplier par 10 et le niveau sonore est augmenté d'un bel. cela correspond à un doublement de la sensation auditive. Le bruit est ressenti comme deux fois plus fort. Il ne faut pas confondre la puissance acoustique exprimée en watt et le niveau de la sensation sonore exprimée en bel ou en décibel.

7. Domaine des fréquences et amplitudes audibles


8. Sommation de plusieurs signaux

Lorsque trois signaux s'ajoutent nous obtenons l'équation suivante :

S(t) = S1(t) + S2(t) + S3(t)

S1(t) : valeur du premier signal à l'instant t, exprimée en volt.
S2(t) : valeur du second signal à l'instant t, exprimée en volt.
S3(t) : valeur du troisième signal à l'instant t, exprimée en volt.
S(t) : valeur du signal résultant à l'instant t, exprimée en volt.

Leurs puissances instantanée (proportionelles au carré du signal) ne s'ajoutent pas à cause des produits croisées :

P(t) = k*(S1(t) + S2(t) + S3(t))2
P(t) = k*(S1(t)2 + S2(t)2 + S3(t)2 + 2*S1(t)*S2(t) + 2S1(t)*S3(t) + 2*S2(t)*S3(t))
P(t) = P1(t) + P2(t) + P13(t) + 2*k*(S1(t)*S2(t) + S1(t)*S3(t) + S2(t)*S3(t))

P1(t) : puissance instantané du premier signal à l'instant t, exprimée en watt.
P2(t) : puissance instantané du second signal à l'instant t, exprimée en watt.
P3(t) : puissance instantané du troisième signal à l'instant t, exprimée en watt.
P(t) : puissance instantané du signal résultant à l'instant t, exprimée en watt.

Mais si les signaux sont indépendants, en intégrant sur un intervalle de temps suffisament grand t = 0..T, les produits croisés auront une intégrale nulle (moyenne nulle). Les puissances intégrées divisées par T constituent les puisssances moyennes. Donc si les signaux sont indépendants, leurs puissances moyennes s'ajoutent :

P1 = int(P1(t), t=0..T) / T
P2 = int(P2(t), t=0..T) / T
P3 = int(P3(t), t=0..T) / T
P   = int( P(t), t=0..T) / T

P = P1 + P2 + P3

P1 : puissance moyenne du premier signal exprimée en watt.
P2
: puissance moyenne du second signal exprimée en watt.
P3
: puissance moyenne du troisième signal exprimée en watt.
P : puissance moyenne du signal résultant exprimée en watt.

Les niveaux de puissance des signaux temporisés sur un période T sont exprimés en bell et s'obtiennent en prenant le logarithme en base 10 de la puissance moyenne sur la période T, relativement à une puissance de référence que l'on peut fixer à 1W par exemple :

L1 = log(P1 / 1W)                  P1 = 10L1 W
L2 = log(P2 / 1W)                  P2 = 10L2 W
L3 = log(P3 / 1W)                  P3 = 10L3 W

L = log(P / 1W)

L = log((P1+P2+P3) / 1W)

L = log( 10L1 + 10L2 + 10L3 )

L1 : niveau de puissance du premier signal, et exprimée en bel au dessus de 1 watt.
L2 : niveau de puissance du second son, et exprimée en bel au dessus de 1 watt..
L3 : niveau de puissance du troisième son, et exprimée en bel au dessus de 1 watt..
L : niveau de puissance du signale résultant, et exprimée en bel au dessus de 1 watt.

Noter que si on ajoute deux sons dont la différence dépasse 10 dB, le niveau sonore résultant est pratiquement égal au plus grand des deux. Autrement dit, la superposition d'un son de 80 dB et d'un autre son de 90 dB, et s'ils sont indépendant (pas de frange d'interférence) alors le son résultant est encore approximativement de 90 dB.


9. Loi physiologique fondamentale sur la perception des rapports de fréquence et de l'absence de fréquence absolue

L'expérience montre que l'impression ressentie à l'audition d'un accord de deux sons dépend du seul rapport des fréquences entre ces deux sons. Par exemple en augmentant la vitesse d'écoulement du temps, les deux sons deviennent plus aiguës, les fréquences des deux sons augmentent proportionnellement, et leur rapport reste constant. Cet accord conserve à l'audition une qualité invariable quel que soit l'accroissement proportionnel des deux fréquences. La nature musicale d'un accord n'est pas changée lorsque on multiplie toutes les fréquences présentes par une même constante quelconque. Autrement dit, la nature musicale d'un accord est invariante par translation dans une échelle logarithmique des fréquences. Une telle translation est appelée transposition.

L'oreille est capable de discerner une fréquence absolue mais selon d'autres règles que ceux de l'harmonie musicale. Il n'y a pas de fréquence absolue identifiée par les règles d'harmonie que nous cherchons à découvrir.

" La nature a fait que nous avons une perception logarithmique des fréquences acoustiques c'est-à-dire que nous sommes sensibles au rapport des fréquences entre deux sons et non à leur différence. " Gilles Bannay

H.Bouasse "Bases physiques de la Musique", Gauthier-Villars, 1906 [§5]

10. Le timbre et la non perception des phases

Le timbre d'un son est déterminé par l'amplitude de ses harmoniques, et non par leurs phases. En effet, l'oreille qui est composée de multiples organes résonateurs ne perçoit pas la phase d'un signal sonore (d'après Helmholtz). Elle perçoit bien la phase d'un rythme mais non d'un son. Aussi les règles d'harmonie des rythmes sont de nature différente des règles d'harmonie des sons.

11. Les différences entre son et rythme

La différence entre un rythme et un son, tient dans le fait qu'ils ne sont pas dans la même échelle de temps. La fréquence d'un rythme est beaucoup plus petite que celle d'un son, et se traduit par une variation périodique de l'enveloppe du son. Les domaines de perception des fréquences des sons et des rythmes sont différents. Lorsque le rythme devient trop rapide il s'apparente à un son et perd sa qualitée de rythme, sauf lorsque celui-ci possède des sous-rythmes de fréquences plus basses qui prennent alors le relais. De même, lorsque le son est de très basse fréquence, ses qualités musicales deviennent indiscernables de celles des fréquences voisines, sauf lorsque celui-ci possède des harmoniques de fréquences plus élevées qui prennent alors le relais.

12. Les harmoniques virtuels

L'oreille est composé d'organes résonateurs avec un trés fort ammortissement, qui nous permet de distinguer une répétition trés rapide d'un même son. Donc l'oreille est composé d'organes résonateurs non linéaires : Lorsque deux sons purs de fréquences p et q excitent l'oreille, celle-ci engendre tous les harmoniques (d'après Helmholtz) :

Les harmoniques 1 de fréquences : p, q
Les harmoniques 2 de fréquences : 2p, 2q, p+q, |p-q|
Les harmoniques 3 de fréquences : 3p, 3q, 2p+q, 2q+p, |2p-q|, |2q-p|
...

Ces harmoniques sont dit virtuels puisque non nécessairement présent dans le son. Lorsque la source est linéaire, c'est à dire lorsque chacune de ses composantes est émise par un résonateur pur linéaire, aucun harmonique combiné n'est créé.

Il existe néanmoins des modulations d'amplitude. Car la somme de deux signaux sinusoïdaux de fréquence p et q équivaut à un signale sinusoïdal de fréquence égale à la moyenne (p+q)/2, multiplié (ou modulé) par un signal sinusoïdale de fréquence égale à la demi-différence |p-q|/2. Et les battements perçus sont 2 fois plus rapide que la modulation car les battements décomptent des ventres et donc les demi-périodes. Ce faisant, les battements traduisent les écarts de fréquences |p-q|.

Les battements ne sont pas des harmoniques et n'apparaissent pas dans le spectre des fréquences. Néanmoins si la source linéaire ne crée pas les harmoniques correspondants aux battements, l'oreille les crée.

La perception des battements est de nature différente de la perception des rapports de fréquence. Elle est de même nature que la perception des rithmes, et semble contredire le point §9. Mais malgrés cela, si nous multiplions les deux fréquences par une constante k quelconque, les harmoniques virtuels qui sont créés sont également multipliés par k (et les battements également). La sensation musicale basée sur les rapports croisés des fréquences et de leurs harmoniques est donc invariante par transposition puisque ces rapports restent constants par transposition.


13. Loi des cordes vibrantes

La fréquence de résonance d'une corde est donnée par la formule suivante :

w = l * sqrt( P*g / p) / 2

w : Fréquence de résonance de la corde en hertz
g : Accélération de pesanteur en m/s
P : Poids tenseur en Kg
p : Poids de la corde par mètre en Kg/m
l : Longueur de la corde en mètre

H.Bouasse Bases physiques de la Musique, Gauthier-Villars, 1906 [§4]

14. Déplacement Doppler

Ce déplacement en fréquence appelé, effet Doppler, porte le nom de son inventeur, le physicien autrichien Johann Christian Doppler (Salzbourg, 1803 - Venise, 1853).

Si la source du son se déplace en se rapprochant ou en s'éloignant de l'auditeur fixe, avec une vitesse V, celui-ci perçoit le son avec une fréquence respectivement plus haute ou plus basse. La fréquence perçue est :

w' = w / ( 1 - V/c)

w' : Fréquence du son réceptionné par l'auditeur.
w : Fréquence du son émit par la source.
V : Vitesse de rapprochement de la source sonore vers l'auditeur fixe.
c : Vitesse du son (dans l'air = 340 m/s, dans l'eau = 4 m/s)

Si c'est l'auditeur qui se déplace en se rapprochant ou en s'éloignant de la source fixe, avec une vitesse V, celui-ci perçoit le son avec une fréquence respectivement plus haute ou plus basse. La fréquence perçue est :

w' = w * ( 1 + V/c)

w' : Fréquence du son réceptionné par l'auditeur.
w : Fréquence du son émit par la source.
V : Vitesse de rapprochement de l'auditeur vers la source sonore fixe.
c : Vitesse du son (dans l'air = 340 m/s, dans l'eau = 4 m/s)


Si la vitesse de la source sonore est petite par rapport à la vitesse du son. La première formule devient approximativement identique à la seconde formule, qui devient alors valable pour une vitesse V de rapprochement relatif entre la source et l'auditeur. Le déplacement Doppler multiplie alors toutes les fréquences des sons émis par la source, par une même constante approximativement égale à (1+V/c). Les qualités des accords entres sons ne seront donc pas affectée.

Berkeley mécanique " cours de physique volume 1" [§10]

Chapitre suivant : "Les intervalles"

Dominique Mabboux-Stromberg (mai 2013)