Transkription (musik) - Transcription (music)

Ett JS Bach-tangentbordsstycke transkriberat för gitarr.

I musik är transkription den praxis att notera ett stycke eller ett ljud som tidigare var obemärkt och / eller opopulärt som en skriven musik, till exempel en jazzimprovisation eller ett videospelljudspår . När en musiker har till uppgift att skapa noter från en inspelning och de skriver ner noterna som utgör stycket i musiknotation , sägs det att de skapade en musikalisk transkription av inspelningen. Transkription kan också innebära att man skriver om ett musikstycke, antingen solo eller ensemble , för ett annat instrument eller andra instrument än vad det ursprungligen var avsett. Den Beethoven Symphonies transkriberas för solopiano av Franz Liszt är ett exempel. Transkription i denna mening kallas ibland arrangemang , även om transkriptioner strängt taget är trogna anpassningar, medan arrangemang förändrar viktiga aspekter av originalstycket.

Ytterligare exempel på transkription av musik inkluderar etnomusikologisk notering av muntliga traditioner av folkmusik, såsom Béla Bartóks och Ralph Vaughan Williams samlingar av den nationella folkmusiken i Ungern respektive England . Den franska kompositören Olivier Messiaen transkriberade fågelsång i naturen och införlivade den i många av hans kompositioner, till exempel hans Catalog d'oiseaux för solo piano. Transkription av denna typ innefattar skalningsigenkänning och harmonisk analys, vilka båda kommer att behöva relativ eller perfekt tonhöjd för att utföra.

I populärmusik och rock finns det två former av transkription. Enskilda artister kopierar en gitarrsolong eller en annan melodisk linje. Musikförlag transkriberar också hela inspelningar av gitarrsolo och baslinjer och säljer noterna i bundna böcker. Musikförlag publicerar också PVG (piano / sång / gitarr) transkriptioner av populärmusik, där melodilinjen transkriberas, och sedan ackompanjemanget på inspelningen ordnas som en pianostämma. PVG-etikettens gitarraspekt uppnås genom gitarrackord skrivna ovanför melodin. Texter ingår också under melodin.

Anpassning

Vissa kompositörer har hyllat andra kompositörer genom att skapa "identiska" versioner av de tidigare kompositörernas stycken samtidigt som de tillför sin egen kreativitet genom att använda helt nya ljud som härrör från skillnaden i instrumentering. Det mest kända exemplet på detta är Ravels arrangemang för orkester av Mussorgskys pianostycke Bilder på en utställning . Webern använde sin transkription för orkester av de sex delar Ricercar från Bach 's The Musical Offering att analysera strukturen av Bach stycke, genom att använda olika instrument för att spela olika underordnade motiv av Bachs teman och melodier.

I transkription av denna form kan det nya stycket samtidigt imitera de ursprungliga ljuden samtidigt som de komponerar dem igen med alla tekniska färdigheter hos en expertkompositör på ett sådant sätt att det verkar som att stycket ursprungligen skrevs för det nya mediet. Men vissa transkriptioner och arrangemang har gjorts av rent pragmatiska eller kontextuella skäl. Till exempel, på Mozarts tid transkriberades överturen och sångerna från hans populära operaer för liten blåsensemble helt enkelt för att sådana ensembler var vanliga sätt att tillhandahålla populär underhållning på offentliga platser. Mozart själv gjorde detta i sin opera Don Giovanni och transkriberade för små blåsensembler flera arier från andra operaer, inklusive en från sin egen opera The Marriage of Figaro . Ett mer samtida exempel är Stravinskys transkription för fyra händer piano av The Rite of Spring , som ska användas på balettens repetitioner. Idag spelar musiker som spelar på kaféer eller restauranger ibland transkriptioner eller arrangemang av bitar skrivna för en större grupp instrument.

Andra exempel på denna typ av transkription inkluderar Bachs arrangemang av Vivaldis fyrfiolkonsert för fyra tangentinstrument och orkester; Mozarts arrangemang av några Bach- fuger från The Well-Tempered Clavier för strängtrio ; Beethovens arrangemang av hans Große Fuge , ursprungligen skriven för stråkkvartett , för piano duett, och hans arrangemang av hans violinkonsert som pianokonsert ; Franz Liszts pianoarrangemang av många kompositörers verk, inklusive Beethovens symfonier ; Tsjajkovskijs arrangemang av fyra Mozart-pianostycken i en orkestersvit kallad " Mozartiana "; Mahlers re-orkestrering av Schumanns symfonier; och Schoenbergs arrangemang för orkester av Brahms pianokvintett och Bachs "St. Anne" förspel och fuga för orgel.

Sedan pianot blev ett populärt instrument har en stor litteratur uppstått med transkriptioner och arrangemang för piano av verk för orkester eller kammarmusikensemble. Dessa kallas ibland ” pianoreduceringar ”, eftersom mångfalden av orkesterpartier - i ett orkesterstycke kan det finnas så många som två dussin separata instrumentala delar som spelas samtidigt - måste reduceras till vad en enda pianist (eller ibland två pianister, på en eller två pianon, såsom olika arrangemang för George Gershwin 's Rhapsody in Blue ) klarar av att spela.

Pianoreduktioner görs ofta av orkesterackompanjemang till körverk, för repetition eller för föreställning med tangentbord ensam.

Många orkesterstycken har transkriberats för konsertband .

Transkriptionshjälpmedel

Notationsprogramvara

Sedan tillkomsten av skrivbordspublicering kan musiker skaffa musiknotationsprogramvara , som kan ta emot användarens mentala analys av anteckningar och sedan lagra och formatera dessa anteckningar till standardmusiknotation för personlig utskrift eller professionell publicering av noter. En del notationsprogramvara kan acceptera en standard MIDI- fil (SMF) eller MIDI-prestanda som inmatning istället för manuell anteckning. Dessa notationsapplikationer kan exportera sina poäng i en mängd olika format som EPS , PNG och SVG . Ofta innehåller programvaran ett ljudbibliotek som gör att användarens poäng kan spelas högt av applikationen för verifiering.

Långsam programvara

Innan uppfinningen av digitala transkriptionshjälpmedel skulle musiker sakta ner en skiva eller en bandinspelning för att kunna höra de melodiska linjerna och ackorden i en långsammare, mer smältbar takt. Problemet med detta tillvägagångssätt var att det också ändrade tonhöjden, så när ett stycke transkriberades skulle det då behöva transponeras till rätt nyckel. Mjukvara som är utformad för att sänka musikens tempo utan att ändra tonhöjden för musiken kan vara till stor hjälp för att känna igen tonhöjder, melodier, ackord, rytmer och texter när man transkriberar musik. Till skillnad från den långsamma effekten av en skivspelare kommer tonhöjden och den ursprungliga oktaven av tonerna att vara desamma och inte sjunka i tonhöjden. Denna teknik är enkel nog att den finns i många gratis program.

Programvaran går generellt genom en tvåstegsprocess för att uppnå detta. Först spelas ljudfilen upp med en lägre samplingsfrekvens än den för originalfilen. Detta har samma effekt som att spela en band- eller vinylskiva i lägre hastighet - tonhöjden sänks vilket betyder att musiken kan låta som om den är i en annan tangent. Det andra steget är att använda Digital Signal Processing (eller DSP) för att flytta tonhöjden tillbaka till den ursprungliga tonhöjdsnivån eller musikaliska tangenten.

Pitch-spårningsprogramvara

Som nämnts i avsnittet Automatisk transkription av musik kan viss kommersiell programvara spåra tonhöjden för dominerande melodier i polyfoniska musikinspelningar. Anteckningsskanningarna är inte exakta och behöver ofta redigeras manuellt av användaren innan de sparas i fil i antingen ett eget filformat eller i standard MIDI- filformat. Vissa tonhöjdsspårningsprogram gör det också möjligt att animera de skannade noteringslistorna under ljuduppspelning.

Automatisk transkription av musik

Uttrycket "automatisk musiktranskription" användes först av ljudforskare James A. Moorer, Martin Piszczalski och Bernard Galler 1977. Med sin kunskap om digital ljudteknik trodde dessa forskare att en dator kunde programmeras för att analysera en digital inspelning av musik så att tonhöjderna för melodilinjer och ackordmönster kunde upptäckas, tillsammans med slagverksinstrumentens rytmiska accenter. Uppgiften med automatisk musiktranskription avser två separata aktiviteter: att göra en analys av ett musikstycke och skriva ut ett partitur från den analysen.

Detta var inte ett enkelt mål, utan ett som skulle uppmuntra akademisk forskning i minst ytterligare tre decennier. På grund av det nära vetenskapliga förhållandet mellan tal och musik skulle mycket akademisk och kommersiell forskning som riktades mot den mer ekonomiskt tillgängliga taligenkänningstekniken återvinnas till forskning om musikigenkänningsteknik. Medan många musiker och utbildare insisterar på att manuellt göra transkriptioner är en värdefull övning för att utveckla musiker, är motivationen för automatisk transkription av musik densamma som motivet för noter: musiker som inte har intuitiva transkriptionsförmågor söker efter noter eller ett ackord så att de snabbt kan lära sig att spela en låt. En samling verktyg som skapats av den pågående forskningen kan vara till stor hjälp för musiker. Eftersom mycket inspelad musik inte har tillgängligt noter kan en automatisk transkriptionsenhet också erbjuda transkriptioner som annars inte är tillgängliga i noter. Hittills kan ingen programvara helt uppfylla James Moorers definition av automatisk musiktranskription. Men strävan efter automatisk transkription av musik har skapat många program som kan hjälpa till med manuell transkription. Vissa kan sakta ner musik samtidigt som de behåller original tonhöjd och oktav, andra kan spåra tonhöjden för melodier, andra kan spåra ackordförändringarna och andra kan spåra musikens takt.

Automatisk transkription handlar i grund och botten om att identifiera tonhöjd och varaktighet för de utförda noterna. Detta innebär att spåra tonhöjd och identifiera anteckningar. Efter att ha tagit dessa fysiska mätningar mappas denna information i traditionell musiknotation, dvs. noterna.

Digital signalbehandling är den teknikteknik som ger programvarutekniker de verktyg och algoritmer som behövs för att analysera en digital inspelning i termer av tonhöjd (antydetektering av melodiska instrument) och energiinnehållet i icke-tonade ljud (detektering av slaginstrument) . Musikaliska inspelningar samplas med en given inspelningshastighet och dess frekvensdata lagras i valfritt digitalt vågformat i datorn. Ett sådant format representerar ljud genom digital sampling .

Pitchdetektering

Tonhöjdsupptäckt är ofta detektering av enskilda toner som kan utgöra en melodi i musik eller tonerna i ett ackord . När en enda tangent trycks på ett piano är det vi hör inte bara en frekvens för ljudvibrationer utan en sammansättning av flera ljudvibrationer som uppträder vid olika matematiskt relaterade frekvenser. Elementen i denna komposit av vibrationer vid olika frekvenser kallas övertoner eller partiella delar.

Om vi ​​till exempel trycker på mitten C-tangenten på piano, kommer de enskilda frekvenserna för kompositens övertoner att börja vid 261,6 Hz som grundfrekvensen , 523 Hz skulle vara den andra harmoniska, 785 Hz skulle vara den tredje harmoniska, 1046 Hz skulle vara den fjärde övertonen, etc. De senare övertonerna är heltalsmultiplar av grundfrekvensen , 261,6 Hz (ex: 2 x 261,6 = 523, 3 x 261,6 = 785, 4 x 261,6 = 1046). Medan endast cirka åtta övertoner verkligen behövs för att hörbart återskapa anteckningen, kan det totala antalet övertoner i denna matematiska serie vara stort, även om ju högre övertonens siffra desto svagare är den övertonens storlek och bidrag. I motsats till intuitionen är en musikinspelning på sin lägsta fysiska nivå inte en samling enskilda toner , utan verkligen en samling individuella övertoner . Därför kan inspelningar med mycket liknande ljud skapas med olika instrumentsamlingar och deras tilldelade toner. Så länge inspelningens totala övertoner återskapas till viss del spelar det ingen roll vilket instrument eller vilka noter som användes.

Ett första steg i detekteringen av anteckningar är omvandlingen av ljudfilens digitala data från tidsdomänen till frekvensdomänen , vilket möjliggör mätning av olika frekvenser över tiden. Den grafiska bilden av en ljudinspelning i frekvensdomänen kallas ett spektrogram eller sonogram. En musiknoter, som en sammansättning av olika övertoner , visas i ett spektrogram som en vertikalt placerad kam , med de enskilda tänderna på kammen som representerar de olika övertonerna och deras olika frekvensvärden. En Fourier Transform är den matematiska proceduren som används för att skapa spektrogrammet från ljudfilens digitala data.

Uppgiften för många notdetekteringsalgoritmer är att söka i spektrogrammet efter förekomsten av sådana kammönster (en sammansättning av övertoner) orsakade av enskilda toner. När mönstret för en nots särskilda kamform av övertoner har detekterats kan tonens tonhöjd mätas av det vertikala läget för kammönstret på spektrogrammet .

Det finns i princip två olika typer av musik som skapar mycket olika krav på en algoritm för tonhöjningsdetektering : monofonisk musik och polyfonisk musik. Monofonisk musik är en passage med bara ett instrument som spelar en ton i taget, medan polyfonisk musik kan ha flera instrument och sång som spelas samtidigt. Pitchdetektering vid en monofoninspelning var en relativt enkel uppgift, och dess teknik möjliggjorde uppfinningen av gitarrmottagare på 1970-talet. Emellertid blir tonhöjdsavkänning på polyfonisk musik en mycket svårare uppgift eftersom bilden av dess spektrogram nu framträder som ett vagt moln på grund av en mängd överlappande kammönster, orsakade av varje tones multipla övertoner .

En annan metod för att upptäcka tonhöjd uppfanns av Martin Piszczalski tillsammans med Bernard Galler på 1970-talet och har sedan dess följts allmänt. Det riktar sig till monofonisk musik. Centralt för denna metod är hur tonhöjd bestäms av det mänskliga örat . Processen försöker ungefärligen efterlikna det mänskliga inneröratets biologi genom att bara hitta några av de högsta övertonerna vid ett givet ögonblick. Den lilla uppsättningen hittade övertoner jämförs i sin tur mot alla möjliga resulterande tonhöjds harmoniska uppsättningar, för att hypotesera vad den mest troliga tonhöjden skulle kunna ges den specifika uppsättningen övertoner .

Hittills är den kompletta detekteringen av polyfoniska inspelningar fortfarande ett mysterium för ljudtekniker, även om de fortsätter att göra framsteg genom att uppfinna algoritmer som delvis kan upptäcka några av noterna i en polyfonisk inspelning, såsom en melodi eller baslinje.

Beat-upptäckt

Beat-tracking är bestämningen av ett upprepande tidsintervall mellan upplevda pulser i musik. Beat kan också beskrivas som "fotknackning" eller "handklappning" i takt med musiken. Beat är ofta en förutsägbar basenhet i tid för musikstycket och kan bara variera något under föreställningen. Låtar mäts ofta efter deras Beats Per Minute (BPM) för att bestämma tempot på musiken, oavsett om det är snabbt eller långsamt.

Eftersom anteckningar ofta börjar på ett slag, eller en enkel indelning av taktens tidsintervall, har beat tracking-programvaran potential att bättre lösa anteckningar som kan ha upptäckts på ett grovt sätt. Beat-tracking är ofta det första steget i upptäckten av slagverksinstrument.

Trots den intuitiva karaktären av "fotavtryckning" som de flesta människor kan, är det svårt att utveckla en algoritm för att upptäcka dessa slag. De flesta av de nuvarande programvarealgoritmerna för slagdetektering använder en gruppkonkurrerande hypotes för slag per minut, eftersom algoritmen gradvis hittar och löser lokala toppar i volym, vilket ungefär motsvarar musiken.

Hur automatisk transkription av musik fungerar

För att transkribera musik automatiskt måste flera problem lösas:

1. Anteckningar måste kännas igen - detta görs vanligtvis genom att ändra från tidsdomänen till frekvensdomänen. Detta kan åstadkommas genom Fourier-transformationen . Datoralgoritmer för att göra detta är vanliga. Den snabba Fourier-transformeringsalgoritmen beräknar frekvensinnehållet i en signal och är användbar vid bearbetning av musikutdrag.

2. Ett takt och tempo måste detekteras ( Beat detection ) - detta är ett svårt, mångfacetterat problem.

Metoden som föreslagits i Costantini et al. 2009 fokuserar på nothändelser och deras huvudsakliga egenskaper: attack instant, pitch och final instant. Startdetektering utnyttjar en binär tidsfrekvensrepresentation av ljudsignalen. Note klassificering och offsetdetektering baseras på konstant Q-trans (CQT) och stödvektormaskin (SVMs). En samling av noter för allmängods hittar du här. [1]

Detta leder i sin tur till en "tonhöjdskontur", nämligen en kontinuerligt tidsvarierande linje som motsvarar vad människor kallar melodi. Nästa steg är att segmentera denna kontinuerliga melodiska ström för att identifiera början och slutet av varje ton. Därefter uttrycks varje "notenhet" i fysiska termer (t.ex. 442 Hz, .52 sekunder). Det sista steget är sedan att kartlägga denna fysiska information i bekanta musiknotationsliknande termer för varje ton (t.ex. en A4-, kvartnot).

Detaljerade datorsteg bakom automatisk transkription av musik

När det gäller faktisk datorbehandling är de viktigaste stegen att 1) ​​digitalisera den utförda, analoga musiken, 2) göra successiva kortvariga, snabba Fourier-transform (FFT) för att erhålla de tidsvarierande spektra, 3) identifiera topparna i varje spektrum, 4) analysera de spektrala topparna för att få tonhöjdskandidater, 5) ansluta de starkaste enskilda tonhöjdskandidaterna för att få den mest sannolika tidsvarierande, tonhöjdskonturen, 6) kartlägga dessa fysiska data i de närmaste termerna för musiknotering. Dessa grundläggande steg, som Piszczalski hade sitt ursprung på 1970-talet, blev grunden för automatisk musiktranskription.

Det mest kontroversiella och svåra steget i denna process är att upptäcka tonhöjd. De mest framgångsrika tonhöjdsmetoderna fungerar i frekvensdomänen, inte i tidsdomänen. Medan tidsdomänmetoder har föreslagits kan de brytas ner för verkliga musikinstrument som spelas i vanligtvis efterklangliga rum.

Tonhöjningsdetekteringsmetoden som Piszczalski uppfann återliknar mänsklig hörsel. Det följer hur endast vissa uppsättningar partialer "smälter samman" i mänskligt lyssnande. Det här är uppsättningarna som skapar uppfattningen om en enda tonhöjd. Fusion inträffar bara när två partialer ligger inom 1,5% från att vara ett perfekt, harmoniskt par (dvs deras frekvenser är ungefär ett par med lågt helpar som 1: 2, 5: 8, etc.) Denna nästan harmoniska matchning krävs av alla delarna för att en människa ska höra dem som bara en enda tonhöjd.

Se även

Referenser