Ǫnjuisŧ geşpəłd

NRC Handelsblad, de zelfbenoemde kwaliteitskrant van Nederland, spelt “om redenen van consistentie en kwaliteit”, buitenlandse namen verkeerd. Kan de kwaliteit niet op een andere manier hooggehouden worden?

Vlak na de verkiezingen van 2023 viel me opeens op, dat de achternaam van de lijsttrekker van de VVD vrij consequent verkeerd gespeld werd. Mevrouw heet Yeşilgöz-Zegerius, maar in de krant stond de letter ş van Yeşilgöz veelal zonder de cedille, “¸” geschreven: Yesilgöz.

Ik stuurde een bericht aan de ombudsman, wiens functie het is om te “reageren op vragen van lezers“, daarnaast doet hij “onderzoek, toetst artikelen aan de normen die NRC zichzelf heeft opgelegd”. Arjen Fortuin reageerde snel. Hij schreef het volgende:

“Het probleem is, met name bij de ş en andere lettervarianten die in het Nederlands niet of nauwelijks voorkomen, dat het redactioneel systeem zich er nogal eens in verslikt, met daarbij de extra complicatie dat er met twee systemen wordt gewerkt die allebei een digitale en een papieren ‘uitgang’ hebben. Met de hand kan er van alles gecorrigeerd worden, maar het risico van wegvallende letters, vreemde blokjes of andere fouten is groot. Daarom is al jaren geleden, toen Slobodan Milošević nog veel in het nieuws was, een hoofdredactionele oekaze uitgegaan dat het voortaan Milosevic moet zijn. Ik moet zeggen dat ik dat nog steeds een verlies vind; al begrijp ik de praktische argumenten die eraan ten grondslag liggen.”

Arjen Fortuin, Ombudsman NRC

Computer says no“, nog altijd een goede reden. Maar nader onderzoek wees uit, dat er bij NRC wel degelijk webpagina’s zijn die de naam Yeşilgöz correct spellen.

Hmm. Is het dan toch luiheid van de journalisten? De pdf-editie van de artikelen heeft steeds weer een kale letter “s”, dat suggereert dat er iets aan de hand is. Sander Pinkse schreef me: “[…] is het raar. Als een importfiter tekens niet herkent, worden ze vervangen door een NOTDEF-karakter, en zeker niet door het equivalent zonder diakritisch teken. En dan zouden de opmakers die missende tekens net zo goed door het juiste teken kunnen vervangen.”

Die NOTDEF heeft trouwens wat bijwerkingen – die door Arjen Fortuin al werden aangestipt. Zo definieert de Unicode-standaard wel een NOTDEF-code, maar bij die code geen glief (zeg maar: letterteken). Logisch misschien (want als het ongedefinieerd is, is het tenslotte ongedefinieerd). Meestal staat er een □ wit vierkantje en daar valt mee te leven, maar implementatie-afhankelijk is het wél ­– en daardoor onvoorspelbaar.

Terug naar de krant. “Toen Slobodan Milošević nog veel in het nieuws was”, wanneer is dat eigenlijk? Milošević overleed in 2006, maar was president van de Republiek Joegoslavië vanaf 1997. De Hoofdredactie zal vast niet in zijn stervensjaar besloten hebben dat de ć voortaan geen letter meer is, dus laten we zeggen dat die keuze rond het jaar 2000 gemaakt is.

Dat is relevant, want dat is méér dan twintig jaar geleden. Dat is, zeker in computertermen, een onvoorstelbaar lange periode.

Om maar even te illustreren hoe lang dat is: Wikipedia bestond nog niet. We betaalden met de gulden. De redactie werkte waarschijnlijk nog met Windows NT4, Windows XP kwam pas uit in 2001. Kijk bijvoorbeeld eens op een webpagina van NRC Handelsblad uit maart 2000. “Het Joegoslavië-tribunaal heeft vandaag de Bosnisch-Kroatische generaal Tihomir Blaskic veroordeeld tot een celstraf van 45 jaar”, maar ze bedoelen Tihomir Blaškić. Pas vanaf Windows XP bood Microsoft ondersteuning voor Unicode. (Een beetje kort door de bocht, lees de details op Wikipedia).

Maar ik was niet de enige die zich aan het ontbreken van de ş had geërgerd. Op donderdag 14 december schreef slavist Bob Muilwijk een opinieartikel met de titel Ook vreemde namen moeten juist in de krant: Wie een naam als Yeşilgöz, Abramović of Świątek heeft, hoeft er niet op te rekenen dat zijn naam correct wordt geschreven. Stop met dat West-Europacentrisme, schrijft Bob Muilwijk.

In dat artikel dezelfde klacht als ik had; vervolgens wat achtergrondinformatie over letters, klanken en accenten en enige uitleg over UTF-8 en ISO 8859-15. En opnieuw een reactie van NRC, maar nu met dat merkwaardig begin:

De spelling van buitenlandse namen in NRC vloeit voort uit een keuze voor consistentie en kwaliteit.

reactie NRC

Laat dat maar even op u inwerken. Onze taak is het weergeven van nieuwsberichten. Wij schrijven alle niet-West-Europese namen daarbij fout en dat doen we vanwege consistentie en kwaliteit.

NRC vervolgde met de mededeling dat alle namen uit “talen en gebieden die andere tekensets gebruiken” getranscribeerd worden naar West-Europese tekens en herhaalde het verhaal dat NRC “begin deze eeuw” geprobeerd heeft om een bredere tekenset consequent toe te passen, maar “dat werd een fiasco”. De zoekresultaten uit het archief zouden lijden onder al die rare letters en deze foutieve spelling is “in overeenstemming met die van de meeste toonaangevende West-Europese media.

Nu kun je met mij alle kanten op, maar zowel The Guardian als de Frankfurter Allgemeine spellen op verzoek gewoon Yeşilgöz, respectievelijk hier en hier. Maar misschien spiegelt NRC zich liever aan andere kwaliteitskranten, zoals The Sun (Princess forced to flee student flat after ‘kidnap threats from drug kingpin’, zoek op “yesilgoz” anders vind je niets) of Bild (de link https://www.bild.de/suche.bild.html#gsc.q=yeşilgöz werkt wel, maar levert artikelen met de naam Yesilgöz – wel de – Duitse – umlaut op de o, maar geen ş. Ze zullen misschien geen Turkse letters in de krant willen zetten?)

Dat van dat zoeken is ook onzin. Althans: anno 2023. Er is echt geen zoekmachine meer te vinden die geen internationale tekens kan lezen en schrijven en de zoekopdracht https://www.nrc.nl/search/#query=yeşilgöz werkt dan ook precies hetzelfde als yesilgöz of yesilgoz. En wie zoekt op milošević (met š en ć) vindt een artikel uit 28 december 1978, “Schietpartij Joegoslaven eiste derde dode”, waarin “de 32-jarige P. Milosevic uit Krusevic” [sic] aan schotwonden in zijn rug bezweek. Nog leuker: zoeken op een smiley werkt ook.

Maar ik zei het al: “begin deze eeuw” is een eeuwigheid geleden. Bovendien veranderde er in de afgelopen twintig jaar nogal wat aan NRC Handelsblad. Het lettertype veranderde een paar keer, de site veranderde nog veel vaker en tien jaar lang had NRC een jonger familielid met de naam nrc.next. Lees het na in de geschiedenis van NRC.

In 2001 stapte NRC over van Times Roman op het lettertype Lexicon. Dat was destijds een “Postscript Type 1” lettertype en kon om die reden slechts 256 verschillende tekens weergeven. Lexicon is tot 2013 in gebruik geweest en het “fiasco” van de bredere tekenset is vermoedelijk rechtstreeks op deze technische restrictie terug te voeren. Er wáren in dit lettertype simpelweg geen tekens voor ş, ć en ł. Wie ISO-8895-15 gebruikt, heeft zich vastgelegd op 256 verschillende lettertekens uit West-Europa. Elk ander teken is, door de aard der dingen, hooguit een afbeelding, maar géén letterteken.

Inmiddels is dat niet meer relevant, want sinds 2013 gebruikt NRC de letter Guardian Egyptian. Dat is een modern OpenType-font. Daar past echt alles in wat je maar wilt. En het zít er ook in, kijk maar. Tsjechisch, Frans, Hongaars, maar ook Grieks en Russisch – nou vooruit, geen Chinees of Japans. Maar vanaf dat moment kunnen de lettertekens van de krant dus probleemloos de naam Yeşilgöz weergeven.

Ook de website is een paar keer veranderd, schrijft NRC. Onder andere in 2010 en 2015. Zoals ik al schreef: op de site staan artikelen met de “ş”, dus de website doet gewoon wat ‘ie moet doen.

Maar dan. NRC sluit de reactie op het opinieartikel van Muilwijk af met de volgende tekst: Dit artikel is speciaal opgemaakt. Over de tekst in de kolommen zijn waar nodig afbeeldingen van letters met de juiste diakritische tekens geplaatst.

En dat klopt. En dan wordt het pas echt raar.

De webversie van het artikel bevat namelijk alle letters precies zoals ze bedoeld zijn: Yeşilgöz, Abramović, Świątek, een losse letter ł gewoon omdat het kan en een ń bij Szymański. En dat zijn echt wat het zijn: gliefen, lettertekens. Geen plaatjes of rare samenstellingen van letters met komma’s. Maar dan de PDF-editie: die is volledig met de hand bewerkt. En niet zo zuinig ook. De letter ş is in het artikel consequent gemaakt door eerst een ç te typen, daaroverheen een wit blokje te zetten en op dat witte blokje staat een letter “s”: hoera, het lijkt net een ş. De ą van Świątek is nog fraaier: wie inzoomt, ziet een a en een op de kop gezette kleine “2” – vermoedelijk het kwadraat-teken: ². Dat is ook de versie die in de papieren krant is afgedrukt: een s met een op de kop staande ².

Waar zit het lek? De aangeleverde stukken zijn vast puik en redacteuren die de “ş” op hun toetsenbord kunnen vinden, worden beloond op de website – ook en zelfs als dat ingaat tegen het hoofdredactionele verbod op letters van buitenlanders. Maar op het moment dat de krant digitaal opgemaakt wordt, lijkt ergens in het systeem een dubbele vertaalstap gemaakt te worden. Een “importfilter” dat alles wat niet in de tekenset ISO-8859-15 zit, terugvertaalt naar simpele, Amerikaanse sorry Latijnse lettertekens uit de ASCII-reeks. Daarna wordt de krant waarschijnlijk gewoon in Adobe Indesign opgemaakt. Of is er daarná nog een vertaalslag? Of zou het PDF-systeem dat van de PDF-versie van de krant een soort website knutselt, geen UTF-8 begrijpen?

Om redenen van kwaliteit en consistentie zou ik dat wel graag willen weten.

Leave a Reply

Your email address will not be published. Required fields are marked *