Wanneer je index de bottleneck wordt: Verhalen over database-antipatronen in de praktijk Wanneer je index de bottleneck wordt: Verhalen over database-antipatronen in de praktijk

Laten we beginnen met een klassieke fout: de "indexeer alles" aanpak. Het is een verleidelijke strategie, nietwaar? Als één index de zaken versnelt, dan zullen tien onze database zeker laten vliegen! Oh, lieve zomerkind...

Hier is een snel voorbeeld van hoe dit vreselijk mis kan gaan:


CREATE TABLE users (
    id SERIAL PRIMARY KEY,
    username VARCHAR(50),
    email VARCHAR(100),
    created_at TIMESTAMP,
    last_login TIMESTAMP,
    status VARCHAR(20)
);

CREATE INDEX idx_username ON users(username);
CREATE INDEX idx_email ON users(email);
CREATE INDEX idx_created_at ON users(created_at);
CREATE INDEX idx_last_login ON users(last_login);
CREATE INDEX idx_status ON users(status);

Ziet er onschuldig uit, toch? Fout. Deze indexeerwoede kan leiden tot:

Langzamere INSERT-, UPDATE- en DELETE-bewerkingen omdat elke index moet worden bijgewerkt
Toegenomen schijfgebruik
De query-optimizer die in de war raakt en mogelijk suboptimale uitvoeringsplannen kiest

Onthoud, mensen: indexen zijn als kruiden. Gebruik ze doordacht om de smaak van je database te verbeteren, niet om deze te overweldigen.

Het Samengestelde Index Dilemma

Volgende in onze anti-patroon parade: het verkeerd begrijpen van hoe samengestelde indexen werken. Ik heb ontwikkelaars gezien die aparte indexen maken voor elke kolom in een WHERE-clausule, zonder te beseffen dat de volgorde van kolommen in een samengestelde index belangrijker is dan de infinity stones van Thanos.

Overweeg deze query:


SELECT * FROM orders
WHERE status = 'shipped'
AND created_at > '2023-01-01'
AND total_amount > 100;

Je zou in de verleiding kunnen komen om drie aparte indexen te maken:


CREATE INDEX idx_status ON orders(status);
CREATE INDEX idx_created_at ON orders(created_at);
CREATE INDEX idx_total_amount ON orders(total_amount);

Maar in werkelijkheid kan een enkele samengestelde index veel efficiënter zijn:


CREATE INDEX idx_status_created_total ON orders(status, created_at, total_amount);

De sleutel hier is het begrijpen van het concept van indexselectiviteit en hoe de database indexen gebruikt. De meest selectieve kolom (meestal degene met de hoogste cardinaliteit) moet eerst komen in je samengestelde index.

De "Index-Only Scan" Illusie

Ah, de ongrijpbare index-only scan – de heilige graal van query-optimalisatie. Maar pas op, want het kan je leiden naar een verraderlijk pad van over-indexering en onderpresteren.

Overweeg deze schijnbaar onschuldige tabel:


CREATE TABLE products (
    id SERIAL PRIMARY KEY,
    name VARCHAR(100),
    description TEXT,
    price DECIMAL(10, 2),
    stock INT
);

Je zou kunnen denken: "Hé, laten we een index maken die al onze veelvoorkomende queries dekt!":


CREATE INDEX idx_products_all ON products(name, price, stock, description);

Zeker, dit kan je die gewilde index-only scans geven, maar tegen welke prijs? Je hebt in feite je hele tabel gedupliceerd in de index! Dit kan leiden tot:

Enorme opslagoverhead
Langzamere schrijfoperaties
Toegenomen geheugengebruik voor caching

Overweeg in plaats daarvan om gedeeltelijke indexen of dekkende indexen verstandig te gebruiken, gebaseerd op je meest kritieke queries.

Het "Set It and Forget It" Syndroom

Een van de meest verraderlijke database anti-patronen die ik ben tegengekomen, is het behandelen van indexen als een set-it-and-forget-it infomercial product. Je databaseschema en querypatronen evolueren in de loop van de tijd, en dat zou je indexeringsstrategie ook moeten doen.

Hier is een horrorverhaal uit de echte wereld: ik erfde ooit een project waar het vorige team indexen had gemaakt op basis van hun initiële querypatronen. Twee jaar later was het gebruik van de applicatie volledig veranderd. Toch hingen die oude indexen nog steeds rond als dat vergeten sportschoolabonnement, bronnen consumerend zonder enig voordeel te bieden.

Om dit te voorkomen, implementeer regelmatige indexgezondheidscontroles:

Monitor indexgebruikstatistieken
Beoordeel en werk je indexeringsstrategie regelmatig bij
Gebruik tools zoals pg_stat_statements in PostgreSQL om vaak uitgevoerde queries te identificeren en dienovereenkomstig te optimaliseren

Hier is een snelle query om je op weg te helpen met het identificeren van ongebruikte indexen in PostgreSQL:


SELECT
    schemaname || '.' || relname AS table,
    indexrelname AS index,
    pg_size_pretty(pg_relation_size(i.indexrelid)) AS index_size,
    idx_scan as index_scans
FROM pg_stat_user_indexes ui
JOIN pg_index i ON ui.indexrelid = i.indexrelid
WHERE NOT indisunique AND idx_scan < 50 AND pg_relation_size(relid) > 5 * 8192
ORDER BY pg_relation_size(i.indexrelid) / nullif(idx_scan, 0) DESC NULLS FIRST,
         pg_relation_size(i.indexrelid) DESC;

De "One Size Fits All" Misvatting

Laten we het hebben over een bijzonder hardnekkige mythe: het idee dat er een one-size-fits-all benadering is voor indexering. Ik heb ontwikkelaars gezien die dezelfde indexeringsstrategie toepassen op verschillende tabellen, ongeacht de gegevensverdeling of querypatronen. Dit is ongeveer net zo effectief als het gebruik van een voorhamer om een noot te kraken.

Overweeg bijvoorbeeld een tabel die gebruikerslogins bijhoudt:


CREATE TABLE user_logins (
    id SERIAL PRIMARY KEY,
    user_id INT,
    login_time TIMESTAMP,
    ip_address INET,
    success BOOLEAN
);

Je zou in de verleiding kunnen komen om een index op user_id te plaatsen, denkend dat het al je queries zal versnellen. Maar wat als je meest voorkomende query eigenlijk zoekt naar mislukte inlogpogingen in het afgelopen uur?

In dit geval kan een gedeeltelijke index veel effectiever zijn:


CREATE INDEX idx_failed_logins_recent ON user_logins (login_time)
WHERE success = FALSE AND login_time > (CURRENT_TIMESTAMP - INTERVAL '1 hour');

Deze index zal veel kleiner en efficiënter zijn voor dat specifieke querypatroon.

De Gevaren van Auto-Indexeringstools

In het tijdperk van AI en automatisering is het verleidelijk om auto-indexeringstools al het zware werk te laten doen. Hoewel deze tools nuttig kunnen zijn, is het blindelings vertrouwen erop als het laten leiden door een GPS die je van een klif af stuurt – technisch efficiënt, maar praktisch rampzalig.

Auto-indexeringstools richten zich vaak op de prestaties van individuele queries zonder rekening te houden met het grotere geheel:

Ze kunnen overlappende indexen creëren die overlappen met bestaande
Ze houden geen rekening met de algehele schrijflast op je systeem
Ze kunnen de zakelijke context of toekomstige plannen voor je applicatie niet begrijpen

In plaats van uitsluitend op deze tools te vertrouwen, gebruik ze als startpunt voor je eigen analyse. Combineer hun suggesties met je begrip van de behoeften en toekomstige richting van de applicatie.

De Verborgen Kosten van Indexen

Laten we het hebben over iets dat niet genoeg aandacht krijgt: de verborgen kosten van indexen. Het is gemakkelijk om je te concentreren op prestatiewinsten van queries, maar indexen komen met hun eigen bagage:

Toegenomen opslagvereisten
Hoger geheugengebruik voor caching
Extra CPU-belasting voor onderhoud
Langzamere schrijfoperaties

Om dit te illustreren, laten we kijken naar een eenvoudig voorbeeld. Stel dat je een tabel hebt met 10 miljoen rijen, en je besluit een index toe te voegen op een VARCHAR(255) kolom. De index alleen kan gemakkelijk enkele gigabytes toevoegen aan je databasegrootte. Vermenigvuldig dat nu met meerdere indexen over verschillende tabellen, en je kijkt naar een aanzienlijke toename van je opslag- en back-upkosten.

Bovendien moet elke INSERT-, UPDATE- of DELETE-bewerking nu deze indexen bijwerken. Wat ooit een eenvoudige toevoeging aan een tabel was, kan nu het reorganiseren van meerdere B-tree structuren inhouden.

Om deze kosten te beperken:

Analyseer regelmatig je indexgebruik en verwijder ongebruikte indexen
Overweeg het gebruik van gedeeltelijke indexen voor grote tabellen waar volledige indexen niet nodig zijn
Gebruik gefilterde indexen in SQL Server of functionele indexen in PostgreSQL om de indexgrootte te verminderen wanneer dat gepast is

De Vloek van de Overlappende Index

Overlappende indexen zijn als die vriend die altijd herhaalt wat je net zei – overbodig en een beetje irritant. Toch heb ik talloze databases gezien waar ontwikkelaars per ongeluk meerdere indexen hebben gemaakt die aanzienlijk overlappen.

Bijvoorbeeld:


CREATE INDEX idx_lastname_firstname ON employees(last_name, first_name);
CREATE INDEX idx_lastname ON employees(last_name);

In dit geval is idx_lastname overbodig omdat idx_lastname_firstname kan worden gebruikt voor queries die alleen last_name bevatten. Deze overbodigheid verspilt ruimte en bemoeilijkt het werk van de optimizer.

Om dit te bestrijden:

Beoordeel regelmatig je indexdefinities
Gebruik tools zoals pg_stat_indexes in PostgreSQL of sys.dm_db_index_usage_stats in SQL Server om overbodige indexen te identificeren
Overweeg de 'linker prefix' regel bij het ontwerpen van samengestelde indexen

De "Indexeer Alle Vreemde Sleutels" Mythe

Er is een hardnekkige mythe in de databasewereld dat je altijd vreemde sleutels moet indexeren. Hoewel dit in veel gevallen goed advies kan zijn, kan het blindelings volgen ervan leiden tot onnodige indexen en verminderde prestaties.

Overweeg een scenario waarin je een 'orders' tabel hebt met een vreemde sleutel naar een 'customers' tabel. Als je zelden orders opvraagt op basis van klantinformatie, en je 'customers' tabel is relatief klein, dan biedt een index op de vreemde sleutel mogelijk geen enkel voordeel.

In plaats van automatisch alle vreemde sleutels te indexeren:

Analyseer je querypatronen
Overweeg de grootte van de gerefereerde tabel
Denk na over de cardinaliteit van de vreemde sleutelkolom

Onthoud, elke index die je toevoegt is een afweging. Zorg ervoor dat de voordelen opwegen tegen de kosten.

De Sirenenzang van Bitmap Indexen

Bitmap indexen kunnen ongelooflijk krachtig zijn voor bepaalde soorten gegevens en queries, vooral in datawarehousing scenario's. Ze kunnen echter ook een prestatie-nachtmerrie worden als ze verkeerd worden gebruikt in OLTP-systemen.

Ik zag ooit een ontwikkelaar bitmap indexen maken op kolommen met hoge cardinaliteit in een druk OLTP-systeem. Het resultaat? Schrijfoperaties kwamen tot stilstand terwijl de database worstelde om de bitmapstructuren te onderhouden.

Bitmap indexen zijn het meest geschikt voor:

Kolommen met lage cardinaliteit (weinig verschillende waarden)
Tabellen die zelden worden bijgewerkt
Datawarehousing en analytische queries

Als je te maken hebt met een systeem dat vaak wordt bijgewerkt of kolommen met hoge cardinaliteit heeft, blijf dan bij B-tree indexen.

De Verleiding van Functie-gebaseerde Indexen

Functie-gebaseerde indexen kunnen krachtige hulpmiddelen zijn in je optimalisatiearsenaal, maar ze komen met hun eigen valkuilen. Ik heb ontwikkelaars gezien die zich laten meeslepen en functie-gebaseerde indexen maken voor elke denkbare transformatie van hun gegevens.

Bijvoorbeeld:


CREATE INDEX idx_lower_email ON users (LOWER(email));
CREATE INDEX idx_substr_phone ON users (SUBSTR(phone_number, 1, 3));
CREATE INDEX idx_year_dob ON users (EXTRACT(YEAR FROM date_of_birth));

Hoewel deze specifieke queries kunnen versnellen, kunnen ze DML-bewerkingen aanzienlijk vertragen en je database opblazen. Bovendien, als de functies in je queries niet exact overeenkomen met de geïndexeerde expressies, worden de indexen niet gebruikt.

Bij het overwegen van functie-gebaseerde indexen:

Zorg ervoor dat ze aansluiten bij je meest voorkomende en prestatiekritieke queries
Wees je bewust van de extra overhead bij schrijfoperaties
Overweeg of hetzelfde resultaat kan worden bereikt door zorgvuldige queryschrijven of applicatielogica

De Verleidelijke Aantrekkingskracht van Dekkende Indexen

Dekkende indexen – indexen die alle kolommen bevatten die nodig zijn voor een query – kunnen spectaculaire prestatieverbeteringen bieden. Ze zijn echter ook een klassiek voorbeeld van hoe optimalisatie voor één scenario tot problemen elders kan leiden.

Ik kwam ooit een systeem tegen waar het vorige team enorme dekkende indexen had gemaakt voor hun meest voorkomende queries. De queryprestaties waren inderdaad indrukwekkend, maar het algehele systeem leed onder:

Opgeblazen databasegrootte
Langzame schrijfprestaties
Toegenomen back-up- en hersteltijden

Bij het overwegen van dekkende indexen:

Wees selectief – gebruik ze alleen voor je meest kritieke queries
Monitor hun grootte en impact op schrijfprestaties
Overweeg of query herschrijven of denormalisatie betere alternatieven kunnen zijn

Afronding: Het Pad naar Indexverlichting

Zoals we hebben gezien, is de weg naar database-optimalisatie geplaveid met goede bedoelingen en bezaaid met de wrakstukken van misleide indexeringsstrategieën. Maar vrees niet, onverschrokken data-ontdekker! Gewapend met deze verhalen van ellende en wijsheid, ben je nu beter uitgerust om de verraderlijke wateren van database-indexering te navigeren.

Onthoud deze belangrijke punten:

Indexen zijn krachtige hulpmiddelen, maar met grote kracht komt grote verantwoordelijkheid
Overweeg altijd de volledige impact van een index – niet alleen op leesprestaties, maar ook op schrijfbewerkingen, opslag en algehele systeemgezondheid
Beoordeel en verfijn je indexeringsstrategie regelmatig naarmate je applicatie evolueert
Er is geen one-size-fits-all oplossing – wat voor het ene systeem werkt, kan rampzalig zijn voor een ander
Gebruik tools en automatisering om je beslissingen te informeren, maar vertrouw er niet blindelings op

Database-optimalisatie is net zo goed een kunst als een wetenschap. Het vereist een diepgaand begrip van je gegevens, je queries en je zakelijke behoeften. Dus ga op pad, experimenteer, meet, en moge je queries altijd snel zijn en je indexen altijd efficiënt!

Heb je zelf database-horrorverhalen? Laat ze achter in de reacties – ellende houdt van gezelschap, vooral in de wereld van databeheer!

Het Samengestelde Index Dilemma

De "Index-Only Scan" Illusie

Het "Set It and Forget It" Syndroom

De "One Size Fits All" Misvatting

De Gevaren van Auto-Indexeringstools

De Verborgen Kosten van Indexen

De Vloek van de Overlappende Index

De "Indexeer Alle Vreemde Sleutels" Mythe

De Sirenenzang van Bitmap Indexen

De Verleiding van Functie-gebaseerde Indexen

De Verleidelijke Aantrekkingskracht van Dekkende Indexen

Afronding: Het Pad naar Indexverlichting

Meer in deze categorie Programming

Stochastische Afronding: De Onbezongen Held van Machine Learning Precisie

Galois-velden: De Onbezongen Helden van de Moderne Cryptografie

AI in de Supply Chain: Game-Changing Lessen voor 2025

De Toekomst van Bestandssystemen: Voorbij ext4 en NTFS

Sluit je aan bij onze community 👋