Uit de cursus: Basisbeginselen van data engineering

Krijg toegang tot deze cursus met een gratis proefabonnement

Word vandaag lid en krijg toegang tot meer dan 24.900 cursussen geleid door branchedeskundigen.

Distributed computing

Distributed computing

- [Instructeur] Het verwerken van petabytes aan gegevens vereist gedistribueerd of parallel computergebruik. Daarom is het cruciaal om het concept van gedistribueerde computing te begrijpen. In elke gegevenspijplijn moeten we gegevens uit verschillende bronnen verzamelen, samenvoegen, opschonen en aggregeren. Parallel computing vormt de basis van bijna alle moderne gegevensverwerkingstools. Maar waarom is het zo belangrijk geworden in de wereld van big data? De belangrijkste reden is geheugen en verwerkingskracht. Wanneer big data-verwerkingstools een verwerkingstaak uitvoeren, splitsen ze deze op in verschillende kleinere subtaken. De verwerkingstools verdelen deze subtaken vervolgens over verschillende computers. Dit zijn meestal commodity computers, wat betekent dat ze op grote schaal beschikbaar en relatief goedkoop zijn. Individueel zouden alle computers er lang over doen om de volledige taak te verwerken. Omdat alle computers echter parallel werken aan kleinere subtaken, wordt…

Inhoud