LinkedIn respecteert uw privacy

LinkedIn en derden gebruiken essentiële en niet-essentiële cookies om onze Diensten te leveren, te beveiligen, te analyseren en te verbeteren en om u relevante advertenties (waaronder professionele en vacatureadvertenties) binnen en buiten LinkedIn te tonen. Lees meer in ons Cookiebeleid.

Selecteer Accepteren of Afwijzen om niet-essentiële cookies voor dit gebruik te weigeren. U kunt uw keuzen op elk gewenst moment bijwerken in uw instellingen.

Nu lid worden Aanmelden

Uit de cursus: Basisbeginselen van data engineering

Krijg toegang tot deze cursus met een gratis proefabonnement

Word vandaag lid en krijg toegang tot meer dan 24.900 cursussen geleid door branchedeskundigen.

Distributed computing

Distributed computing

Uit de cursus: Basisbeginselen van data engineering

Gratis proefversie van 1 maand starten Aanschaffen voor mijn team

Distributed computing

“

- [Instructeur] Het verwerken van petabytes aan gegevens vereist gedistribueerd of parallel computergebruik. Daarom is het cruciaal om het concept van gedistribueerde computing te begrijpen. In elke gegevenspijplijn moeten we gegevens uit verschillende bronnen verzamelen, samenvoegen, opschonen en aggregeren. Parallel computing vormt de basis van bijna alle moderne gegevensverwerkingstools. Maar waarom is het zo belangrijk geworden in de wereld van big data? De belangrijkste reden is geheugen en verwerkingskracht. Wanneer big data-verwerkingstools een verwerkingstaak uitvoeren, splitsen ze deze op in verschillende kleinere subtaken. De verwerkingstools verdelen deze subtaken vervolgens over verschillende computers. Dit zijn meestal commodity computers, wat betekent dat ze op grote schaal beschikbaar en relatief goedkoop zijn. Individueel zouden alle computers er lang over doen om de volledige taak te verwerken. Omdat alle computers echter parallel werken aan kleinere subtaken, wordt…

Inhoud