Online aggregering

Online-aggregering är en teknik för att förbättra det interaktiva beteendet hos databassystem som bearbetar dyra analytiska frågor. Nästan alla databasoperationer utförs i batch-läge, dvs användaren skickar en fråga och väntar tills databasen har bearbetat hela frågan. Tvärtom, genom att använda online-aggregering, får användaren uppskattningar av en aggregerad fråga på ett online-sätt så snart frågan utfärdas. Till exempel, om det slutliga svaret är 1000, efter k sekunder, får användaren uppskattningarna i form av ett konfidensintervall som [990, 1020] med 95 % sannolikhet. Detta förtroende fortsätter att krympa i takt med att systemet får fler och fler prover.

Online-aggregering föreslogs 1997 av Hellerstein, Haas och Wang för grupp-för-aggregationsfrågor över en enda tabell. Senare visade författarna hur man utvärderar sammanfogningar på ett online-sätt. År 2007, Jermaine et al. designade och implementerade ett prototypdatabassystem som heter Database-Online (eller DBO) som beräknar gruppvis sammanlagd fråga över flera tabeller online och ännu viktigare på ett skalbart sätt. Alla tillvägagångssätt för online-aggregering använder slumpmässigt urval , vilket är icke-trivialt i en distribuerad miljö på grund av inspektionsparadoxen för förnyelsebelöningsteori. 2011, Pansare et al. föreslog en Bayesiansk modell för att hantera inspektionsparadoxen och implementerade online-aggregation för en MapReduce- liknande miljö.