Reynold Xin
Reynold Xin | |
---|---|
Alma mater |
UC Berkeley (Ph.D.) University of Toronto (BA.Sc.) |
Känd för | Apache Spark , Databricks |
Vetenskaplig karriär | |
Fält | Datavetenskap |
Doktorand rådgivare | Michael J. Franklin |
Reynold Xin är en datavetare och ingenjör som specialiserat sig på big data , distribuerade system och cloud computing . Han är en av grundarna och chefsarkitekten för Databricks . Han är mest känd för sitt arbete med Apache Spark , ett ledande Big Data- projekt med öppen källkod. Han var designer och huvudutvecklare av GraphX , Project Tungsten och Structured Streaming och han var med och designade DataFrames , som alla är en del av Apache Sparks kärndistribution; han fungerade också som release manager för Sparks 2.0 release.
Biografi
Berkeley
Xin började sitt arbete med Spark open source-projektet medan han var doktorand vid AMPLab vid University of California, Berkeley . Han fick sin Ph.D. i datavetenskap från Berkeley, där hans rådgivare var Michael J. Franklin och Ion Stoica .
Det första forskningsprojektet, Shark, skapade ett system som effektivt kunde exekvera SQL och avancerade analytiska arbetsbelastningar i stor skala. Shark vann Best Demo Award på SIGMOD 2012. Shark var en av de första interaktiva SQL-filerna med öppen källkod på Hadoop-system, med påståenden att den var mellan 10 och 100 gånger snabbare än Apache Hive . Shark användes av teknikföretag som Yahoo, även om det ersattes av ett nyare system som heter Spark SQL 2014.
Det andra forskningsprojektet, GraphX, skapade ett grafbearbetningssystem ovanpå Spark, ett allmänt dataparallellt system. GraphX utmanade samtidigt uppfattningen att specialiserade system är nödvändiga för grafberäkning. GraphX släpptes som ett projekt med öppen källkod och slogs samman till Spark 2014, som grafbehandlingsbiblioteket på Spark.
Databricks
2013, tillsammans med Matei Zaharia och andra viktiga Spark-bidragsgivare, var Xin med och grundade Databricks , ett riskstödt företag baserat i San Francisco som erbjuder dataplattform som en tjänst, baserad på Spark.
2014 ledde Xin ett team av ingenjörer från Databricks för att tävla i Sort Benchmark och vann 2014 års världsrekord i Daytona GraySort med hjälp av Spark, och slog Apache Hadoops tidigare rekord med 30 gånger. Xin hävdade att Spark var den snabbaste motorn med öppen källkod för att sortera en petabyte med data.
Medan han var på Databricks startade han också DataFrames-projektet, Project Tungsten och Structured Streaming. DataFrames har blivit det grundläggande API:et medan Tungsten har blivit den nya exekveringsmotorn.