Eru gögn vísindi og Big Data Hadoop eins? Er munur á milli þeirra eða meina báðir það sama?


svara 1:

Nei, örugglega ekki.

Við skulum skipta þessu vandamáli í þrjá hluta:

Gagnafræði er sérhæfing til að leysa ýmis vandamál með mismunandi aðferðum frá tölfræði, combinatorics, stærðfræði og tölvunarfræði osfrv.)

Big Data: Big Data í víðasta skilningi er hugtak til að takast á við mikið magn gagna (hugtakið „gríðarstór er afstæður“) utan hefðbundinna aðferða.

Hadoop: Hadoop er umgjörð eða umhverfi þar sem hægt er að stjórna og vinna mikið magn gagna með ýmsum tækjum (PIG, HIVE, Scoop, Fume, osfrv.).

Tilvísanir:

Kennsla í Hadoop

Gagnafræði

Stór gögn


svara 2:

Ég geri ráð fyrir að þér hafi dottið í hug að „Data Science“ og „Big Data Hadoop“ væru tveir mismunandi hlutir, en það eru reyndar þrír. Gagnafræði, stór gögn og Hadoop hafa mismunandi merkingu.

Segjum að þú sért nemandi í 10. bekk. Þú hefur fengið það verkefni að meðaltali í einkunn sem bekkjarsystkini þín hafa unnið í hverju fagi. Þú ert með 50 nemendur í bekknum þínum, hver og einn að læra 5 námsgreinar. Að finna meðaltalið eru ekki eldflaugar vísindi, svo gerðu allt í einu Excel blaði. Nú mun kennarinn þinn biðja þig um að gera sama útreikning fyrir alla hluta A, B og C sem eru um það bil 150 nemendur. Excel töflureiknið nægir aftur. Nú viltu vita hver meðaleinkunn vísinda er fyrir nemendur í 10. bekk víðs vegar um landið. Það eru um það bil 14.331.861 nemendur árið 2016. Þú gætir ekki getað vistað svona mikið af gögnum í einu Excel blaði, svo þú myndir vista þau í gagnagrunni eins og MySQL eða Oracle. Þú keyrir SQL fyrirspurn til að finna meðaltalið. Nú forvitnast þú að sjá hvernig meðaltölin hafa verið í 10. bekk vísinda í 20 ár, sem samsvarar um 3000000 skrám. Ef þú fannst meðaltal allra fimm greina og ekki bara vísinda myndirðu vinna 30.000.000 x 5 skrár. Gögnin eru nú stór, sem einnig er þekkt sem „stór gögn“.

Big Data - ákaflega mikið magn gagna sem hægt er að greina stærðfræðilega til að sýna munstur, þróun og samtök, sérstaklega með tilliti til hegðunar og samskipta manna. - Frá Wikipedia

Þú ættir líklega ekki að geyma svona mikið af gögnum í MySQL eða Oracle og keyra SQL fyrirspurn þína á milljón gögnum. Ég hef aldrei unnið svo mikið af gögnum í SQL gagnagrunni svo ég mun ekki tjá mig um frammistöðu þeirra, en ég hef notað Hadoop til að vinna úr miklu magni af skrám sem eru miklu stærri en nemendagagnagrunnurinn sem við erum að tala um. Hadoop er umgjörð sem dreifir gögnum til nokkurra kerfa, þannig að öll kerfin geta reiknað út samhliða, sem eykur heildarhraða útreikningsins, einnig kallað dreifð computing. Hadoop er með sitt eigið skráarkerfi, sem er gagnageymslukerfi fyrir stór gögn.

Gagnafræðin í leikmennum eru vísindi til að skilja hvað eigi að gera við gögnin, stór eða smá. Hingað til höfum við aðeins reynt að meðaltal skora, en gagnafræðingur hefur einnig skoðað leiðir til að komast að því hvað er hægt að ná með meðaltalinu. Fyrir stofnun hjálpar hann þeim að taka viðskiptaákvarðanir og finna mynstur sem hjálpa stjórnendum að taka betri ákvarðanir og úthluta fjármagni til að auka hagnað. Flestir vísindamenn gagna nota ekki einu sinni Hadoop ef þeir hafa ekki áhyggjur af stórum gögnum. Þeir nota venjulega R lang eða Python við útreikninga sína.

Stór gögn eru hugtak. Hadoop er tæki. Gagnafræði er svæði tölvunarfræði.


svara 3:

Ég geri ráð fyrir að þér hafi dottið í hug að „Data Science“ og „Big Data Hadoop“ væru tveir mismunandi hlutir, en það eru reyndar þrír. Gagnafræði, stór gögn og Hadoop hafa mismunandi merkingu.

Segjum að þú sért nemandi í 10. bekk. Þú hefur fengið það verkefni að meðaltali í einkunn sem bekkjarsystkini þín hafa unnið í hverju fagi. Þú ert með 50 nemendur í bekknum þínum, hver og einn að læra 5 námsgreinar. Að finna meðaltalið eru ekki eldflaugar vísindi, svo gerðu allt í einu Excel blaði. Nú mun kennarinn þinn biðja þig um að gera sama útreikning fyrir alla hluta A, B og C sem eru um það bil 150 nemendur. Excel töflureiknið nægir aftur. Nú viltu vita hver meðaleinkunn vísinda er fyrir nemendur í 10. bekk víðs vegar um landið. Það eru um það bil 14.331.861 nemendur árið 2016. Þú gætir ekki getað vistað svona mikið af gögnum í einu Excel blaði, svo þú myndir vista þau í gagnagrunni eins og MySQL eða Oracle. Þú keyrir SQL fyrirspurn til að finna meðaltalið. Nú forvitnast þú að sjá hvernig meðaltölin hafa verið í 10. bekk vísinda í 20 ár, sem samsvarar um 3000000 skrám. Ef þú fannst meðaltal allra fimm greina og ekki bara vísinda myndirðu vinna 30.000.000 x 5 skrár. Gögnin eru nú stór, sem einnig er þekkt sem „stór gögn“.

Big Data - ákaflega mikið magn gagna sem hægt er að greina stærðfræðilega til að sýna munstur, þróun og samtök, sérstaklega með tilliti til hegðunar og samskipta manna. - Frá Wikipedia

Þú ættir líklega ekki að geyma svona mikið af gögnum í MySQL eða Oracle og keyra SQL fyrirspurn þína á milljón gögnum. Ég hef aldrei unnið svo mikið af gögnum í SQL gagnagrunni svo ég mun ekki tjá mig um frammistöðu þeirra, en ég hef notað Hadoop til að vinna úr miklu magni af skrám sem eru miklu stærri en nemendagagnagrunnurinn sem við erum að tala um. Hadoop er umgjörð sem dreifir gögnum til nokkurra kerfa, þannig að öll kerfin geta reiknað út samhliða, sem eykur heildarhraða útreikningsins, einnig kallað dreifð computing. Hadoop er með sitt eigið skráarkerfi, sem er gagnageymslukerfi fyrir stór gögn.

Gagnafræðin í leikmennum eru vísindi til að skilja hvað eigi að gera við gögnin, stór eða smá. Hingað til höfum við aðeins reynt að meðaltal skora, en gagnafræðingur hefur einnig skoðað leiðir til að komast að því hvað er hægt að ná með meðaltalinu. Fyrir stofnun hjálpar hann þeim að taka viðskiptaákvarðanir og finna mynstur sem hjálpa stjórnendum að taka betri ákvarðanir og úthluta fjármagni til að auka hagnað. Flestir vísindamenn gagna nota ekki einu sinni Hadoop ef þeir hafa ekki áhyggjur af stórum gögnum. Þeir nota venjulega R lang eða Python við útreikninga sína.

Stór gögn eru hugtak. Hadoop er tæki. Gagnafræði er svæði tölvunarfræði.