Mae data mawr yn cyfeirio at setiau data sy'n rhy fawr neu'n rhy gymhleth ar gyfer meddalwedd prosesu data traddodiadol. I ddelio â chronfa ddata enfawr, gyda miliynnau o resi a cholofnau ynddi, yna mae angen ateb gwahanol. Mwya'r data, y mwya yw'r gwallau a all godi, ac arafa mae'n prosesu'r wybodaeth.
Mae heriau sy'n wynebu ceidwaid data mawr yn cynnwys casglu data, integreiddio data, storio data, dadansoddi data, chwilio, cloddio, glanhau, rhannu, trosglwyddo, delweddu (visualization), ymholi, diweddaru a gwarchod data. Roedd data mawr yn gysylltiedig yn wreiddiol â thri chysyniad allweddol: cyfaint, amrywiaeth a chyflymder. Ceir cysyniadau eraill, gwirioneddol a briodwyd yn ddiweddarach e.e. faint o sŵn (neu 'wallau') sydd yn y data, a gwerth y data.
Ymddangosodd y term ar ffurf ffasiynol, fel buzzword yng nghanol y 2010au, i olygu 'yr holl ddata a gesglir gan y ddynoliaeth'. Fe'i bathwyd gan John Mashey yn 1998. Ar lefel fwy technegol, daeth y term i olygu'r dadansoddi rhagfynegol ac ymddygiad defnyddwyr a chwsmeriaid. Sylweddolwyd fod defnydd masnachol i ddata fel hyn, ac y gellid rhagweld yr hyn roedd y cwsmer yn dymuno ei brynnu. Ymhlith y defnydd eraill a wneir o ddata mawr y mae: rhagweld afiechydon a sut y mae heintiau'n ymledu neu casglu holl gofnodion dyddiol yr hinsawdd, meteoroleg, daeargrynfeydd ayb. Ond y defnydd mwayf sinistr o ddata mawr yw gan heddluoedd cudd, ac adrannau 'diogelwch' llywodraethau'r byd, er mwyn iddynt fonitro tuedd (ymweld â gwefannau, siopau ayb), diddordebau gwleidyddol a manylion personol eraill eu dinasyddion. Un o'r cwestiynau pwysicaf yma, yw pwy yw perchennog y data personol hwn.
Gwelwyd y twf a'r cynnydd eithriadol yng nghyfaint data mawr ar ddechrau'r 2000au, wrth i ddyfeisiau Rhyngrwyd pethau ddod o fewn gafael dinasyddion y byd. Daeth y ffôn clyfar, y tabled, camerâu, y cerdyn banc a llu o synwyryddion eraill yn bethau rhad, defnyddiol, ffasiynol a ddefnyddiwyd droeon mewn diwrnod, a'r data ohonynt yn cysylltu'n uniongyrchol i ddata mawr adrannau cudd y llywodraethau a chwmniau enfawr fel Google.
Law yn llaw a'r gallu hwn i gasglu data, datblygodd y gallu i'w storio. Yn fras, mae'r wybodaeth a gaiff ei storio yn dyblu bob 40 mis, ers y 1980au. Erbyn 20122 roedd 2.5 exabytes (2.5×1018) o ddata'n cael ei gynhyrchu yn fydeang. Rhagwelodd Adroddiad gan yr IDC bydd y twf hwn yn parhau ac yn cyflymu, ac erbyn 2020 roedd yn rhagweld y byddai cyfaint y data yn 44 zettabytes; erbyn 2025 mae'n rhagweld y bydd yn 163 zettabytes.