Вялікія даныя

Візуалізацыя штодзенных правак Вікіпедыі, створаная IBM. Тэкст і малюнкі Вікіпедыі займаюць тэрабайты памяці і з’яўляюцца прыкладам вялікіх даных.
Рост лічбавых магчымасцяў глабальнага захоўвання інфармацыі.

Вялікія даныя (вялікія звесткі) — тэрмін для азначэння набораў даных (англ.: data sets), якія з’яўляюцца настолькі вялікімі і складанымі, што традыцыйнае прыкладное праграмнае забеспячэнне для апрацоўкі даных не падыходзіць. Праблемы аналізу вялікіх даных уключаюць збор, захаванне, аналіз, пошук, абмен, перадачу, візуалізацыю, фільтрацыю, абнаўленне, канфідэнцыяльнасць і крыніцу даных. Цяперашняе выкарыстанне тэрміна «вялікія даныя», як правіла, адносіцца да выкарыстання прагнастычнай аналітыкі, аналітыкі паводзін карыстальнікаў або некаторых іншых перадавых метадаў аналітыкі даных і рэдка — да пэўнага памеру набору даных.

Аналіз набораў даных можа знайсці новыя сувязі для «выяўлення бізнес тэндэнцый, прадухілення хвароб, змагання са злачыннасцю і інш.» Навукоўцы, бізнесмены, медыкі-практыкі, рэкламшчыкі і ўрады вельмі часта сустракаюцца са складанасцямі з вялікімі данымі ў такіх галінах як інтэрнэт-пошук, фінансавая і бізнес-інфарматыка. Навукоўцы сутыкаюцца з абмежаваннямі ў працы электроннай навукі (e-Science), якая ўключае метэаралогію, геноміку, канэктоміку, складаныя фізіялагічныя сімуляцыі, біялагічныя і экалагічныя даследаванні.

Наборы даных растуць вельмі хутка і часткова таму што яны вельмі танна збіраюцца шэрагам мабільных прылад з інфа-сэнсарамі, у паветры (remote sensing), праграмнымі логамі, камерамі, мікрафонамі, радыё-рыдэрамі (radio-frequency identification (RFID)) і бесправаднымі сэнсарнымі сеткамі. Сусветныя тэхналагічныя магчымасці захоўвання інфармацыі на чалавека падвойваліся кожныя 40 месяцаў з 1980-ых; у 2012 кожны дзень ствараецца 2,5 эксабайт (2.5×1018) дадзеных. Для буйных прадпрыемстваў узнікае новае пытанне, хто павінен валодаць вялікімі данымі, якія ўздзейнічаюць на ўсю арганізацыю.

Сістэмы кіравання рэляцыйнымі базамі даных і статыстычнае праграмнае забеспячэнне для візуалізацыі даных часта адчуваюць цяжкасці з апрацоўкай і аналізам вялікіх даных. Часта такая задача патрабуе «праграмнага забеспячэння, здольнага працаваць паралельна на дзясятках, сотнях і нават тысячах сервераў». Што лічыць «вялікімі данымі» залежыць ад магчымасцяў карыстальнікаў і іх інструментаў. «Для некаторых арганізацый сутыкненне з сотнямі гігабайт даных можа выклікаць неабходнасць пераглядзець варыянты кіравання данымі. Для іншых могуць спатрэбіцца дзясяткі ці сотні тэрабайт, перш чым памер даных стане важным фактарам.».

Характарыстыкі

Вялікія даныя могуць быць апісаны наступнымі характарыстыкамі:

Аб’ём
Колькасць згенераваных і захаваных даных. Памер даных вызначае каштоўнасць і патэнцыйна дапамагае іх разуменню, а таксама вызначае тое, ці можна лічыць іх вялікімі данымі. Памер вялікіх даных звычайна перавышае тэрабайты і петабайты.
Разнастайнасць
Тып і прырода даных. Гэта дапамагае людзям, якія аналізуюць такія даныя эфектыўна выкарыстоўваць выніковае разуменне.
Хуткасць
У гэтым кантэксце хуткасць, з якой гэтыя даныя генеруюцца і апрацоўвацца, сустракаюць патрабаванні і выклікі, якія ляжаць на шляху росту і развіцця.
Варыятыўнасць
Непаслядоўнасць такіх даных можа прадухіляць працэсы кіравання імі.
Праўдападобнасць
Якасць сабраных даных можа значна адрознівацца і ўздзейнічаць на дакладнасць аналізу.

Зноскі

  1. Source
  2. "Community cleverness required". Nature. 455 (7209): 1. 4 September 2008. doi:10.1038/455001a.
  3. Reichman, O.J.; Jones, M.B.; Schildhauer, M.P. (2011). "Challenges and Opportunities of Open Data in Ecology". Science. 331 (6018): 703–5. doi:10.1126/science.1197962. PMID 21311007.
  4. Hellerstein, Joe. Parallel Programming in the Age of Big Data(недаступная спасылка). Gigaom Blog (9 лістапада 2008). Архівавана з першакрыніцы 7 кастрычніка 2012. Праверана 8 сакавіка 2016.
  5. Segaran, Toby; Hammerbacher, Jeff (2009). Beautiful Data: The Stories Behind Elegant Data Solutions. O'Reilly Media. p. 257. ISBN 978-0-596-15711-1.
  6. Hilbert, Martin; López, Priscila (2011). "The World's Technological Capacity to Store, Communicate, and Compute Information". Science. 332 (6025): 60–65. doi:10.1126/science.1200970. PMID 21310967. {{cite journal}}: Няправільны |ref=harv (даведка)
  7. IBM What is big data? – Bringing big data to the enterprise. www.ibm.com. Праверана 26 жніўня 2013.
  8. Oracle and FSN, «Mastering Big Data: CFO Strategies to Transform Insight into Opportunity» Архівавана 5 мая 2017., December 2012
  9. Jacobs, A.. The Pathologies of Big Data. ACMQueue (6 ліпеня 2009).
  10. Magoulas, Roger; Lorica, Ben (February 2009). "Introduction to Big Data". Release 2.0. Sebastopol CA: O'Reilly Media (11).
  11. Hilbert, Martin. Big Data for Development: A Review of Promises and Challenges. Development Policy Review.. martinhilbert.net. Праверана 7 кастрычніка 2015.
  12. Hilbert, M. (2015).