Što nam donosi novi SQL Server 2014 ?

SQL Server 2014

Jučer se održao prvi dan Microsoftovog TechEda 2013  u New Orleansu (SAD) i donio nam je neke novosti vezane za novi SQL Server 2014.

Dok je fokus SQL Servera 2012 bio oko in memory tehnologije u svrhu OLAP-a (SSAS Tabular), fokus novog SQL Servera će očito biti primjena iste u OLTP svijetu odnosno u transakcijskim bazama. Ovo nije neka nova vijest s obzirom da je ovaj projekt i prije zvan projektom “Hekaton”.

Microsoft se  sa SQL Server 2014 sve više zabavlja cloud tehnologijama i spajanju s Big Data podacima putem Hadoopa, te performansama kod real time podataka i izvještavanju u realnom vremenu.

Kako ne bi puno filozofirao, uputiti ću vas na Microsoftov službeni članak.

Uživajte !

Data scientist – zanimanje budućnosti

Ako pratite svijet poslovne analitike i zadnje sveprisutne Big Data analitike, onda ste zasigurno naletjeli na činjenicu da će poslovni analitičari i data scientisti biti najtraženija roba na tržištu rada i da će morati dobro zasukati rukave kako bi došli do ove titule. Je li data scientist najseksi zanimanje današnjice? Ne bih znao, međutim većina istraživanja pokazuje da fizički atraktivniji ljudi dobivaju bolje plaćene poslove i pozicije pri zapošljavanju. Istina ili ne, znanost ili samo puka pretpostavka, to ostavljam vama na maštu.

Traže ih najveće financijske kuće, traže ih poslodavci iz Google-a, Facebooka i LinkedIn-a. Tko su ti ljudi, kojih će prema američkim procjenama na tržištu rada od 2014 do 2018 nedostajati oko 150 tisuća ? Iako je pojam data scientista tek novijeg datuma i da su se vodile razne borbe oko pojma data scientista, ja bi kroz nekoliko rečenica opisao koje vještine bi trebao imati data scientist, što on to radi i što se radi da bi se “proizveli” kadrovi ovog tipa.

Vještine i školovanje znanstvenika podataka

Data Scientist bi trebao imati statističke, matematičke vještine kao i vještine iz prediktivnog modeliranja. To uključuje poznavanje nekoliko programskih jezika što uključuje Javu i Python, te R kao jezik za analizu velikih količina podataka i uz to vezano Hadoop, Hive i MapReduce. Uz tehničke vještine data scientist bi trebao dobro poznavati poslovnu stranu poduzeća, temoraju biti u mogućnosti izražavati se oralno i vizualno kako bi najkreativniji način našao do mogućeg otkrića.

Ovo su područja s kojima data scientist mora biti upoznat:

  • Natural Language Processing – interakcija između računala i čovjeka
  • Machine learning (strojno učenje) – učenje računala kroz podatke
  • Statističke analize
  • Prediktivno modeliranje

Ukratko, možemo zaključiti da data scientisti moraju posjedovati znanje iz više područja. Odlični data scientisti imaju različita područja djelovanja kao što su ekonometrija, fizika, biostatistika, računalstvo, primjenjena matematika ili inžinjering.

Naravno, data scientisti sa svim ovim znanjima i vještinama su iznimno rijetki, što ih automatski diže na cijeni. Uglavnom to su ljudi koji iza sebe imaju godine i godine rada u znanosti i industriji, pa većinom imaju doktorate.

Postoji li škola za data scientiste? U SAD-u se sve više otvaraju “usmjerenja” na najprestižnijim fakultetima kao što su MIT, Stanford ili Harvard. Što se tiče Europe siguran sam samo za sveučilište u Dundee-u (Škotska), koja osim vrhunskog BI usmjerenja sve više daje pažnje pri razvoja ovakvog tipa kadra.

Kažete da nema posla? Kod i kreativnost u ruke, s zanimanjem znanstvenika podataka ne možete pogriješiti.

Autor: Hrvoje Gabelica

Analitika podataka “u memoriji”

29

Ako pratite tržište poslovne analitike onda ste zacijelo čuli za pojam analitike u memoriji ili In-memory analytics. Naravno, ovaj pojam se kod svakog proizvođača softvera naziva drukčije. Kod Microsofta je to Vertipaq/xVelocity, a kod Tableau-a je VizQL.

Brzina je jedan od najvažnijih aspekata analize podataka. Najbolji dio in memory analitike je taj da pošaljete upit i da vam računalo vrati odgovor u nekoliko sekundi ili manje od nje.. Međutim odgovor upita ovisi o količini podataka prema kojoj šaljemo upit, ali ovakva brzina odgovora na upite nije oduvijek bila moguća.

Problem je u tome što su baze podataka uglavnom smještene na običnim diskovima stoga povlačenje i analiza ogromne količine podataka može trajati satima i danima.

Kako riješiti ovaj problem? Pa jednostavno, baze podataka prebacimo na RAM memoriju zato što je pristup podacima putem RAM-a brži…puno brži.

Čini se jednostavnim, međutim zašto se ljudi prije toga nisu sjetili i zašto tek sad pričamo o In-Memory tehnologiji.

1.) Sve veća primjena informacijskih sustava je eksponencijalno povećala količinu podataka koja se iz godine u godinu sve više stvara stoga je potrebno imati brži način pri upitu u baze podataka.

2.) Pad cijene RAM memorije. Razvoj tehnologije je doveo do velikog pada cijena RAM memorije, pa se tako nekoliko desetina gigabajta RAM memorije može naći po pristupačnim cijenama.

Što je zajedničko Microsoft-ovom Powerpivotu, SAP HANA, Tableau i Qlikview-u?

  • Ovo su alati za poslovnu inteligenciju/analitiku podataka.
  • Koriste In-memory tehnologiju kao back end arhitekturu.

Toliko od mene za danas o ovoj temi. Ukoliko želite saznati nešto više o ovoj tematici postoji veliki broj whitepapera od različitih proizvođača softvera.

Prediktivna analitika : Moć predviđanja tko će kliknuti, kupiti, lagati ili umrijeti

?????????????????

Iako je naslov ovog članka pomalo u maniri hollywooda, očito ste shvatili o čemu ću danas prisati. Inače naslov je prevednica knjige Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die autora Erica Siegela, da vi, dragi moji čitatelji ne bi pomislili odakle meni toliko kreativnosti da izmislim ovakav provokativan naslov. Dobro, da ne pobjegnem od tematike vrijeme za krenemo od osnova.

Što je prediktivna analitika?

Predikitvna analitika je praksa ekstrahiranja informacija iz postojećih podataka kako bi utvrdili uzorke, te kako bi predvidjeli buduće ishode i trendove. Prediktivni modeli se tipično koriste za „proricanje“ vjerojatnih događaja u budućnosti s određenom razinom pouzdanosti. Je li vas ovo podsjeća na babe gatare koji vam gataju budućnosti na osnovu nekih karakteristika. Naravno, ima nekih poveznica, međutim naše gatare su softveri za rudarenje podataka koji nam putem određenih algoritama rudarenja podataka i povijesnih podataka „gataju“ što će se dogoditi u budućnosti. U poslovnom smislu prediktivna analitika služi za predviđanje nekih stvari koje nam „obični“ alati za poslovnu inteligenciju ne mogu obaviti, a to se ponajviše odnosi na bolje razumijevanje kupaca, proizvoda, partnera kako bi identificirali potencijalne rizike i mogućnosti za poduzeće.

Što možemo predvidjeti?

Pravo bi pitanje bilo : „ Što ne možemo predvidjeti “ ? Veliki broj stvari je lako predvidiv, međutim za to su potrebni kvalitetni podaci. Međutim vratimo se tristo godina unatrag i upoznajmo Johna Graunta, prvog data scientista (znanstvenika podataka) i znanstvenika amatera. Inače John je živio u vrijeme najveće kuge koja je tada harala i u svojoj „knjizi“ Bills of Mortality je spojio sve podatke o umrlima i htio je na osnovu uzoraka znati tko je umro od kuge, a tko od neke druge bolesti, te je došao do zaključaka koji su za to vrijeme bili fascinantni. Smatra se da je J.Graunt otac statistike i rudarenja podataka, jer je po prvi puta gledajući u podatke koje je prikupio našao ono vrijedno, a to su uzorci koje golim oko ne možemo vidjeti. Međutim, danas su stvari nešto drugačije i danas ljude uglavnom zamijenjuju računala i softverski proizvodi, međutim ne u potpunosti. Vratimo se na prediktivnu analitiku i počnimo od predviđvanja najkompleksnije stvari, a to su ljudi i njihova ponašanja. Smatrate da ljudska ponašanja nisu predvidiva? Antropolozi smatraju da smo itekako predvidivi i da je naš svaki korak lako predvidjeti. Zamislite svoj put od kuće do posla i zamislite da svaki put kad otključate vrata od kuće, upalite auto i odete na posao zapravo kreirate podatke o svom ponašanju. Da te podatke možemo nekako realno izraziti, lako bi mogli predvidjeti kad ćemo se dignuti, otključati vrata od kuće, upaliti auto i kojim ćemo putem ići na posao. Ako mislite da ovo izmišljam napisati ću vam konkrentniji primjer. Policija Los Angelesa (LAPD) je upravo ovo primijenila na svom problemu, odnosno na problemu kriminala. Od svih podataka iz prošlosti su našli način kako predvidjeti sljedeći korak kriminalaca na točno određenoj lokaciji i u točno određeno vrijeme. Zvuči nemoguće, međutim ova metoda je smanjila 5% općeg kriminala i 20% krađa auta u LA-u. Na prvu nije puno, ali gledajući da Los Angeles nije mali grad, ova brojka je fascinantna. Algoritam radi na jednostavan način i to na primjeru stvarnog događaja. Inače epicentar potresa se ne može predvidjeti, međutim mali potresi koji se događaju nakon velikog potresa se lako predviđaju stoga su dvoje znanstvenika: antropolog i matematičar razvili algoritam koji isti taj princip primjenjuje na podacima kriminalnih događaja. Koliko ovo zvučalo „uvrnuto“ to je realnost i sve će se više vremena posvećivati izučavanju ovog područja i razvijanju novih algoritama za predviđanje stvarnih događaja.

 Korist ili iskorištavanje ?

Sad kad smo saznali da se lako možemo predvidjeti, pitanje je kako ovo možemo primijeniti u poslovanju. Pa svaki dan poduzeća koriste prediktivnu analitiku na nama samo to nismo svjesni. Sigurno vam je poznata situacija kad ste teti u Konzuma dali karticu lojalnosti kako biste dobivali bodove. Međutim, oni na temelju vaših kupnji znaju što biste mogli kod njih kupiti u budućnosti i na te proizvode vam daju popust. Malo ekstremnija situacija previđanja je primjena prediktivne analitike na Big Data podacima, gdje tvrtka zna što ćete kupiti, a da vi niste ni svjesni toga i sve na temelju podataka koje mi šakom i kapom dijelimo bilo na društvenim mrežama ili nekih drugim servisima. Etično ili ne ? S jedne strane ovo je super, jer znam da ću dobiti reklame samo za ono što me zanima (ne želim gledati političke reklame). S druge strane zašto bi mi gurali reklame proizvoda na temelju podataka koji su oni prikupili protivno mom odobrenju ?

Pozitivna strana prediktivne analitike

Naravno da izbjegnemo korporacijski duh iskorištavanja podataka, prijeđimo na pozitivnije stvari. Ono što je mene fasciniralo je primjena Big Data analitike u medicini tj. kod DNA podataka. U bliskoj budućnosti ćemo moći vidjeti kolika je vjerojatnost da obolimo od neke bolesti na temelju naših genskih podataka i onda nam doktori mogu proaktivno prepisati lijek koji je „skrojen“ samo za nas. Naravno, tu dolazi i do primjene prediktivne analitike u farmaceutskoj industriji koja sve ovo zna zloupotrijebiti. Primjera radi, vjerojatno niste znali da je farmaceutska industrija jedna od najjačih industrija u SAD-u uz bok samoj industriji oružja. Smatram da će kombinacija prediktivne analitike i Big Data podataka promijeniti svijet kakav znamo. Gledajući BBC-ov dokumentarac Age of Big Data, shvatio sam kolika je široka primjena svega ovoga o čemu pišem. Najfascinantniji su mi istraživački sateliti koji će u roku deset godina biti konstruirani u južnoafričkoj pustinji i koia će u sekundi proizvoditi 14 terabajta podataka i to je stvarno fascinantna brojka koja će zahtjevati itekako jake hardverske resurse. Međutim od tih podataka ćemo moći saznati mnoge stvari o svemiru i predvidjeti neke stvari koji do sada nisu bile moguće. Što nam može donijeti prediktivna analitika u budućnosti ? Vrijeme će pokazati i iako ga prozivaju hype-om ovo je realnost s kojom se svako društvo mora suočiti. O alatima ćemo nekom drugom prilikom 🙂