Vad är R -programmeringsspråk? Introduktion och grunderna i R

Vad är R Software?

R är ett programmeringsspråk och gratis programvara som utvecklades av Ross Ihaka och Robert Gentleman 1993. R har en omfattande katalog över statistiska och grafiska metoder. Den innehåller algoritmer för maskininlärning, linjär regression, tidsserier, statistisk slutsats för att nämna några. De flesta av R -biblioteken är skrivna i R, men för tunga beräkningsuppgifter föredras C, C ++ och Fortran -koder.

R är inte bara anförtrotts av akademiker, utan många stora företag använder också R -programmeringsspråk, inklusive Uber, Google, Airbnb, Facebook och så vidare.

Dataanalys med R görs i en serie steg; programmera, transformera, upptäcka, modellera och kommunicera resultaten

  • Program : R är ett tydligt och tillgängligt programmeringsverktyg
  • Omvandla : R består av en samling bibliotek utformade specifikt för datavetenskap
  • Upptäck : Undersök data, förfina din hypotes och analysera dem
  • Modell : R erbjuder ett brett utbud av verktyg för att fånga rätt modell för dina data
  • Kommunicera : Integrera koder, grafer och utdata i en rapport med R Markdown eller bygg blanka appar för att dela med världen

I denna introduktionshandledning lär du dig R

Vad används R till?

  • Statistisk slutsats
  • Dataanalys
  • Maskininlärningsalgoritm

R efter bransch

Om vi ​​bryter ner användningen av R efter bransch ser vi att akademiker kommer först. R är ett språk att göra statistik. R är förstahandsvalet inom hälso- och sjukvården, följt av regering och rådgivning.

R -paket

De primära användningarna av R är och kommer alltid att vara statistik, visualisering och maskininlärning. Bilden nedan visar vilket R -paket som fick flest frågor i Stack Overflow. I topp 10 är de flesta relaterade till arbetsflödet för en datavetare: dataförberedelse och kommunicera resultaten.

Alla R -bibliotek, nästan 12 000, lagras i CRAN. CRAN är en gratis och öppen källkod. Du kan ladda ner och använda de många biblioteken för att utföra maskininlärning eller tidsserieanalys.

Kommunicera med R

R har flera sätt att presentera och dela arbete, antingen genom ett markdown -dokument eller en blank app. Allt kan vara värd i Rpub, GitHub eller företagets webbplats.

Nedan är ett exempel på en presentation som är värd den Rpub

Rstudio accepterar markdown för att skriva ett dokument. Du kan exportera dokumenten i olika format:

  • Dokument:
    • HTML
    • PDF/Latex
    • Ord
  • Presentation
    • HTML
    • PDF -beamer

Rstudio har ett bra verktyg för att enkelt skapa en app. Nedan är ett exempel på app med Världsbankens data.

Varför använda R?

Datavetenskap formar hur företag driver sina företag. Utan tvekan kommer att hålla sig borta från artificiell intelligens och maskin leda till att företaget misslyckas. Den stora frågan är vilket verktyg/språk du ska använda?

De har gott om verktyg som finns tillgängliga på marknaden för att utföra dataanalys. Att lära sig ett nytt språk kräver lite tid. Bilden nedan visar inlärningskurvan jämfört med den affärsmöjlighet som ett språk erbjuder. Det negativa förhållandet innebär att det inte finns någon gratis lunch. Om du vill ge den bästa insikten från data måste du lägga lite tid på att lära dig det lämpliga verktyget, vilket är R.

Överst till vänster i diagrammet kan du se Excel och PowerBI. Dessa två verktyg är enkla att lära sig men erbjuder inte enastående affärsmöjligheter, särskilt när det gäller modellering. I mitten kan du se Python och SAS. SAS är ett dedikerat verktyg för att köra en statistisk analys för företag, men det är inte gratis. SAS är en klick -och -kör programvara. Python är dock ett språk med en monoton inlärningskurva. Python är ett fantastiskt verktyg för att distribuera maskininlärning och AI men saknar kommunikationsfunktioner. Med en identisk inlärningskurva är R en bra avvägning mellan implementering och dataanalys.

När det gäller datavisualisering (DataViz) hade du säkert hört talas om Tableau. Tableau är utan tvekan ett utmärkt verktyg för att upptäcka mönster genom grafer och diagram. Dessutom är det inte tidskrävande att lära sig Tableau. Ett stort problem med datavisualisering är att du kanske aldrig hittar ett mönster eller bara skapar massor av värdelösa diagram. Tableau är ett bra verktyg för snabb visualisering av data eller Business Intelligence. När det gäller statistik och beslutsverktyg är R mer lämpligt.

Stack Overflow är ett stort community för programmeringsspråk. Om du har ett kodningsproblem eller behöver förstå en modell är Stack Overflow här för att hjälpa. Under året har andelen frågevisningar ökat kraftigt för R jämfört med de andra språken. Denna trend är naturligtvis starkt korrelerad med datavetenskapens blomstrande ålder, men den återspeglar kravet på R -språk för datavetenskap.

Inom datavetenskap finns det två verktyg som konkurrerar med varandra. R och Python är förmodligen programmeringsspråket som definierar datavetenskap.

Ska du välja R?

Datavetare kan använda två utmärkta verktyg: R och Python. Du kanske inte har tid att lära dig båda, särskilt om du börjar lära dig datavetenskap. Lär dig statistisk modellering och algoritm är mycket viktigare än att lära sig ett programmeringsspråk. Ett programmeringsspråk är ett verktyg för att beräkna och kommunicera din upptäckt. Den viktigaste uppgiften inom datavetenskap är hur du hanterar data: import, rengöring, förberedelse, funktionsteknik, funktionsval. Detta bör vara ditt primära fokus. Om du försöker lära dig R och Python samtidigt utan en solid bakgrund i statistik är det helt enkelt dumt. Datavetare är inte programmerare. Deras jobb är att förstå data, manipulera dem och avslöja det bästa tillvägagångssättet. Om du funderar på vilket språk du ska lära dig, låt oss se vilket språk som passar dig bäst.

Huvudpubliken för datavetenskap är affärsprofessionell. I verksamheten är kommunikation en stor betydelse. Det finns många sätt att kommunicera: rapport, webbapp, instrumentpanel. Du behöver ett verktyg som gör allt detta tillsammans.

Är R svårt?

För år sedan var R ett svårt språk att behärska. Språket var förvirrande och inte lika strukturerat som de andra programmeringsverktygen. För att övervinna detta stora problem utvecklade Hadley Wickham en samling paket som kallades tidyverse. Spelregeln ändrades till det bästa. Datamanipulation blir trivial och intuitiv. Att skapa en graf var inte så svårt längre.

De bästa algoritmerna för maskininlärning kan implementeras med R. Paket som Keras och TensorFlow gör det möjligt att skapa avancerad maskininlärningsteknik. R har också ett paket för att utföra Xgboost, en den bästa algoritmen för Kaggle -tävling.

R kan kommunicera med det andra språket. Det är möjligt att ringa Python, Java, C ++ i R. Världen av stora data är också tillgänglig för R. Du kan ansluta R med olika databaser som Spark eller Hadoop.

Slutligen har R utvecklats och möjliggjort parallellisering för att påskynda beräkningen. Faktum är att R kritiserades för att endast använda en CPU i taget. Med parallellpaketet kan du utföra uppgifter i olika kärnor i maskinen.

Sammanfattning

I ett nötskal är R ett bra verktyg för att utforska och undersöka data. Utarbetad analys som klustering, korrelation och datareduktion görs med R. Detta är den mest avgörande delen, utan en bra funktionsteknik och modell kommer distributionen av maskininlärning inte att ge meningsfulla resultat.