آشنایی با فرایند داده کاوی در نرم افزار R گروه داده کاوی دایکه داود دوروش تابستان 6139
آشنایی با نرم افزار R بخش دوم
R Contributors R was initially written by Robert Gentleman and Ross Ihaka—also known as “R & R” of the Statistics Department of the University of Auckland. Since mid-1997 there has been a core group with write access to the R source Robert Gentleman Ross Ihaka
نقاط قوت نرم افزار R جامع ترین پکیج های تحلیل آماری در R وجود دارد. R یک زبان برنامه نویسی است که قابل توسعه می باشد و هر روز در حال توسعه بیشتر است. R قدرت گرافیکی برجسته ای دارد و با اکثر واسطهای گرافیکی ارتباط برقرار می کند. R رایگان و متن باز است و هرکسی می تواند آن را به دلخواه تغییر دهد. R هیچ محدودیت لایسنس ندارد و در هرجا و هرمکانی قابل استفاده است. R بیش از 9000 پکیج منتشر شده در موضوعات مختلف اقتصادسنجی،داده کاوی، تحلیل فضایی و اطلاعات زیستی و... در CRAN و تعداد زیادی پکیج بصورت غیر رسمی در Github دارد. R بر روی انواع نسخه های سیستم عامل های لینوکس، مک، ویندوز در نسخه های 32 و 64 بیتی قابل اجرا است. برای R گروه های پرسش و پاسخ فعالی وجود دارد و کتاب- هاو لینک های زیادی برای یادگیری R منتشر شده است. R با بسیاری از ابزارهای داده دیگر، نرم افزارهای آماری (Excel، SAS،SPSS و...)، دیتا بیس ها ( Oracle، MySql و...) و... ارتباط برقرار می کند. بهترین زبان برنامه نویسی مناسب برای شما در محیط R امکان استفاده از کدهای Cو C++ و Fortran وجود دارد و برنامه نویسان میتوانند با این زبان ها، مستقیما اشیا R را تغییر دهند.
نقاط ضعف نرم افزار R اکثر کدها و برنامه هایی که نوشته شده و منتشر شده سریع، ظریف و به آسانی قابل درک نیستند. در مقایسه بادیگر زبان های برنامه نویسی توسعه دهندگان بیشتر تمایل به تمرکز بر روی نتایج دارند تا فرایند اجرای کد. وجود تناقضات در بین برخی پکیج های منتشر شده در R در باره موضوعات مشابه بطور کلی R زبان کندی است(در اجرای پردازش های سنگین ضعیف عمل می کند) و مموری سیستم را زیاد مصرف می کند. IEEE Spectrum has just published its third annual ranking with its 2017 Top Programming Languages.
مفاهیم اولیه در R Objects Functions Arguments packages libraries Help (Description, usage, arguments, details, Value, Examples) Attributes (Names, Dim, … ) Environments Scripts options درک کسب و کار شناسایی و درک داده ها آماده سازی داده مدل سازی ارزیابی
انواع ساختارهای داده در R ماتریس(Matrics) آرایه(Array) لیست(List- recursive vector) دیتا فریم(data frames) بردارها(Atomic Vectors) a data frame is a list of vectors, data frame can have a column that is a list درک کسب و کار شناسایی و درک داده ها آماده سازی داده مدل سازی ارزیابی
انواع ساختارهای داده در R بردارها(Atomic Vectors) Integer Double Character Logical Complex NA مفهوم [ ] typeof () length () is.atomic (x) is.vector (x) مفهوم coercion factor() %/%, % table() درک کسب و کار شناسایی و درک داده ها آماده سازی داده مدل سازی ارزیابی
انواع ساختارهای داده در R ماتریس (Matrix) آرایه ها (Array) یک ساختار دوبعدی که در آن همه داده ها از یک نوع هستند آرایه ها می توانند داده ها را در بیش از 2 بعد نگهداری کنند. همه داده ها در ارایه ها از یک نوع هستند. لیست ها ((List لیست یک بردار عمومی (generic vector) است که هر عضو ان می تواند یک بردار با داده نوع منحصر بفرد باشد. مفهوم $ مفهوم [[ ]] dim is.list unlist match %/%, % table دیتافریم(dataframe) یک لیست از بردارها با طول یکسان است.معمولا برای ذخیره جداول استفاده می شود. nrow head, tail colnames درک کسب و کار شناسایی و درک داده ها آماده سازی داده مدل سازی ارزیابی
خواندن و نوشتن داده ها در R Read and write Data درک کسب و کار شناسایی و درک داده ها آماده سازی داده مدل سازی ارزیابی
Flat files درک کسب و کار شناسایی و درک داده ها آماده سازی داده مدل سازی ارزیابی
Data from Excel : “readxl”
Databases
Web