Cách học Machine Learning với Kaggle Micro Courses

“Bất cứ ai ngừng học đều già đi, dù ở tuổi hai mươi hay tám mươi. Bất cứ ai tiếp tục học thì vẫn còn trẻ." - Henry Ford

Học máy là cuộc nói chuyện của thị trấn trong kịch bản hiện tại. Chúng ta thấy việc sử dụng Máy học hàng ngày trong cuộc sống hàng ngày, Trợ lý Google hoặc Siri mà chúng ta sử dụng trong điện thoại thông minh, hệ thống nhận dạng khuôn mặt, ô tô tự lái và thậm chí cả công cụ tìm kiếm Google.

Có những cách sử dụng ML khác ảnh hưởng đến cuộc sống hàng ngày của chúng tôi nhưng chúng tôi không nhận ra nó như các chương trình Netflix đề xuất cho chúng tôi, đề xuất sản phẩm trên các trang thương mại điện tử khác nhau, phân loại thư rác của chúng tôi và thậm chí cả các đề xuất việc làm và sơ yếu lý lịch danh sách rút gọn.

“Những người phát triển khả năng tiếp thu liên tục các dạng kiến ​​thức mới và tốt hơn mà họ có thể áp dụng vào công việc và cuộc sống của họ sẽ là động lực và chuyển động trong xã hội của chúng ta trong tương lai vô định.” - Brain Tracy

Điều quan trọng là phải học những điều mới trong thế giới đang phát triển này và Máy học sẽ là một trong những lựa chọn tốt nhất để học. Có rất nhiều nguồn để học Machine Learning. Vì vậy, có rất nhiều khóa học video, blog và sách để học Khoa học dữ liệu và Máy học.

Kaggle là cộng đồng lớn nhất của các nhà khoa học dữ liệu và kỹ sư ML, nó có Bộ dữ liệu để đào tạo và thử nghiệm, Cộng đồng thảo luận, Cuộc thi để thực hành các vấn đề ML trong thế giới thực và Sổ tay để viết mã và giúp người mới bắt đầu viết mã. Nó cũng chứa các khóa học vi mô để dạy Machine Learning mà tôi coi là một trong những tài nguyên tốt nhất để học ML vì nó dạy bạn ML cùng với thực hành mã và có thời gian học 7-8 giờ, khá khả thi trong lịch trình bận rộn của chúng tôi .

Tôi đã viết ra một con đường khả thi cho người mới bắt đầu để học Máy học. Nó bao gồm thứ tự các khóa học vi mô phải kết thúc và chi tiết về những điều đã học trong mỗi khóa học.

Python

Điều đầu tiên cần học trong bất kỳ công việc nào liên quan đến phần mềm là ngôn ngữ lập trình. Python là một trong những ngôn ngữ tốt nhất để học trong trường hợp Học máy. Khóa học này dạy những điều cơ bản về Python, là nền tảng xây dựng cho các khóa học tiếp theo.

Liên kết: https://www.kaggle.com/learn/python

Pandas

Khóa học tiếp theo phải là khóa học Pandas, nói về một thư viện giúp đọc dữ liệu từ các định dạng khác nhau (.csv, .txt, .tsv) và chuyển đổi chúng thành khung dữ liệu hoặc chuỗi. Khung dữ liệu làm cho việc xử lý dữ liệu rất dễ dàng. Pandas là một trong những thư viện phổ biến nhất trong lĩnh vực khoa học dữ liệu. Trong khóa học này, chúng tôi tìm hiểu về các hoạt động khác nhau có thể được áp dụng trên dữ liệu của chúng tôi như sắp xếp, lọc, nhóm, v.v.

Liên kết: https://www.kaggle.com/learn/pandas

Data Visualization (Trực quan hóa dữ liệu)

Trực quan hóa dữ liệu là bước đầu tiên trong trường hợp xây dựng mô hình cho học máy. Trong bước này, chúng tôi thực hiện Phân tích dữ liệu khám phá (EDA) có nghĩa là vẽ biểu đồ và đồ thị cho các đối tượng địa lý và điểm dữ liệu khác nhau có trong dữ liệu. Nó giúp chúng ta hình dung dữ liệu và rút ra các suy luận từ nó và cũng có ấn tượng đầu tiên về những tính năng nào là quan trọng đối với việc xây dựng mô hình. Trong khóa học này, chúng ta tìm hiểu về Seaborn, một thư viện trực quan hóa dữ liệu. Chúng tôi học cách vẽ các loại biểu đồ khác nhau như Biểu đồ đường, Biểu đồ thanh, Biểu đồ phân tán, Biểu đồ phân phối, v.v.

Liên kết: https://www.kaggle.com/learn/data-visualization

Data Cleaning (Làm sạch dữ liệu)

Khóa học này cần thiết để cải thiện độ chính xác của các mô hình của chúng tôi. Trong EDA, chúng tôi cũng tìm hiểu về dữ liệu liệu nó có chứa giá trị rỗng, giá trị bị thiếu hoặc bất thường hay không. Cần phải xử lý các giá trị như vậy và trong khóa học này, chúng ta học về cách xử lý tập dữ liệu để tạo ra một tập dữ liệu sạch hơn và có tổ chức. Nó bao gồm xử lý các giá trị bị thiếu bằng cách sử dụng các phương pháp khác nhau như giảm giá trị, áp đặt, làm cho dữ liệu được phân phối đúng cách bằng cách mở rộng và chuẩn hóa và xử lý các mâu thuẫn khác trong dữ liệu như phân tích ngày tháng, mã hóa ký tự thích hợp và mâu thuẫn chính tả.

Liên kết: https://www.kaggle.com/learn/data-cleaner

Intro to Machine Learning (Giới thiệu về Học máy)

Bước tiếp theo sẽ là khóa học giới thiệu cho chúng ta về thế giới xây dựng Mô hình. Nó dạy chúng ta hai thuật toán ML - Cây quyết định và Rừng ngẫu nhiên và những điều cơ bản về EDA. Nó dạy các bước khác nhau trong xây dựng mô hình ML bao gồm thăm dò dữ liệu, xác định mô hình, xác nhận mô hình và điều chỉnh tham số của mô hình. Các scikit-học thư viện được sử dụng để làm tất cả những điều này vì nó có chứa nhiều mô hình ML được định sẵn.

Liên kết: https://www.kaggle.com/learn/intro-to-machine-learning

Feature Engineering (Kỹ thuật tính năng)

Kỹ thuật tính năng là bước tiếp theo để cải thiện mô hình của chúng tôi. Khóa học này dạy chúng ta cách tạo các tính năng mới từ các tính năng hiện có, sử dụng các kỹ thuật như Phân tích thành phần chính (PCA) và phân cụm K-means để chọn các tính năng quan trọng, đồng thời xác định các tính năng quan trọng khác nhau và sử dụng chúng trong mô hình của chúng tôi.

Liên kết: https://www.kaggle.com/learn/feature-engineering

Intermediate Machine Learning (Học máy trung cấp)

Bây giờ chúng tôi đã sẵn sàng để bắt đầu trò chơi của mình và tìm hiểu về những điều nâng cao hơn trong ML. Khóa học này chứa những thứ nâng cao cần thiết để nâng cao kiến ​​thức ML của chúng tôi. Nó chứa thông tin chi tiết về làm sạch dữ liệu cơ bản, kỹ thuật tính năng cơ bản, xây dựng đường ống, xác thực chéo và sử dụng các mô hình nâng cao như XGBoost, giới thiệu khái niệm đóng gói và tăng cường cho chúng ta.

Liên kết: https://www.kaggle.com/learn/inter Instant - machine - learning

Intro to Deep Learning (Giới thiệu về Học sâu)

Sau khi tìm hiểu về các thuật toán và mô hình Machine Learning, điều cần thiết là phải biết về các mô hình Deep Learning. Khóa học này giải thích các khái niệm khác nhau cần thiết để xây dựng mạng nơ-ron như nơ-ron, lớp (đầu vào, ẩn, đầu ra), thuật toán tối ưu hóa, bỏ qua và chuẩn hóa hàng loạt. Nó giúp chúng tôi xây dựng các mạng lưới thần kinh bằng cách sử dụng Tensorflow thư viện trong đó có Keras tích hợp trong nó.

Liên kết: https://www.kaggle.com/learn/intro-to-deep-learning

Machine Learning Explainability (Khả năng giải thích về học máy)

Sau khi xây dựng các mô hình, cần phải hiểu các mô hình hoạt động như thế nào. Nếu chúng tôi hiểu hoạt động của các mô hình khác nhau, điều đó sẽ giúp chúng tôi cải thiện các mô hình của mình và cũng loại bỏ sự thiên vị khỏi mô hình của chúng tôi. Thông tin chi tiết từ các mô hình giúp chúng tôi-
  • Gỡ lỗi
  • Thông tin về kỹ thuật tính năng
  • Định hướng thu thập dữ liệu trong tương lai
  • Cung cấp thông tin cho việc ra quyết định của con người
  • Xây dựng niềm tin

SHAP và LIME được sử dụng để suy ra thông tin chi tiết từ các mô hình và làm cho chúng dễ hiểu.

Liên kết: https://www.kaggle.com/learn/machine-learning-explainability

Giới thiệu về AI Ethics

Khóa học này cần thiết để giới thiệu đạo đức trong lĩnh vực AI và ML.

Liên kết: https://www.kaggle.com/learn/intro-to-ai-ethics

Specialized Domains (Miền chuyên biệt)

“Trong thời kỳ thay đổi mạnh mẽ, chính người học là người kế thừa tương lai. Những người được học thường thấy mình được trang bị để sống trong một thế giới không còn tồn tại. " - Eric Hoffer

Có nhiều trường hợp sử dụng chuyên biệt khác nhau của Học máy. Đây là những điều cần thiết để tìm hiểu nếu chúng ta muốn giải quyết vấn đề của một miền cụ thể. Các khóa học khác nhau được cung cấp trên Kaggle được đưa ra dưới đây-

Computer Vision (Tầm nhìn máy tính)

Trong khóa học này, tập dữ liệu bao gồm hình ảnh. Nó giới thiệu cho chúng ta về Mạng thần kinh hợp hiến (CNN). Nhiệm vụ phân loại ảnh cơ bản được thực hiện trong khóa học này. Khái niệm về tăng dữ liệu cũng được giới thiệu.

Liên kết: https://www.kaggle.com/learn/computer-vision

Natural Language Processing (Xử lý ngôn ngữ tự nhiên)

Trong khóa học này, tập dữ liệu bao gồm hình ảnh văn bản. Khái niệm cơ bản về phân loại văn bản và những điều cơ bản về NLP được giới thiệu trong khóa học này.

Liên kết: https://www.kaggle.com/learn/natural-language-processing

Geospatial Analysis (Phân tích không gian địa lý)

Trong khóa học này, tập dữ liệu có dữ liệu địa lý. Đó là về phân tích chứ không phải về xây dựng mô hình. Bản đồ tương tác được xây dựng từ dữ liệu không gian địa lý và sau đó các suy luận được rút ra từ nó.

Liên kết: https://www.kaggle.com/learn/geospatial-analysis