Sử dụng hàm isin() trong Pandas DataFrame

Chúng ta sẽ thảo luận trong hướng dẫn này cách sử dụng các toán tử SQL INNot IN tương tự để lọc pandas DataFrame . Hơn nữa, chúng tôi cũng sẽ chỉ cho bạn cách lọc một hàng/cột, lọc nhiều cột, lọc pandas DataFrame dựa trên các điều kiện bằng cách sử dụng hàm isin()unary operator (~) với sự trợ giúp của nhiều ví dụ khác nhau.

Nhận chỉ mục của tất cả các hàng có cột cụ thể thỏa mãn điều kiện đã cho trong Pandas

Chúng ta có thể lấy chỉ mục của tất cả các hàng có cột cụ thể thỏa mãn điều kiện đã cho trong Pandas bằng cách sử dụng thao tác lập chỉ mục đơn giản. Chúng tôi cũng có thể tìm thấy các chỉ số của chúng bằng cách sử dụng phương thức where() từ gói NumPy và phương thức query() của đối tượng DataFrame.

Kích thước khung dữ liệu gấu trúc

Thư viện Python Pandas đi kèm với một gói thuộc tính giúp chúng tôi thực hiện các tác vụ khác nhau. Trong khi làm việc với DataFrame gấu trúc, chúng ta có thể cần hiển thị kích thước, hình dạng và kích thước của DataFrame và nhiệm vụ này chúng ta có thể dễ dàng thực hiện bằng cách sử dụng một số thuộc tính phổ biến của gấu trúc như df.size , df.shapedf.ndim .

Tìm các hàng trùng lặp trong DataFrame bằng Pandas

Các giá trị trùng lặp phải được xác định từ tập dữ liệu của bạn như một phần của quy trình làm sạch. Dữ liệu trùng lặp sẽ tiêu tốn không gian lưu trữ không cần thiết và ít nhất là làm chậm quá trình tính toán; tuy nhiên, trong trường hợp xấu nhất, dữ liệu trùng lặp có thể làm sai lệch kết quả phân tích và ảnh hưởng đến tính toàn vẹn của tập dữ liệu.

Áp dụng một chức năng cho một cột trong Pandas Dataframe

Trong Pandas, các cột và khung dữ liệu có thể được chuyển đổi và thao tác bằng các phương thức như apply()transform() . Các phép biến đổi mong muốn được truyền dưới dạng đối số cho các phương thức dưới dạng hàm. Mỗi phương pháp có sự khác biệt tinh tế và tiện ích của nó. Bài viết này sẽ giới thiệu cách áp dụng một hàm cho một cột hoặc toàn bộ khung dữ liệu.