pandalar

Pandas Python'da Yinelenen Satırlar Nasıl Düşürülür

Pandas Python'da Yinelenen Satırlar Nasıl Düşürülür
Python, veri analizi için en popüler programlama dillerinden biridir ve ayrıca çeşitli Python veri merkezli paketlerini destekler. Panda paketleri, en popüler Python paketlerinden bazılarıdır ve veri analizi için içe aktarılabilir. Hemen hemen tüm veri kümelerinde, veri analizi veya aritmetik işlem sırasında sorunlara neden olabilecek yinelenen satırlar sıklıkla bulunur. Veri analizi için en iyi yaklaşım, yinelenen satırları belirlemek ve bunları veri kümenizden kaldırmaktır. Pandas drop_duplicates() işlevini kullanarak, bir veri çerçevesinden yinelenen kayıtları kolayca bırakabilir veya kaldırabilirsiniz.
Bu makale, Pandas Python işlevlerini kullanarak verilerdeki yinelenenleri nasıl bulacağınızı ve yinelenenleri nasıl kaldıracağınızı gösterir.

Bu yazıda, Amerika Birleşik Devletleri'ndeki farklı eyaletlerin nüfusuna ilişkin bir veri seti aldık .csv dosya biçimi. okuyacağız .csv dosyası, bu dosyanın orijinal içeriğini aşağıdaki gibi göstermek için:

pandaları pd olarak içe aktar
df_state=pd.read_csv("C:/Kullanıcılar/DELL/Masaüstü/population_ds.csv")
yazdır(df_durumu)

Aşağıdaki ekran görüntüsünde, bu dosyanın yinelenen içeriğini görebilirsiniz:

Pandas Python'da Kopyaları Tanımlama

Kullanmakta olduğunuz verilerin yinelenen satırlara sahip olup olmadığını belirlemeniz gerekir. Veri tekrarını kontrol etmek için aşağıdaki bölümlerde ele alınan yöntemlerden herhangi birini kullanabilirsiniz.

Yöntem 1:

csv dosyasını okuyun ve veri çerçevesine iletin. Ardından, yinelenen satırları kullanarak tanımlayın kopyalanmış() fonksiyon. Son olarak, yinelenen satırları görüntülemek için print ifadesini kullanın.

pandaları pd olarak içe aktar
df_state=pd.read_csv("C:/Kullanıcılar/DELL/Masaüstü/population_ds.csv")
Dup_Rows = df_state[df_state.kopyalanmış()]
print("\n\nYinelenen Satırlar: \n ".biçim(Dup_Rows))

Yöntem 2:

Bu yöntemi kullanarak, is_duplicated sütun tablonun sonuna eklenecek ve yinelenen satırlar olması durumunda 'True' olarak işaretlenecektir.

pandaları pd olarak içe aktar
df_state=pd.read_csv("C:/Kullanıcılar/DELL/Masaüstü/population_ds.csv")
df_state["is_duplicate"]= df_state.kopyalanmış()
print("\n ".biçim(df_durumu))

Pandas Python'da Kopyaları Bırakma

Yinelenen satırlar, aşağıdaki sözdizimi kullanılarak veri çerçevenizden kaldırılabilir:
drop_duplicates(subset=", keep=", inplace=Yanlış)
Yukarıdaki üç parametre isteğe bağlıdır ve aşağıda daha ayrıntılı olarak açıklanmıştır:
Tut: bu parametrenin üç farklı değeri vardır: First, Last ve False. First değeri ilk oluşumu tutar ve sonraki yinelemeleri kaldırır, Last değeri yalnızca son oluşumu tutar ve önceki tüm yinelemeleri kaldırır ve False değeri tüm yinelenen satırları kaldırır.
alt küme: yinelenen satırları tanımlamak için kullanılan etiket
yerinde: iki koşul içerir: Doğru ve Yanlış. Bu parametre, True olarak ayarlanırsa yinelenen satırları kaldıracaktır.

Yalnızca İlk Oluşumu Koruyarak Yinelenenleri Kaldırın

"Keep=first" kullandığınızda, yalnızca ilk satır oluşumu korunur ve diğer tüm kopyalar kaldırılır.

Misal

Bu örnekte, yalnızca ilk satır tutulacak ve kalan kopyalar silinecektir:

pandaları pd olarak içe aktar
df_state=pd.read_csv("C:/Kullanıcılar/DELL/Masaüstü/population_ds.csv")
Dup_Rows = df_state[df_state.kopyalanmış()]
print("\n\nYinelenen Satırlar: \n ".biçim(Dup_Rows))
DF_RM_DUP = df_state.drop_duplicates(keep='ilk')
print('\n\nYinelenen kaldırma işleminden sonra Sonuç DataFrame :\n', DF_RM_DUP.kafa(n=5))

Aşağıdaki ekran görüntüsünde, tutulan ilk satır oluşumu kırmızıyla vurgulanır ve kalan yinelemeler kaldırılır:

Yalnızca Son Oluşumu Koruyarak Yinelenenleri Kaldırın

“Keep=last”ı kullandığınızda, son oluşum dışındaki tüm yinelenen satırlar kaldırılacaktır.

Misal

Aşağıdaki örnekte, yalnızca son oluşum dışında tüm yinelenen satırlar kaldırılır.

pandaları pd olarak içe aktar
df_state=pd.read_csv("C:/Kullanıcılar/DELL/Masaüstü/population_ds.csv")
Dup_Rows = df_state[df_state.kopyalanmış()]
print("\n\nYinelenen Satırlar: \n ".biçim(Dup_Rows))
DF_RM_DUP = df_state.drop_duplicates(keep='son')
print('\n\nYinelenen kaldırma işleminden sonra Sonuç DataFrame :\n', DF_RM_DUP.kafa(n=5))

Aşağıdaki görüntüde, kopyalar kaldırılır ve yalnızca son satır oluşumu tutulur:

Tüm Yinelenen Satırları Kaldır

Bir tablodan tüm yinelenen satırları kaldırmak için "keep=False" öğesini aşağıdaki gibi ayarlayın:

pandaları pd olarak içe aktar
df_state=pd.read_csv("C:/Kullanıcılar/DELL/Masaüstü/population_ds.csv")
Dup_Rows = df_state[df_state.kopyalanmış()]
print("\n\nYinelenen Satırlar: \n ".biçim(Dup_Rows))
DF_RM_DUP = df_state.drop_duplicates(keep=Yanlış)
print('\n\nYinelenen kaldırma işleminden sonra Sonuç DataFrame :\n', DF_RM_DUP.kafa(n=5))

Aşağıdaki resimde görebileceğiniz gibi, tüm kopyalar veri çerçevesinden kaldırılır:

Belirtilen Bir Sütundan İlgili Kopyaları Kaldır

Varsayılan olarak, işlev, verilen veri çerçevesindeki tüm sütunlardan tüm yinelenen satırları kontrol eder. Ancak, alt küme parametresini kullanarak sütun adını da belirtebilirsiniz.

Misal

Aşağıdaki örnekte, ilgili tüm kopyalar 'Durumlar' sütunundan kaldırılmıştır.

pandaları pd olarak içe aktar
df_state=pd.read_csv("C:/Kullanıcılar/DELL/Masaüstü/population_ds.csv")
Dup_Rows = df_state[df_state.kopyalanmış()]
print("\n\nYinelenen Satırlar: \n ".biçim(Dup_Rows))
DF_RM_DUP = df_state.drop_duplicates(subset='Durum')
print('\n\nYinelenen kaldırma işleminden sonra Sonuç DataFrame :\n', DF_RM_DUP.kafa(n=6))

Sonuç

Bu makale, bir veri çerçevesinden yinelenen satırların nasıl kaldırılacağını gösterdi drop_duplicates() Pandalar Python'da işlev. Ayrıca bu işlevi kullanarak verilerinizi çoğaltma veya fazlalıklardan temizleyebilirsiniz. Makale ayrıca, veri çerçevenizdeki kopyaları nasıl tanımlayacağınızı da gösterdi.

Linux Oyunları Geliştirmek için Ücretsiz ve Açık Kaynaklı Oyun Motorları
Bu makale, Linux'ta 2D ve 3D oyunlar geliştirmek için kullanılabilecek ücretsiz ve açık kaynaklı oyun motorlarının bir listesini kapsayacaktır. Bu tür...
Linux Eğitimi için Tomb Raider'ın Gölgesi
Shadow of the Tomb Raider, Eidos Montreal tarafından yaratılan bir aksiyon-macera oyunu serisi olan Tomb Raider serisine eklenen on ikinci oyundur. Oy...
Linux'ta FPS Nasıl Arttırılır?
FPS'nin kısaltması Saniyedeki Kare Sayısı. FPS'nin görevi, video oynatma veya oyun performanslarındaki kare hızını ölçmektir. Basit bir deyişle, her s...