Pandas의 날짜를 기준으로 DataFrame 행을 필터링하는 방법

  1. 부울 마스크를 사용하여 두 날짜 사이의 행을 선택하십시오
  2. 두 날짜 사이의DataFrame 행을 선택하는pandas.DataFrame.query()
  3. pandas.DataFrame.isin()은 두 날짜 사이에서DataFrame 행을 선택합니다
  4. pandas.Series.between()은 두 날짜 사이에서 DataFrame행을 선택합니다

loc 메소드와 DataFrame 인덱싱을 사용하여 boolean mask를 사용하여 Pandas의 날짜를 기준으로 DataFrame 행을 필터링 할 수 있습니다. DataFrame 객체에 대해 query(), isin(), 및 between() 사이 메소드를 사용하여 Pandas의 날짜를 기준으로 행을 선택할 수도 있습니다.

부울 마스크를 사용하여 두 날짜 사이의 행을 선택하십시오

부울 마스크를 사용하여 Pandas의 날짜를 기준으로 DataFrame 행을 필터링하려면 먼저 다음 구문을 사용하여 부울 마스크를 만듭니다.

mask = (df['col'] > start_date) & (df['col'] <= end_date)

여기서 start_dateend_date는 모두 datetime 형식이며 데이터를 필터링해야하는 범위의 시작과 끝을 나타냅니다. 그런 다음df.loc()메소드를 사용하여 범위 내에있는 DataFrame 부분을 선택합니다.

import pandas as pd
import numpy as np
import datetime

list_of_dates = ['2019-11-20', '2020-01-02', '2020-02-05','2020-03-10','2020-04-16','2020-05-01']
employees=['Hisila', 'Shristi','Zeppy','Alina','Jerry','Kevin']
df = pd.DataFrame({'Joined date': pd.to_datetime(list_of_dates)},index=employees)

mask = (df['Joined date'] > '2019-06-1') & (df['Joined date'] <= '2020-02-05')
filtered_df=df.loc[mask]
print(filtered_df)

산출:

        Joined date
Hisila   2019-11-20
Shristi  2020-01-02
Zeppy    2020-02-05

날짜 열을 인덱스 열로 설정하여 통합df.loc[start_date : end_date]방법을 사용하여 위의 프로세스를 단순화 할 수 있습니다.

import pandas as pd
import numpy as np
import datetime

list_of_dates = ['2019-11-20', '2020-01-02', '2020-02-05','2020-03-10','2020-04-16','2020-05-01']
employees=['Hisila', 'Shristi','Zeppy','Alina','Jerry','Kevin']
salary=[200,400,300,500,600,300]
df = pd.DataFrame({"Name":employees,'Joined date': pd.to_datetime(list_of_dates),"Salary":salary})
df = df.set_index(['Joined date'])

filtered_df=df.loc['2019-06-1':'2020-02-05']
print(filtered_df)

산출:

                Name  Salary
Joined date                 
2019-11-20    Hisila     200
2020-01-02   Shristi     400
2020-02-05     Zeppy     300

두 날짜 사이의DataFrame 행을 선택하는pandas.DataFrame.query()

pandas.DataFrame.query() 메소드를 사용하여 Pandas의 날짜를 기준으로 DataFrame 행을 필터링 할 수도 있습니다.

import pandas as pd
import numpy as np
import datetime

list_of_dates = ['2019-11-20', '2020-01-02', '2020-02-05','2020-03-10','2020-04-16','2020-05-01']
employees=['Hisila', 'Shristi','Zeppy','Alina','Jerry','Kevin']
salary=[200,400,300,500,600,300]
df = pd.DataFrame({"Name":employees,'Joined_date': pd.to_datetime(list_of_dates),"Salary":salary})

filtered_df=df.query("Joined_date >= '2019-06-1' and Joined_date <='2020-02-05'")
print(filtered_df)

산출:

      Name Joined_date  Salary
0   Hisila  2019-11-20     200
1  Shristi  2020-01-02     400
2    Zeppy  2020-02-05     300

pandas.DataFrame.isin()은 두 날짜 사이에서DataFrame 행을 선택합니다

pandas.DataFrame.isin()은 요소의 여부를 나타내는 부울의 데이터 프레임을 반환합니다. 지정된 범위에 있는지 여부 이 방법을 사용하여 Pandas의 날짜를 기준으로 DataFrame 행을 필터링 할 수 있습니다.

import pandas as pd
import numpy as np
import datetime

list_of_dates = ['2019-11-20', '2020-01-02', '2020-02-05','2020-03-10','2020-04-16','2020-05-01']
employees=['Hisila', 'Shristi','Zeppy','Alina','Jerry','Kevin']
salary=[200,400,300,500,600,300]
df = pd.DataFrame({"Name":employees,'Joined_date': pd.to_datetime(list_of_dates),"Salary":salary})


filtered_df = df[df["Joined_date"].isin(pd.date_range('2019-06-1', '2020-02-05'))]
print(filtered_df)

산출:

      Name Joined_date  Salary
0   Hisila  2019-11-20     200
1  Shristi  2020-01-02     400
2    Zeppy  2020-02-05     300

pandas.date_range()는 고정 된DateTimeIndex를 반환합니다. 첫 번째 매개 변수는 시작 날짜이고 두 번째 매개 변수는 종료 날짜입니다.

pandas.Series.between()은 두 날짜 사이에서 DataFrame행을 선택합니다

pandas.Series.between()을 사용하여 날짜를 기준으로 DataFrame을 필터링 할 수도 있습니다. 이 메서드는 계열 요소가 지정된 범위에 있는지 여부를 나타내는 부울 벡터를 반환합니다. 이렇게 boolean vector를loc()메소드에 전달하여 DataFrame을 추출합니다.

import pandas as pd
import numpy as np
import datetime

list_of_dates = ['2019-11-20', '2020-01-02', '2020-02-05','2020-03-10','2020-04-16','2020-05-01']
employees=['Hisila', 'Shristi','Zeppy','Alina','Jerry','Kevin']
salary=[200,400,300,500,600,300]
df = pd.DataFrame({"Name":employees,'Joined_date': pd.to_datetime(list_of_dates),"Salary":salary})

filtered_df =df.loc[df["Joined_date"].between('2019-06-1', '2020-02-05')]
print(filtered_df)

산출:

      Name Joined_date  Salary
0   Hisila  2019-11-20     200
1  Shristi  2020-01-02     400
2    Zeppy  2020-02-05     300