带条件的Pandasql

user_id | plan | subplan | matrix_code | student_semester 102532 | GADMSSP | GSP10 | 1501 | 8 106040 | GRINTSP | | 1901 | 4 106114 | GCSOSSULA | | 1901 | 4 106504 | GCSOSSP | | 1902 | 3 106664 | GCINESP | | 1901 | 4

plan | subplan | matrix_code | semester | credits| cumulative_credits GADMSSP | | 1501 | 5 | 4 | 4 GADMSSP | | 1501 | 6 | 4 | 8 GADMSSP | | 1501 | 7 | 4 | 12 GADMSSP | | 1501 | 8 | 0 | 12 GRINTSP | | 1901 | 7 | 2 | 2 GRINTSP | | 1901 | 8 | 0 | 2 GCSOSSULA | | 1901 | 3 | 4 | 4 GCSOSSULA | | 1901 | 4 | 0 | 4 GCSOSSULA | | 1901 | 5 | 0 | 4 GCSOSSULA | GSUL5 | 1901 | 5 | 4 | 8 GCSOSSULA | | 1901 | 6 | 0 | 4 GCSOSSULA | GSUL5 | 1901 | 6 | 0 | 8 GCSOSSULA | | 1901 | 7 | 0 | 4 GCSOSSULA | GSUL5 | 1901 | 7 | 0 | 8 GCSOSSULA | | 1901 | 8 | 0 | 4 GCSOSSULA | GSUL5 | 1901 | 8 | 0 | 8 GCSOSSP | | 1902 | 5 | 4 | 4 GCSOSSP | | 1902 | 6 | 4 | 8 GCSOSSP | | 1902 | 7 | 4 | 12 GCSOSSP | | 1902 | 8 | 0 | 12 GCINESP | | 1901 | 2 | 4 | 4 GCINESP | | 1901 | 3 | 4 | 8 GCINESP | | 1901 | 4 | 4 | 12 GCINESP | | 1901 | 5 | 4 | 16 GCINESP | | 1901 | 6 | 4 | 24 GCINESP | | 1901 | 7 | 4 | 32 GCINESP | | 1901 | 8 | 4 | 40

user_id | plan | subplan | matrix_code | semester | student_semester | cumulative_credits 102532 | GADMSSP | GSP10 | 1501 | 8 | 9 | 12 106040 | GRINTSP | | 1901 | 5 | 4 | 0 106114 | GCSOSSULA | | 1901 | 5 | 4 | 4 106504 | GCSOSSP | | 1902 | 4 | 3 | 0 106664 | GCINESP | | 1901 | 5 | 4 | 16

user_id | plan | subplan | matrix_code | semester | student_semester | cumulative_credits 102532 | GADMSSP | GSP10 | 1501 | 8 | 9 | 12 106114 | GCSOSSULA | | 1901 | 5 | 4 | 4 106664 | GCINESP | | 1901 | 5 | 4 | 16

pip install -U pandasql import pandas as pd pysqldf = lambda q: sqldf(q, globals()) df2 = df2.groupby(['plan', 'subplan', 'matrix_code', 'semester']).cumulative_credits.max() df2 = df2.to_frame() df2 = df2.reset_index()

electives = """ SELECT user_id ,a.plan ,a.subplan as "student_subplan" ,a.matrix_code ,a.student_semester ,b.subplan as "matrix_subplan" ,b.semester ,cumulative_credits FROM df1 a LEFT JOIN df2 b ON a.plan = b.plan AND a.matrix_code = b.matrix_code WHERE (b.subplan = '' OR a.subplan = b.subplan) """ electives = pysqldf(electives)

agg = (pd.merge(df1, df2, on=['plano', 'matriz'], suffixes=["", "_"]) .fillna('') .query("(subplano == '') | (subplano_aluno == subplano)") .rename({'subplano':'subplano_matriz', 'semestre_': 'semestre_matriz', 'semestre': 'semestre_aluno'}, axis='columns')

y = """ with a as ( SELECT DISTINCT plan ,CASE WHEN plan LIKE '%SULB%' OR plano LIKE '%SULC%' THEN 10 WHEN plan LIKE '%SULD%' OR plano LIKE '%SULE%' THEN 12 ELSE 8 END as "semester_max" FROM agg ) SELECT DISTINCT user_id ,student_semester ,plan ,student_subplan ,matrix_code ,matrix_subplan ,cumulative_credits ,matrix_semester ,semester_max ,CASE WHEN student_semester < semester_max THEN (student_semester)+1 WHEN student_semester = semester_max THEN student_semester END as "next_semester" FROM ( SELECT DISTINCT user_id ,student_semester ,b.plan ,student_subplan ,matrix_code ,matrix_subplan ,cumulative_credits ,matrix_semester ,semester_max FROM agg b INNER JOIN a ON b.plano = a.plano ) x WHERE matrix_semester = next_semester """ z = pysqldf(x)

1条回答

网友

1楼 · 发布于 2024-10-16 17:24:22

考虑在SQL查询中添加一个^ {CD1>}语句：

SELECT d1.user_id
       , d1.plan
       , d1.subplan AS student_subplan
       , d1.matrix_code
       , d1.student_semester
       , d2.subplan AS matrix_subplan
       , CASE 
             WHEN d1.student_semester = MAX(d2.semester)
             THEN d1.student_semester
             ELSE d1.student_semester + 1
         END AS semester
       , MAX(d2.cumulative_credits) AS cumulative_credits
FROM df1 d1
LEFT JOIN df2 d2 
   ON d1.plan = d2.plan
   AND d1.matrix_code = d2.matrix_code
WHERE (d2.subplan IS NULL OR d1.subplan = d2.subplan)
GROUP BY d1.user_id
       , d1.plan
       , d1.subplan
       , d1.matrix_code
       , d1.student_semester
       , d2.subplan;

Online Demo

在Pandas中，翻译将使用merge+groupby+Series.where作为case条件逻辑：

# MERGE
agg = (pd.merge(df1, df2, on=['plan', 'matrix_code'], suffixes=["", "_"])
         .fillna('')
         .query("(subplan_ == '') | (subplan == subplan_)")
         .rename({'subplan':'student_subplan', 'subplan_':'matrix_subplan'}, axis='columns')
      )

# AGGRGEATION
agg = (agg.groupby(['user_id', 'plan', 'student_subplan', 'matrix_code', 
                    'student_semester', 'matrix_subplan'], as_index=False)
          .agg({'semester':'max', 'cumulative_credits':'max'})
      )

# CONDITIONAL LOGIC
agg['semester'] = agg['student_semester'].where(agg['semester'] == agg['student_semester'], 
                                                agg['student_semester'].add(1))

agg
#    user_id       plan student_subplan  matrix_code  student_semester matrix_subplan  semester  cumulative_credits
# 0   102532    GADMSSP           GSP10         1501                 8                        8                  12
# 1   106040    GRINTSP                         1901                 4                        5                   2
# 2   106114  GCSOSSULA                         1901                 4                        5                   4
# 3   106504    GCSOSSP                         1902                 3                        4                  12
# 4   106664    GCINESP                         1901                 4                        5                  40

相关问题更多 >

编程相关推荐

热门问题

热门文章