Paper dado a conocer por la Brookings Institution el día 29 de noviembre de 2010, referido a un tema estratégico para la política de fortalecimiento de la profesión docente.
Bajer el paper aquí 345 KB
A continuación la presentación del del paper y, más abajo, una versión en español traducida automáticamente por Google.
Evaluating Teachers: The Important Role of Value-Added
Steven Glazerman, Mathematica Policy Research
Susanna Loeb, Stanford University
Dan Goldhaber, University of Washington
Douglas Staiger, Dartmouth University
Stephen Raudenbush, University of Chicago
Grover J. “Russ” Whitehurst, The Brookings Institution
The Brookings Brown Center Task Group on Teacher Quality, November 17, 2010
Executive Summary
The evaluation of teachers based on the contribution they make to the learning of their students, value-added, is an increasingly popular but controversial education reform policy. We highlight and try to clarify four areas of confusion about value-added. The first is between value-added information and the uses to which it can be put. One can, for example, be in favor of an evaluation system that includes value-added information without endorsing the release to the public of value-added data on individual teachers. The second is between the consequences for teachers vs. those for students of classifying and misclassifying teachers as effective or ineffective — the interests of students are not always perfectly congruent with those of teachers. The third is between the reliability of value-added measures of teacher performance and the standards for evaluations in other fields — value-added scores for individual teachers turn out to be about as reliable as performance assessments used elsewhere for high stakes decisions. The fourth is between the reliability of teacher evaluation systems that include value-added vs. those that do not — ignoring value-added typically lowers the reliability of personnel decisions about teachers. We conclude that value-added data has an important role to play in teacher evaluation systems, but that there is much to be learned about how best to use value-added information in human resource decisions.
Jane Sobel Klonsky
Jane Sobel Klonsky
View Larger
Yellowdog Productions
RELATED CONTENT
Save to My PortfolioCreating “America’s Teacher Corps”
Save to My PortfolioAmerica’s Teacher Corps
Steven Glazerman, Dan Goldhaber, Susanna Loeb, Douglas O. Staiger and Grover J. “Russ” Whitehurst
The Brookings Institution
March 15, 2010
Save to My PortfolioThe Scouting Report: Education Policy Challenges in America
More Related Content »
Teacher evaluation at a crossroads
The vast majority of school districts presently employ teacher evaluation systems that result in all teachers receiving the same (top) rating. This is perhaps best exemplified by a recent report by the New Teacher Project focusing on thousands of teachers and administrators spanning twelve districts in four states.[1] The report revealed that even though all the districts employed some formal evaluation process for teachers, all failed to differentiate meaningfully among levels of teaching effectiveness. In districts that used binary ratings more than 99 percent of teachers were rated satisfactory. In districts using a broader range of ratings, 94 percent received one of the top two ratings and less than 1 percent received an unsatisfactory rating. As Secretary of Education Arne Duncan put it, “Today in our country, 99 percent of our teachers are above average.”[2]
There is an obvious need for teacher evaluation systems that include a spread of verifiable and comparable teacher evaluations that distinguish teacher effectiveness. We know from a large body of empirical research that teachers differ dramatically from one another in effectiveness. Evaluation systems could recognize these differences but they generally don’t. As a consequence, the many low stakes and high stakes decisions that are made in the teacher labor market occur without the benefit of formalized recognition of how effective (or ineffective) teachers are in the classroom. Is there any doubt that teacher policy decisions would be better informed by teacher evaluation systems that meaningfully differentiate among teachers?
There is tremendous support at both the federal and state levels for the development and use of teacher evaluation systems that are more discerning.[3] And the two national teachers unions, the AFT and the NEA, support teacher evaluation systems that recognize and reward excellence and improve professional development. This is consistent with their long-term support of the National Board for Professional Teaching Standards, which is designed to identify excellent teachers and provide them a salary bonus.
The latest generation of teacher evaluation systems seeks to incorporate information on the value-added by individual teachers to the achievement of their students. The teacher’s contribution can be estimated in a variety of ways, but typically entails some variant of subtracting the achievement test score of a teacher’s students at the beginning of the year from their score at the end of the year, and making statistical adjustments to account for differences in student learning that might result from student background or school-wide factors outside the teacher’s control. These adjusted gains in student achievement are compared across teachers. Value-added scores can be expressed in a number of ways. One that is easy to grasp is a percentile score that indicates where a given teacher stands relative to other teachers. Thus a teacher who scored at the 75th percentile on value-added for mathematics achievement would have produced greater gains for her students than the gains produced by 75 percent of the other teachers being evaluated.
Critics of value-added methods have raised concerns about the statistical validity, reliability, and corruptibility of value-added measures. We believe the correct response to these concerns is to improve value-added measures continually and to use them wisely, not to discard or ignore the data. With that goal in mind, we address four sources of concern about value-added evaluation of teachers
Value-added information vs. what you do with it
There is considerable debate about how teacher evaluations should be used to improve schools, and uncertainty about how to implement proposed reforms. For example, even those who favor linking pay to performance face numerous design decisions with uncertain consequences. How a pay for performance system is designed—salary incentives based on team performance vs. individual performance, having incentives managed from the state or district level vs. the building level, or having incentives structured as more rapid advancement through a system of ranks vs. annual bonuses—can result in very good or very ineffective policy.[4]
Similar uncertainty surrounds other possible uses of value-added information. For example, tying tenure to value-added evaluation scores will have immediate effects on school performance that have been well modeled, but these models cannot predict indirect effects such as those that might result from changes in the profiles of people interested in entering the teaching profession. Such effects on the general equilibrium of the teacher labor market are largely the subject of hypothesis and speculation. Research on these and related topics is burgeoning,[5] but right now much more is unknown than known.
However, uncertainties surrounding how best to design human resource policies that take advantage of meaningful teacher evaluation do not bear directly on the question of whether value-added information should be included as a component of teacher evaluation. There is considerable confusion between issues surrounding the inclusion of value-added scores in teacher evaluation systems and questions about how such information is used for human resource decisions. This is probably because the uses of teacher evaluation that have gained the most public attention or notoriety have been based exclusively on value-added. For example, in August 2010, the Los Angeles Times used several years of math and English test data to identify publicly the best and the worst third- to fifth-grade teachers in the Los Angeles Unified School District. The ensuing controversy focused as much on value-added evaluation as the newspaper’s actions. But the question of whether these kinds of statistics should be published is separable from the question of whether such data should have a role in personnel decisions. It is routine for working professionals to receive consequential evaluations of their job performance, but that information is not typically broadcast to the public.
A place for value-added
Much of the controversy surrounding teacher performance measures that incorporate value-added information is based on fears about how the measures will be used. After all, once administrators have ready access to a quantitative performance measure, they can use it for sensitive human resources decisions including teacher pay, promotion, or layoffs. They may or may not do this wisely or well, and it is reasonable for those who will be affected to express concerns.
We believe that whenever human resource actions are based on evaluations of teachers they will benefit from incorporating all the best available information, which includes value-added measures. Not only do teachers typically receive scant feedback on their past performance in raising test scores, the information they usually receive on the average test scores or proficiency of their students can be misleading or demoralizing. High test scores or a high proficiency rate may be more informative of who their students are than how they were taught. Low test scores might mask the incredible progress the teachers made. Teachers and their mentors and principals stand to gain vast new insight if they could see the teachers’ performance placed in context of other teachers with students just like their own, drawn from a much larger population than a single school. This is the promise of value-added analysis. It is not a perfect system of measurement, but it can complement observational measures, parent feedback, and personal reflections on teaching far better than any available alternative. It can be used to help guide resources to where they are needed most, to identify teachers’ strengths and weaknesses, and to put a spotlight on the critical role of teachers in learning.
Full-throated debate about policies such as merit pay and “last in-first out” should continue, but we should not let controversy over the uses of teacher evaluation information stand in the way of developing and improving measures of teacher performance.
Some classification errors are worse than others
Recent reports by nationally visible education researchers and thinkers have urged restraint in the use of teacher evaluations based on student test scores for high stakes decisions. The common thread in these reports is the concern that value-added scores reported at the level of individual teachers frequently misclassify teachers in ways that are unfair to teachers, e.g., identifying a teacher as ineffective who is in fact average.[6]
There are three problems with these reports. First, they often set up an impossible test that is not the objective of any specific teacher evaluation system, such as using a single year of test score growth to produce a rank ordered list of teachers for a high stakes decision such as tenure. Any practical application of value-added measures should make use of confidence intervals in order to avoid false precision, and should include multiple years of value-added data in combination with other sources of information to increase reliability and validity. Second, they often ignore the fact that all decision-making systems have classification error. The goal is to minimize the most costly classification mistakes, not eliminate all of them. Third, they focus too much on one type of classification error, the type that negatively affects the interests of individual teachers.
Imagine the simplest classification system that could be fit on a continuous distribution of teachers’ value-added scores: A point on the distribution is selected as a cut point. Any teacher receiving a value-added score at or above that cut point is categorized as effective whereas any teacher with a score below that point is categorized as ineffective. Imagine further that value-added is measured with error, i.e., a teacher’s score does not capture perfectly the teacher’s true contribution to student learning. This error in measurement means that depending on where the cut point is placed, some truly effective teachers will be rated ineffective (they are false negatives) and some ineffective teachers will be rated effective (they are false positives). The other two classification outcomes are truly effective teachers so categorized (true positives), and truly ineffective teachers so categorized (true negatives).
To illustrate, the figure above represents the obtained evaluation scores of two categories of teachers: those who are truly effective (colored grey) and those who are truly ineffective (colored blue). The scores of the two groups of teachers are distributed normally around the mean for their group, with the spread of scores representing both true differences in teacher effectiveness and error in the measure used for evaluation. The cut point in the figure represents the point on the scale of teacher evaluation scores at which a manager chooses to treat the teachers differently in terms of a personnel action. Using tenure as an example, everyone who received an evaluation score at or above the cut point would receive tenure, whereas everyone scoring below the cut point would be dismissed or continue in a probationary status. In this instance, the majority of truly effective teachers received scores at or above the cut point – they are true positives – and a majority of truly ineffective teachers received scores below the cut point – they are true negatives. But there are also classification errors, i.e., truly effective teachers categorized as ineffective (false negatives) and truly ineffective teachers classified as effective (false positives).
The false positive rate and the false negative rate are inversely related and determined by where the cut point is placed on the distribution of scores. Thus, if the manager moved the cut point for granting tenure to the right in this figure, the false positive rate would go down whereas the false negative rate would go up. Likewise the true positive rate would go up and the true negative rate would go down.
Much of the concern and cautions about the use of value-added have focused on the frequency of occurrence of false negatives, i.e., effective teachers who are identified as ineffective. But framing the problem in terms of false negatives places the focus almost entirely on the interests of the individual who is being evaluated rather than the students who are being served. It is easy to identify with the good teacher who wants to avoid dismissal for being incorrectly labeled a bad teacher. From that individual’s perspective, no rate of misclassification is acceptable. However, an evaluation system that results in tenure and advancement for almost every teacher and thus has a very low rate of false negatives generates a high rate of false positives, i.e., teachers identified as effective who are not. These teachers drag down the performance of schools and do not serve students as well as more effective teachers.
In the simplest of scenarios involving tenure of novice teachers, it is in the best interest of students to raise the cut point thereby increasing the proportion of truly effective teachers staffing classrooms whereas it is in the best interest of novice teachers to lower the cut point thereby making it more likely that they will be granted tenure. Our message is that the interests of students and the interests of teachers in classification errors are not always congruent, and that a system that generates a fairly high rate of false negatives could still produce better outcomes for students by raising the overall quality of the teacher workforce.[7] A focus on the effects on teachers of misclassification should be balanced by a concern with the effects on students.
A performance measure needs to be good, not perfect
Discussions of teacher evaluation at the policy and technical levels often proceed in isolation from experience and evidence from other related fields. But we know a lot about performance evaluation in other labor markets, knowledge that should inform debates about value-added and teacher evaluation in general.
The correlation in test-based measures of teaching effectiveness between one school year and the next lies between .20 and .60 across multiple studies, with most estimates lying between .30 and .40.[8] A measure that has a correlation of .35 from one year to the next produces seemingly troubling statistics in line with our conceptual discussion of classification errors. For instance, only about a third of teachers ranked in the top quartile of value-added based on one academic year’s performance would appear in the top quartile again the next year. And ten percent of bottom quartile teachers one year would appear in the top quartile the next. Some of this instability is due to variation in teachers’ true performance from year to year and some of it is simply due to error in the measure.
It is instructive to look at other sectors of the economy as a gauge for judging the stability of value-added measures. The use of imprecise measures to make high stakes decisions that place societal or institutional interests above those of individuals is wide spread and accepted in fields outside of teaching.
The correlation of the college admission test scores of college applicants with measures of college success is modest (r = .35 for SAT combined verbal + math and freshman GPA[9]). Nevertheless nearly all selective colleges use SAT or ACT scores as a heavily weighted component of their admission decisions even though that produces substantial false negative rates (students who could have succeeded but are denied entry). Why would colleges use such a flawed selection instrument? Because even though the prediction of success from SAT/ACT scores is modest it is among the strongest available predictors. An entering class formed in part by the decision to admit those with higher SAT/ACT scores in preference to those with lower scores will perform better than a class formed without the use of that information.
In health care, patient volume and patient mortality rates for surgeons and hospitals are publicly reported on an annual basis by private organizations and federal agencies and have been formally approved as quality measures by national organizations.[10] Yet patient volume is only modestly correlated with patient outcomes, and the year-to-year correlations in patient mortality rates are well below 0.5 for most medical and surgical conditions. Nevertheless, these measures are used by patients and health care purchasers to select providers because they are able to predict larger differences across medical providers in patient outcomes than other available measures.[11]
In a similar vein, the volume of home sales for realtors; returns on investment funds; productivity of field-service personnel for utility companies; output of sewing machine operators; and baseball batting averages predict future performance only modestly. A meta-analysis[12] of 22 studies of objective performance measures found that the year-to-year correlations in high complexity jobs ranged from 0.33 to 0.40, consistent with value-added correlations for teachers.
Despite these modest predictive relationships, real estate firms rationally try to recruit last year’s volume leader from a competing firm; investors understandably prefer investment firms with above average returns in a previous year; and baseball batting averages in a given year have large effects on player contracts. The between-season correlation in batting averages for professional baseball players is .36.[13] Ask any manager of a baseball team whether he considers a player’s batting average from the previous year in decisions about the present year.
We should not set unrealistic expectations for the reliability or stability of value-added. Value-added evaluations are as reliable as those used for high stakes decisions in many other fields.
Ignoring value-added data doesn’t help
We know a good deal about how other means of classification of teachers perform versus value-added. Rather than asking value-added to measure up to an arbitrary standard of perfection, it would be productive to ask how it performs compared to classification based on other forms of available information of teachers.
The “compared to what” question has been addressed by a good deal of research on the other teacher credentials and characteristics that are presently used to determine employment eligibility and compensation. Here the research is quite clear: if student test achievement is the outcome,[14] value-added is superior to other existing methods of classifying teachers. Classification that relies on other measurable characteristics of teachers (e.g., scores on licensing tests, routes into teaching, nature of certification, National Board certification, teaching experience, quality of undergraduate institution, relevance of undergraduate coursework, extent and nature of professional development), considered singly or in aggregate, is not in the same league in terms of predicting future performance as evaluation based on value-added.
Consider a particular example that has arisen as a consequence of the deep recession: the need of districts to lay off teachers as a result of budget shortfalls. Managers in most industries would attempt to target layoffs so as to cause as little damage as possible to productivity — less productive workers would be dismissed or furloughed before more productive workers.
Suppose school district leaders were similarly motivated and had flexibility in deciding how to proceed. Imagine three possible approaches for deciding who should be dismissed. The first approach would employ the existing teacher evaluation system based on principal ratings, which identifies a few teachers as unsatisfactory but categorized the vast majority of teachers as satisfactory. The second approach would employ teacher experience, which has been found in a number of studies to have a statistically significant positive association with student achievement. The third approach would use teacher value-added scores to identify the lowest performing teachers.
Researchers have compared these three approaches using data from fourth and fifth grade public school teachers in New York City and simulating the elimination of enough teachers to reduce the budget by 5 percent.[15] A graph from that study, reproduced below, illustrates the results for student achievement if the positions of teachers with the lowest value-added scores were eliminated vs. the positions of teachers with the least experience. The horizontal axis is teacher effectiveness as indexed by student gains whereas the vertical axis is the number of teachers. Teacher effectiveness scores are those regularly calculated by the NYC public schools and could encompass teacher performance going back as far as four years.
Note that if teachers were laid off based on seniority they would be distributed across the full range of performance in terms of effectiveness in raising student test scores whereas teachers laid off based on low value-added scores would be at the bottom of the distribution. In other words, many more effective teachers would be retained were layoffs based on value-added than were they based on seniority. Principal ratings, not shown in the graph, perform better than teacher seniority in identifying teachers with low effectiveness in raising student achievement, but not nearly as well as value-added scores.
The question, then, is not whether evaluations of teacher effectiveness based on value-added are perfect or close to it: they are not. The question, instead, is whether and how the information from value-added compares with other sources of information available to schools when difficult and important personnel decisions must be made. For example, keeping ineffective teachers on the job while dismissing far better teachers is something most school leaders, parents, and the general public would want to avoid. Value-added is a better tool for that purpose than other measures such as teacher experience, certification status, seniority, and principal ratings, even though it is imperfect.[16]
Conclusion: Value-added has an important role to play
We have a lot to learn about how to improve the reliability of value-added and other sources of information on teacher effectiveness, as well as how to build useful personnel policies around such information. However, too much of the debate about value-added assessment of teacher effectiveness has proceeded without consideration of the alternatives and by conflating objectionable personnel policies with value-added information itself. When teacher evaluation that incorporates value-added data is compared against an abstract ideal, it can easily be found wanting in that it provides only a fuzzy signal. But when it is compared to performance assessment in other fields or to evaluations of teachers based on other sources of information, it looks respectable and appears to provide the best signal we’ve got.
Teachers differ dramatically in their performance, with large consequences for students. Staffing policies that ignore this lose one of the strongest levers for lifting the performance of schools and students. That is why there is great interest in establishing teacher evaluation systems that meaningfully differentiate performance.
Teaching is a complex task and value-added captures only a portion of the impact of differences in teacher effectiveness. Thus high stakes decisions based on value-added measures of teacher performance will be imperfect. We do not advocate using value-added measures alone when making decisions about hiring, firing, tenure, compensation, placement, or developing teachers, but surely value-added information ought to be in the mix given the empirical evidence that it predicts more about what students will learn from the teachers to which they are assigned than any other source of information.
[1] Weisberg, D., Sexton, S., Mulhern, J., & Keeling, D. (2009). The widget effect: Our national failure to acknowledge and act on differences in teacher effectiveness. New York, NY: The New Teacher Project.
[2] Gabriel, T. (2010, September 2). A celebratory road trip by education secretary, New York Times, p. A24.
[3] For instance, the Obama administration made state support of rigorous teacher evaluation systems a pre-condition for competition in Race to the Top, and has laid out a blueprint for the reauthorization of the Elementary and Secondary Education Act in which teacher effectiveness defined by evaluation of on-the-job performance is an important facet.
[4] Springer, M.G., Ballou, D., Hamilton, L., Le, V., Lockwood, J.R., McCaffrey, D., Pepper, M., & Stecher, B. (2010). Teacher pay for performance: Experimental evidence from the project on incentives in teaching. Nashville, TN: National Center on Performance Incentives at Vanderbilt University.
[5] Goldhaber, D. & Hannaway, J. (Eds.) (2009). Creating a new teaching profession. Washington, DC: The Urban Institute.
[6] For example, a policy brief from the Education Policy Institute on the problems with the use of student test scores to evaluate teachers, reports that value-added estimates “have proven to be unstable across statistical models, years, and classes that teachers teach.” The authors, buttress their recommendations not to use such scores with descriptions of research showing that “among teachers who were ranked in the top 20 percent of effectiveness in the first year, fewer than a third were in that top group the next year,” and that “effectiveness ratings in one year could only predict from 4 percent to 16 percent of the variation in such ratings in the following year.” And, a report from the National Academies of Science presents a range of views on the use of value-added but nevertheless concludes that “persistent concerns about precision and bias militate against employing value-added indicators as the principal basis for high-stakes decisions.” Likewise, reports from Rand , the Educational Testing Service , and IES remind us to be cautious about the degree of precision in estimates of teacher effectiveness derived from value-added measures.
[7] Of course, there are many tradeoffs that belie the simple calculus in our example. For instance, if an appreciable share of junior teachers were removed from the workforce in a particular district the pool of applicants might be too small to replace the dismissed teachers. From a district or student’s perspective it would be better to have lower quality teachers in the classroom than no teachers at all. Likewise, the calculus is not straightforward from a teacher’s perspective. For example an evaluation system that identifies nearly everyone as a winner and thereby avoids false negatives may lessen the opportunities for advancement of stronger teachers and reduce the public’s support for the teaching profession.
[8] Goldhaber, D. & Hansen, M. (2010). Is it just a bad class? Assessing the stability of measured teacher performance. CEDR Working Paper 2010-3. Seattle, WA: University of Washington.
[9] Camera, W.J. & Echternacht, G. (July 2000). The SAT I and high school grades: Utility in predicting success in college. New York, NY: The College Board.
[10] See http://www.leapfroggroup.org/ , http://www.hospitalcompare.hhs.gov/ , and http://www.qualityforum.org/Measures_List.aspx .
[11] For example, Dimick, J.B., Staiger, D.O., Basur, O., & Birkmeyer, J.D. (2009). Composite measures for predicting surgical mortality in the hospital. Health Affairs, 28(4), 1189-1198.
[12] Sturman, M.C., Cheramie, R.A., & and Cashen, L.H. (2005). The impact of job complexity and performance measurement on the temporal consistency, stability, and test-retest reliability of employee job performance ratings. Journal of Applied Psychology, 90, 269-283.
[13] Schall, T. & Smith, G. (2000). Do baseball players regress to the mean? The American Statistician, 54, 231-235.
[14] Although student scores on standardized achievement tests are obviously proxies for rather than the actual student outcomes that education is supposed to generate, it is important to remember that they are strong predictors of long term outcomes. For example, a large scale national study by the ACT found that eighth-grade achievement test scores were the best predictor of students’ level of college and career readiness at high school graduation —even more so than students’ family background, high school coursework, or high school grade point average.
[15] Boyd, D.J., Lankford, H., Loeb, S., & Wyckoff, J.H. (July, 2010). Teacher layoffs: An empirical illustration of seniority vs. measures of effectiveness. Brief 12. National Center for Evaluation of Longitudinal Data in Education Research. Washington, DC: The Urban Institute.
[16] Research related to this conclusion includes:
Goldhaber, D. D. & Hansen, M. (2009). Assessing the potential of using value-added estimates of teacher job performance for making tenure decisions. Working Paper 2009-2. Seattle, WA: Center on Reinventing Public Education.
Jacob, B. & Lefgren, L. (2008). Can principals identify effective teachers? Evidence on subjective performance evaluation in education. Journal of Labor Economics. 26(1), 101-36.
Kane, T. J., Rockoff, J.E., & Staiger, D.O. (2008). What does certification tell us about teacher effectiveness? Evidence from New York City. Economics of Education Review, 27(6), 615-31.
Resumen Ejecutivo
La evaluación de los profesores sobre la base de la contribución que hacen al aprendizaje de sus alumnos, de valor añadido, es una política de reforma de la educación cada vez más popular, pero controvertido. Destacamos y tratar de aclarar las cuatro áreas de confusión sobre el valor añadido. La primera es entre la información de valor añadido y los usos a los que se puede poner. Uno puede, por ejemplo, estar a favor de un sistema de evaluación que incluye información de valor añadido sin apoyar el lanzamiento al público de datos de valor añadido en el profesor individual. La segunda es entre las consecuencias para los profesores frente a las de los estudiantes de clasificar y clasificar mal los profesores como eficaz o ineficaz – los intereses de los estudiantes no siempre son perfectamente congruentes con las de los maestros. El tercero es entre la confiabilidad de las mediciones de valor agregado del desempeño docente y las normas para la evaluación en otros campos – los resultados de valor añadido para los profesores llegar a ser tan fiable como las evaluaciones de rendimiento utilizados en otras partes de las decisiones de altas apuestas. El cuarto se encuentra entre la fiabilidad de los sistemas de evaluación de los docentes que incluyen el valor añadido frente a los que no – ignorando el valor añadido normalmente reduce la fiabilidad de las decisiones personales acerca de los maestros. Llegamos a la conclusión de que los datos de valor agregado tiene un papel importante que desempeñar en los sistemas de evaluación de los docentes, pero que hay mucho por aprender acerca de la mejor manera de utilizar la información de valor añadido en las decisiones de recursos humanos.
Evaluación docente en una encrucijada
La gran mayoría de los distritos escolares que actualmente emplean los sistemas de evaluación docente que dan lugar a todos los maestros que reciben la misma (superior) de calificación. Este es quizás el mejor ejemplo de un informe reciente de la New Teacher Project centrándose en miles de maestros y administradores que abarca doce distritos en cuatro estados. [1] El informe reveló que a pesar de todos los distritos empleado un proceso formal de evaluación para los profesores, no todos los diferenciar de manera significativa entre los niveles de eficacia de la enseñanza. En los distritos que utilizan clasificaciones binarias más del 99 por ciento de los maestros fueron calificados de satisfactorios. En los distritos con una gama más amplia de las calificaciones, el 94 por ciento recibió una de las dos clasificaciones y menos del 1 por ciento recibió una calificación insatisfactoria. Como Secretario de Educación Arne Duncan dijo, “Hoy en nuestro país, el 99 por ciento de nuestros profesores están por encima del promedio.” [2]
Hay una evidente necesidad de sistemas de evaluación de los docentes que incluyen una propagación de la evaluación de los maestros verificable y comparable que distinguen a la efectividad del maestro. Sabemos, gracias a una gran cantidad de investigación empírica que los profesores difieren dramáticamente entre sí en la eficacia. Los sistemas de evaluación pueden reconocer estas diferencias pero en general no lo hacen. Como consecuencia, las apuestas muchas bajas y las decisiones de altas apuestas que se realizan en el mercado de trabajo docente se producen sin el beneficio del reconocimiento formal de la eficacia (o ineficacia) que los docentes están en el aula. ¿Hay alguna duda de que las decisiones políticas docentes estarán mejor informados por los sistemas de evaluación de los docentes que diferencian significativamente entre los docentes?
Hay un gran apoyo, tanto a nivel federal y estatal para el desarrollo y uso de sistemas de evaluación de los docentes que son más exigentes. [3] Y los dos sindicatos de docentes nacionales, el AFT y el NEA, el apoyo a los sistemas de evaluación de los docentes que reconocen y recompensan la excelencia y mejorar el desarrollo profesional. Esto es coherente con su apoyo a largo plazo de la Junta Nacional para Estándares Profesionales de Enseñanza, que está diseñado para identificar a los maestros excelentes y darles un bono de sueldo.
La última generación de sistemas de evaluación docente busca incorporar información sobre el valor añadido por los profesores para el logro de sus estudiantes. La contribución del profesor se puede estimar en una variedad de maneras, pero por lo general implica alguna variante de restar la puntuación de test de rendimiento de los estudiantes de un profesor al comienzo del año de su resultado al final del año, y realizar los ajustes estadísticos para tener en cuenta diferencias en el aprendizaje de los estudiantes que pudieran derivarse de antecedentes de los estudiantes o los factores de toda la escuela fuera del control del profesor. Estas ganancias ajustadas en el desempeño estudiantil son comparados a través de los maestros. puntuaciones de valor añadido se puede expresar en un número de maneras. Uno que sea fácil de entender es una puntuación percentil que indica que un profesor está dada en relación con otros profesores. Así, un maestro que marcó en el 75 por ciento sobre el valor añadido para el logro de las matemáticas se han producido mayores beneficios para sus estudiantes que las ganancias producidas por el 75 por ciento de los otros maestros que se evalúa.
Los críticos de los métodos de valor añadido han expresado su preocupación acerca de la validez estadística, confiabilidad, y la corruptibilidad de las medidas de valor añadido. Creemos que la respuesta correcta a estas preocupaciones es mejorar las medidas de valor añadido constantemente y que los utilicen con prudencia, para no descartar o ignorar los datos. Con ese objetivo en mente, se consideran cuatro fuentes de preocupación acerca de la evaluación de valor añadido de los maestros
información de valor añadido frente a lo que haces con ella
Existe un debate considerable acerca de cómo estas evaluaciones se deben utilizar para mejorar las escuelas, y la incertidumbre acerca de cómo implementar las reformas propuestas. Por ejemplo, incluso los partidarios de vincular la remuneración con el desempeño frente a las decisiones de diseño con numerosas consecuencias inciertas. ¿Cómo pagar por un sistema de rendimiento está diseñado salarial que los incentivos basados en el rendimiento del equipo frente a desempeño individual, con incentivos gestionados desde el ámbito estatal o de distrito contra el nivel de su edificio, o tener incentivos estructurados como el avance más rápido a través de un sistema de rangos vs bonos anuales-pueden dar lugar a la política de muy buena o muy ineficaces [4].
Similar incertidumbre rodea otros posibles usos de información de valor añadido. Por ejemplo, la tenencia de la vinculación con las puntuaciones de evaluación de valor agregado tendrá efectos inmediatos sobre el rendimiento escolar que han sido bien modelados, pero estos modelos no pueden predecir los efectos indirectos, como los que pudieran derivarse de cambios en los perfiles de personas interesadas en entrar en la profesión docente . Estos efectos sobre el equilibrio general del mercado de trabajo los maestros son en gran medida el tema de la hipótesis y la especulación. La investigación sobre estos y otros temas es incipiente, [5], pero ahora es mucho más desconocido que conocido.
Sin embargo, las incertidumbres que rodean la mejor manera de diseñar políticas de recursos humanos que se aprovechan de la evaluación docente significativa no se refieren directamente a la cuestión de si la información de valor añadido debe ser incluido como un componente de evaluación de los docentes. Hay una gran confusión entre las cuestiones que rodean la inclusión de las puntuaciones de valor añadido en los sistemas de evaluación de los docentes y las preguntas acerca de cómo esa información se utiliza para las decisiones de recursos humanos. Esto es probablemente porque los usos de la evaluación de los maestros que han ganado la mayor atención pública o notoriedad se han basado exclusivamente en el valor añadido. Por ejemplo, en agosto de 2010, el Los Angeles Times utiliza varios años de matemáticas y los datos de prueba para identificar Inglés público lo mejor y lo peor de terceros a los maestros de quinto grado en el Los Angeles Unified School District. La controversia posterior se centró tanto en la evaluación de valor añadido como las acciones del periódico. Pero la pregunta de si este tipo de estadísticas deben ser publicados se puedan separar de la cuestión de si tales datos deben tener un papel en las decisiones de personal. Es de rutina para los profesionales que trabajan para recibir las evaluaciones resultantes de su desempeño en el trabajo, pero esa información no suele ser difundidos a la opinión pública.
Un lugar para el valor agregado
Gran parte de la controversia en torno a las medidas de desempeño de los maestros que incorporan información de valor añadido se basa en los temores acerca de cómo las medidas se utilizarán. Después de todo, una vez que los administradores tienen acceso a una medida de desempeño cuantitativos, se puede usar para sensibles las decisiones de recursos humanos, incluida la remuneración de los docentes, la promoción o los despidos. Pueden o no pueden hacer esto con prudencia, o bien, y es razonable que los que se verán afectados a expresar sus preocupaciones.
Creemos que cada vez que las acciones de recursos humanos se basan en las evaluaciones de los profesores se beneficiarán de la incorporación de toda la mejor información disponible, que incluye medidas de valor añadido. No sólo los profesores suelen recibir escasa retroalimentación sobre su desempeño pasado en el aumento de resultados de las pruebas, la información que suelen recibir en las puntuaciones medias o competencia de sus estudiantes puedan inducir a error o desmoralizador. Las puntuaciones altas de prueba o un tipo de competencia muy alto puede ser más informativo de lo que sus estudiantes son de la forma en que se les enseñó. Las puntuaciones bajas de prueba podría enmascarar el increíble progreso de los maestros hizo. Los docentes y sus mentores y directores pueden ganar una nueva perspectiva amplia si pudieran ver el desempeño de los maestros dentro de un contexto de otros maestros con los estudiantes como los suyos, de una población mucho más grande que una sola escuela. Esta es la promesa de análisis de valor agregado. No es un sistema perfecto de medición, pero se puede complementar las medidas de observación, comentarios de los padres, y las reflexiones personales sobre la enseñanza mucho mejor que cualquier otra alternativa disponible. Puede ser utilizado para ayudar a dirigir los recursos hacia donde más se necesitan, para identificar los puntos fuertes de profesores y debilidades, y para poner de relieve el papel fundamental de los profesores en el aprendizaje.
debate a pleno pulmón sobre las políticas, tales como pago por mérito y “fuera últimos en entrar, primero” debe continuar, pero no debemos dejar que la controversia sobre los usos de la caseta de información de evaluación docente en la forma de desarrollar y mejorar las medidas de desempeño de los docentes.
Algunos errores de clasificación son peores que otros
Los recientes informes de investigadores de la educación a nivel nacional visible y pensadores han instado a la moderación en el uso de evaluaciones a los maestros sobre la base de resultados de los exámenes de las decisiones de altas apuestas. El hilo conductor de estos informes es la preocupación de que las puntuaciones de valor añadido se registra a nivel de los profesores con frecuencia calificación errónea de los profesores en formas que sean equitativas para los docentes, por ejemplo, la identificación de un maestro como ineficaz que está en medio de los hechos. [6]
Hay tres problemas con estos informes. En primer lugar, a menudo crean una prueba imposible que no es el objetivo de cualquier sistema de evaluación docente específica, como el uso de un solo año de crecimiento de calificaciones en las pruebas para producir un rango lista ordenada de los docentes para una decisión de gran importancia como la tenencia. Cualquier aplicación práctica de las medidas de valor añadido deben hacer uso de los intervalos de confianza con el fin de evitar la falsa precisión, y debe incluir varios años de datos de valor agregado en combinación con otras fuentes de información para aumentar la fiabilidad y validez. En segundo lugar, que a menudo ignoran el hecho de que todos los sistemas de toma de decisiones han de error de clasificación. El objetivo es reducir al mínimo los errores de clasificación más costosa, no eliminar todas las de ellos. En tercer lugar, se centran demasiado en un tipo de error de clasificación, el tipo que afecte negativamente a los intereses de los profesores.
Imagínese el sistema más simple de clasificación que podría caber en una distribución continua de las puntuaciones de los docentes de valor añadido: un punto de la distribución es seleccionado como un punto de corte. Cualquier maestro que reciben una puntuación de valor añadido o por encima del punto de corte que se clasifica como eficaz que cualquier profesor con una puntuación por debajo de ese punto se clasifica como ineficaz. Imagine, además, que el valor añadido se mide con el error, es decir, la puntuación de un profesor no capta perfectamente la verdadera contribución del profesor al aprendizaje de los estudiantes. Este error en la medición de medios que, dependiendo de la ubicación del punto de corte se coloca, algunos maestros verdaderamente eficaz será nominal ineficaz (que son falsos negativos) y algunos profesores ineficaces será nominal efectiva (que son falsos positivos). Los otros dos resultados de clasificación son los maestros verdaderamente eficaz para clasificarse (verdaderos positivos), y verdaderamente los profesores ineficaces para clasificarse (verdaderos negativos).
Para ilustrar, la figura de arriba representa los resultados de evaluación obtenidos de dos categorías de profesores: los que son verdaderamente efectivos (color gris) y los que son realmente ineficaces (color azul). Las calificaciones de los dos grupos de profesores se distribuyen normalmente alrededor de la media de su grupo, con la difusión de las puntuaciones que representan tanto a las verdaderas diferencias en la efectividad del maestro y el error en la medida utilizada para la evaluación. El punto de corte en la figura representa el punto en la escala de puntajes de evaluación docente en la que un administrador elige para el tratamiento de los profesores de manera diferente en términos de una acción personal. Uso de la tenencia como un ejemplo, todos los que recibieron una puntuación de la evaluación o por encima del punto de corte que reciben la tenencia, mientras que todo el mundo de puntuación por debajo del punto de corte sería despedido o continuar en un estado de prueba. En este caso, la mayoría de los maestros verdaderamente eficaz recibieron calificaciones por encima del punto de corte – que son verdaderos positivos – y la mayoría de los profesores realmente ineficaces recibieron calificaciones por debajo del punto de corte – que son verdaderos negativos. Pero también hay errores de clasificación, es decir, los maestros verdaderamente eficaz clasificados como ineficaz (falsos negativos) y los maestros verdaderamente ineficaces clasificados como efectiva (falsos positivos).
La tasa de falsos positivos y la tasa de falsos negativos están inversamente relacionados y determinados por el lugar en el punto de corte se coloca en la distribución de las puntuaciones. Por lo tanto, si el gerente se trasladó el punto de corte para la concesión de la tenencia a la derecha en esta cifra, la tasa de falsos positivos bajaría mientras que la tasa de falsos negativos subiría. Asimismo, la tasa de positivos verdaderos subiría y la tasa de verdaderos negativos bajaría.
Gran parte de la preocupación y advierte sobre el uso del valor añadido se han centrado en la frecuencia de aparición de falsos negativos, es decir, los profesores efectivos que se identifican como ineficaz. Pero la formulación del problema en términos de falsos negativos sitúa el foco casi exclusivamente en los intereses de la persona que está siendo evaluado en lugar de los estudiantes que están siendo atendidos. Es fácil identificarse con el buen maestro que quiere evitar el despido por estar incorrectamente etiquetado como un mal profesor. Desde la perspectiva del individuo, no la tasa de errores de clasificación es aceptable. Sin embargo, un sistema de evaluación que se traduce en la tenencia y el avance de casi todos los maestros y por lo tanto tiene una tasa muy baja de falsos negativos genera una alta tasa de falsos positivos, es decir, los maestros identificaron como efectivos que no lo son. Estos maestros arrastre hacia abajo el rendimiento de las escuelas y no servir a los estudiantes así como profesores más eficaces.
En el más simple de los escenarios que implican la tenencia de los profesores noveles, es en el mejor interés de los estudiantes para elevar el punto de corte lo que aumenta la proporción de las aulas los maestros verdaderamente eficaz de personal que es en el mejor interés de los profesores noveles para bajar el punto de corte de tal modo por lo que es más probable que se les otorgará la tenencia. Nuestro mensaje es que los intereses de los estudiantes y los intereses de los docentes en los errores de clasificación no siempre son congruentes, y que un sistema que genera una tasa muy alta de falsos negativos podría producir mejores resultados para los estudiantes por elevar la calidad general de la fuerza laboral docente [7]. Centrar la atención en los efectos sobre los profesores de errores de clasificación debe ser equilibrada por una preocupación por los efectos sobre los estudiantes.
Una medida de rendimiento tiene que ser buena, no perfecta
Los debates de la evaluación docente en la política y los niveles técnicos a menudo se procederá en forma aislada de la experiencia y la evidencia de otros campos relacionados. Sin embargo, sabemos mucho acerca de la evaluación del desempeño en los mercados de trabajo, el conocimiento que debe informar a los debates sobre la evaluación de valor añadido y del profesorado en general.
La correlación de las medidas basadas en los ensayos de eficacia de la enseñanza entre un año escolar y las mentiras próxima entre 0,20 y 0,60 a través de múltiples estudios, con la mayoría de las estimaciones que se extiende entre 0.30 y 0.40. [8] Una medida que tiene una correlación de. 35 de un año a otro produce estadísticas aparentemente preocupantes de acuerdo con nuestra discusión conceptual de los errores de clasificación. Por ejemplo, sólo alrededor de un tercio de los docentes clasificados en el cuartil superior de valor añadido basado en el rendimiento de un año académico de parecer en el cuartil superior de nuevo el próximo año. Y el diez por ciento de los maestros cuartil inferior un año aparecería en el cuartil superior de la siguiente. Parte de esta inestabilidad se debe a la variación en el desempeño de los maestros verdaderos de año en año y parte de ella es simplemente debido a un error en la medida.
Es instructivo mirar en otros sectores de la economía como un indicador para juzgar la estabilidad de las medidas de valor añadido. El uso de las medidas imprecisas de tomar decisiones con altas apuestas en ese lugar los intereses sociales o institucionales por encima de los de los individuos está muy difundido y aceptado en campos fuera de la enseñanza.
La correlación de los resultados de los exámenes de admisión universitaria de los solicitantes de la universidad con las medidas de éxito en la universidad es modesto (r = 0.35 para el SAT de matemáticas combinado verbal y estudiante de primer año del PAM [9]). Sin embargo casi todos los colegios selectivos utilizar los resultados del SAT o ACT como un componente muy ponderada de sus decisiones de admisión a pesar de que produce importantes tasas de falsos negativos (los estudiantes que podrían haber tenido éxito, pero se les niega la entrada). ¿Por qué universidades usan como un instrumento de selección errónea? Porque a pesar de la predicción del éxito de SAT / ACT es modesto que es uno de los predictores más fuertes disponibles. Una clase entrante formado en parte por la decisión de admitir a aquellos con puntuaciones más altas SAT / ACT en lugar de aquellos con puntuaciones más bajas se obtienen mejores resultados que una clase formada sin el uso de esa información.
En el cuidado de la salud, el volumen de pacientes y las tasas de mortalidad de los pacientes para los cirujanos y los hospitales se informó públicamente sobre una base anual por organizaciones privadas y agencias federales y han sido formalmente aprobado como medidas de calidad de las organizaciones nacionales. [10] Sin embargo, el volumen de pacientes es sólo moderadamente correlacionado con resultados de los pacientes, y las correlaciones de año a año en las tasas de mortalidad de los pacientes están muy por debajo de 0,5 para las condiciones de la mayoría de médicos y quirúrgicos. Sin embargo, estas medidas son utilizadas por los pacientes y compradores de servicios sanitarios de atención para seleccionar los proveedores, ya que son capaces de predecir grandes diferencias entre los proveedores de servicios médicos en la evolución de los pacientes de otras medidas a su alcance [11].
En una vena similar, el volumen de ventas de casas de corredores de bienes raíces, el rendimiento de los fondos de inversión, la productividad del personal de servicio de campo para las empresas de servicios públicos, y la salida de los operadores de máquinas de coser, y un promedio de bateo de béisbol predecir el rendimiento futuro sólo modestamente. Un meta-análisis [12] de 22 estudios de medidas de rendimiento objetivo que se encuentran que el año-a las correlaciones años en trabajos de alta complejidad varió desde 0,33 hasta 0,40, en consonancia con correlaciones de valor añadido para los maestros.
A pesar de estas relaciones de predicción modesta, las empresas de bienes raíces racional de tratar de reclutar líder del año pasado el volumen de una empresa competidora; inversores comprensible que prefieren las empresas de inversión con una rentabilidad por encima del promedio en un año anterior, y un promedio de bateo del béisbol en un año determinado tiene grandes efectos sobre contratos de los jugadores . La correlación entre la temporada en los promedios de bateo de los jugadores de béisbol profesional es 0,36 [13]. Pregunte a cualquier manager de un equipo de béisbol si se considera promedio de bateo de un jugador que el año anterior en las decisiones sobre el presente año.
No debemos crear expectativas poco realistas de la fiabilidad o la estabilidad del valor agregado. evaluaciones de valor agregado son tan fiables como los utilizados para las decisiones de altas apuestas en muchos otros campos.
Haciendo caso omiso de los datos de valor añadido no ayuda
Sabemos mucho acerca de cómo otros medios de clasificación de los profesores realizan frente al valor agregado. En lugar de preguntar al valor agregado a la altura de un nivel arbitrario de la perfección, sería productivo para preguntar cómo se lleva a cabo en comparación con la clasificación basada en otras formas de la información disponible de los docentes.
El “comparado con lo que” la cuestión ha sido abordada por una buena cantidad de investigación sobre las credenciales de otro maestro y características que se utilizan actualmente para determinar la elegibilidad de empleo y remuneración. Aquí la investigación es muy claro: si la realización pruebas de los estudiantes es el resultado, [14] al valor agregado es superior a otros métodos existentes de clasificación de los profesores. La clasificación que se basa en otras características mensurables de los profesores (por ejemplo, las puntuaciones en los exámenes de licencias, las rutas en la enseñanza, la naturaleza de la certificación, la certificación de la Junta Nacional, experiencia docente, la calidad de la institución de pregrado, la pertinencia de los cursos de pregrado extensión y naturaleza del desarrollo profesional), considerados por separado o en conjunto, no está en la misma liga en términos de rendimiento predecir el futuro como la evaluación basada en el valor añadido.
Consideremos un ejemplo concreto que ha surgido como consecuencia de la profunda recesión: la necesidad de los barrios de despedir a los maestros como consecuencia de los déficit de presupuesto. Los administradores en la mayoría de las industrias que intentan llegar a los despidos con el fin de causar el menor daño posible a la productividad – los trabajadores menos productivos serían despedidos o excedencia antes de trabajadores más productivos.
Supongamos que los líderes del distrito escolar estaban motivados de manera similar y había flexibilidad para decidir cómo proceder. Imaginar tres posibles enfoques para decidir quién debe ser despedido. El primer enfoque que emplean el sistema de evaluación docente existentes basados en las calificaciones de los principales, que identifica a algunos maestros como insatisfactoria, pero calificó la gran mayoría de los profesores como satisfactoria. El segundo enfoque consistiría en emplear la experiencia docente, que se ha encontrado en una serie de estudios para tener una relación positiva estadísticamente significativa con el rendimiento de los estudiantes. El tercer enfoque que utilizan las puntuaciones profesor de valor añadido para identificar a los mejores maestros de realizar.
Los investigadores han comparado estos tres enfoques a partir de datos del cuarto y quinto grado de escuelas públicas en Nueva York y la simulación de la eliminación de los profesores como para reducir el presupuesto en un 5 por ciento. [15] Un gráfico de ese estudio, se reproduce a continuación, ilustra los resultados para el logro del estudiante si las posiciones de los docentes con las puntuaciones más bajas de valor añadido fueron eliminados frente a las posiciones de los maestros con menos experiencia. El eje horizontal es la eficacia docente como un índice por ganancias de los estudiantes mientras que el eje vertical es el número de profesores. puntuaciones de la eficacia docente son los que habitualmente se calcula por las escuelas públicas de Nueva York y podría abarcar el desempeño docente que se remonta hasta cuatro años.
Tenga en cuenta que si los profesores fueron despedidos sobre la base de la antigüedad que se distribuirán en toda la gama de rendimiento en términos de eficacia en el aumento de puntajes de los estudiantes de prueba mientras que los profesores despedidos sobre la base de bajos puntajes de valor agregado sería en la parte inferior de la distribución. En otras palabras, muchos de los profesores más eficaces serían retenidos fueron los despidos sobre la base de valor añadido que se han basado en la antigüedad. Principales clasificaciones, no se muestra en el gráfico, un mejor desempeño que la antigüedad docente en la identificación de los profesores con baja eficacia en el aumento de rendimiento de los estudiantes, pero no tan bien como las puntuaciones de valor añadido.
La pregunta, entonces, no es si las evaluaciones de la eficacia docente basado en el valor agregado son perfectos o cerca de ella: no lo son. La pregunta, en cambio, es si y cómo la información de valor añadido se compara con otras fuentes de información disponibles a las escuelas cuando las decisiones de personal difícil e importante debe ser hecho. Por ejemplo, manteniendo los profesores ineficaces en el trabajo, mientras que despedir a los maestros lo mejor es algo que la mayoría de los líderes escolares, padres y público en general se quiere evitar. Valor añadido es una mejor herramienta para ello que otras medidas tales como la experiencia docente, la certificación, la antigüedad, y clasificaciones principales, a pesar de que es imperfecta [16].
Conclusión: el valor añadido tiene un papel importante que desempeñar
Tenemos mucho que aprender acerca de cómo mejorar la fiabilidad de las fuentes de valor añadido y otros de información sobre la eficacia de los maestros, así como la construcción de políticas de personal útil en torno a dicha información. Sin embargo, mucho del debate sobre la evaluación del valor añadido de la eficacia de los docentes ha llevado a cabo sin tener en cuenta las alternativas y al combinar las políticas de personal cuestionable con información de valor añadido en sí. Cuando la evaluación docente que incorpora datos de valor añadido se compara con un ideal abstracto, que fácilmente pueden ser encontrados en querer que sólo proporciona una señal confusa. Pero cuando se compara con la evaluación del desempeño en otros campos o para las evaluaciones de los maestros en base a otras fuentes de información, parece respetable y parece proporcionar la mejor señal que tenemos.
Los profesores difieren drásticamente en su rendimiento, con grandes consecuencias para los estudiantes. Contratación de las políticas que ignoran este pierde una de las principales palancas para la elevación del rendimiento de las escuelas y los estudiantes. Es por eso que existe un gran interés en el establecimiento de sistemas de evaluación docente que se diferencian significativamente el rendimiento.
La enseñanza es una tarea compleja y captura de valor añadido sólo una parte del impacto de las diferencias en la efectividad del maestro. Por lo tanto está en juego decisiones de alto sobre la base de las medidas de valor agregado del desempeño docente será imperfecto. No abogamos por el uso de medidas de valor añadido únicamente cuando se toman decisiones sobre contratación, despido, la tenencia, la compensación, la colocación, o el desarrollo de los profesores, pero sin duda información de valor añadido debe estar en la mezcla, dada la evidencia empírica que predice más sobre lo que los estudiantes aprender de los maestros a los que se asignan a cualquier otra fuente de información.
[1] Weisberg, D. Sexton, S., Mulhern, J., y Keeling, D. (2009). El efecto flash: Nuestro fracaso nacional para reconocer y actuar sobre las diferencias en la efectividad del maestro. Nueva York, NY: El Proyecto de Nuevos Maestros.
[2] Gabriel, T. (2010, 2 de septiembre). Un viaje por carretera de celebración por el secretario de educación, del New York Times, p. A24.
[3] Por ejemplo, la administración Obama hizo el apoyo del Estado de rigurosos sistemas de evaluación docente una condición previa para la competencia en Race to the Top, y ha establecido un plan para la reautorización de la Ley Primaria y Secundaria Educación en el que la efectividad del maestro se define la evaluación del rendimiento en el trabajo es una faceta importante.
[4] Springer, MG, Ballou, D. Hamilton, L., Le, V., Lockwood, JR, McCaffrey, D. Pimienta, M., y Stecher, B. (2010). Salario de los maestros para el desempeño: La evidencia experimental del proyecto sobre los incentivos en la enseñanza. Nashville, TN: Centro Nacional de Incentivos de Desempeño de la Universidad de Vanderbilt.
[5] Goldhaber, D. y Hannaway, J. (Eds.) (2009). Creación de una nueva profesión docente. Washington, DC: The Urban Institute.
[6] Por ejemplo, un informe de política del Instituto de Política Educativa en los problemas con el uso de resultados de los exámenes para evaluar a los maestros, los informes que las estimaciones de valor agregado “han demostrado ser inestables a través de modelos estadísticos, los años, y las clases que los profesores enseñar. “Los autores, reforzar sus recomendaciones de no utilizar tales resultados con las descripciones de investigaciones que demuestran que” entre los profesores que fueron clasificados en el top 20 por ciento de efectividad en el primer año, menos de un tercio estaban en ese grupo de arriba el próximo año , “y que” la eficacia de calificaciones en un año sólo podía predecir a partir de 4 por ciento a 16 por ciento de la variación en los índices de este tipo en el año siguiente. “Y, un informe de la Academia Nacional de Ciencias presenta una gama de puntos de vista sobre el uso de valor agregado, pero sin embargo, concluye que “las persistentes preocupaciones sobre la precisión y el sesgo militan contra el empleo de indicadores de valor añadido como la base principal para las decisiones de alto riesgo.” Del mismo modo, los informes de Rand, el Educational Testing Service, y el IES nos recuerdan que ser cautelosos sobre el grado de precisión en las estimaciones de la eficacia de los docentes derivadas de las medidas de valor añadido.
[7] Por supuesto, hay muchas ventajas y desventajas que desmienten el cálculo simple en nuestro ejemplo. Por ejemplo, si una parte apreciable de los profesores jóvenes fueron retirados de la fuerza de trabajo en un distrito en particular el conjunto de candidatos podría ser demasiado pequeño para reemplazar a los profesores despedidos. De un distrito o la perspectiva del estudiante que sería mejor tener una menor calidad de los profesores en el aula que no tener los docentes de todos. Del mismo modo, el cálculo no es sencillo desde el punto de vista de un profesor. Por ejemplo, un sistema de evaluación que identifica a casi todo el mundo como un ganador y por lo tanto evita los falsos negativos puede disminuir las oportunidades para el avance de los maestros más fuertes y reducir el apoyo del público para la profesión docente.
[8] Goldhaber, D. & Hansen, M. (2010). ¿Es sólo una clase de mala? Evaluación de la estabilidad del desempeño docente medido. CEDR documento de trabajo de 2010-3. Seattle, WA: Universidad de Washington.
[9] Cámara, W.J. y Echternacht, G. (julio de 2000). El SAT I y los grados de la escuela secundaria: la utilidad en la predicción del éxito en la universidad. Nueva York, NY: The College Board.
[10] Véase http://www.leapfroggroup.org/, http://www.hospitalcompare.hhs.gov/ y http://www.qualityforum.org/Measures_List.aspx.
[11] Por ejemplo, Dimick, JB, Staiger, DO, Basur, O., y Birkmeyer, JD (2009). Compuesto medidas para predecir la mortalidad quirúrgica en el hospital. Health Affairs, 28 (4), 1189-1198.
[12] Sturman, Cheramie MC, RA, y ya Cashen, LH (2005). El impacto de la complejidad del trabajo y la medición del desempeño de la consistencia temporal, la estabilidad y la fiabilidad test-retest de las calificaciones de los empleados desempeño en el trabajo. Diario de Psicología Aplicada, 90, 269-283.
[13] Schall, T. y Smith, G. (2000). Hacer retroceder a los jugadores de béisbol de la media? El Estadístico de América, 54, 231-235.
[14] Aunque las puntuaciones de los estudiantes en pruebas estandarizadas de logros son, obviamente, los proxies para en lugar de los resultados de los estudiantes actuales que la educación que se supone que generan, es importante recordar que ellos son fuertes predictores de los resultados a largo plazo. Por ejemplo, un gran estudio a escala nacional por la ACT encontró que las puntuaciones obtenidas de octavo grado de prueba fueron el mejor predictor de los estudiantes de nivel de preparación universitaria y profesional en alta graduación de la escuela-incluso más que los estudiantes los antecedentes familiares, cursos de secundaria, o en la escuela secundaria promedio de calificaciones.
[15] Boyd, Lankford DJ, H., Loeb, S., y Wyckoff, JH (Julio de 2010). Maestro despidos: como ejemplo un estudio de la antigüedad frente a las medidas de efectividad. Resumen 12. Centro Nacional para la Evaluación de los datos longitudinales en la investigación educativa. Washington, DC: The Urban Institute.
[16] relacionadas con esta celebración La investigación incluye:
Goldhaber, D. y D. Hansen, M. (2009). Evaluación del potencial del uso de estimaciones de valor agregado del desempeño docente de trabajo para la toma de decisiones de la tenencia. Documento de trabajo 2009-2. Seattle, WA: Centro de Educación sobre la Reinvención del público.
Jacob, B. & Lefgren, L. (2008). ¿Puede identificar a los maestros directores eficaces? La evidencia sobre la evaluación del desempeño en la educación subjetiva. Diario de la Economía Laboral. 26 (1), 101-36.
Kane, T. J., Rockoff, J.E., y Staiger, D.O. (2008). ¿Qué significa la certificación nos hablan de la efectividad del maestro? La evidencia de Nueva York. Economía de la Revisión de la Educación, 27 (6), 615-31.
0 Comments