Comments on: Regresión Logística con Python paso a paso

By: Yele

Yele — Tue, 23 Jun 2020 10:09:36 +0000

Hola Juan, que algoritmo recomiendas para predecir el crecimiento de las plantas utilizando valores como cantidad de luz, temperatura, etc? He intentado con regresión lineal pero el error cuadrático es muy alto

By: petter

petter — Fri, 07 Feb 2020 03:40:26 +0000

In reply to Jorge. prueba con un RANDOM_STATE=99 para que obtengas el valor mas alto del accuracy.

By: petter

petter — Fri, 07 Feb 2020 03:28:53 +0000

In reply to Jorge. Tienes razon men, no lo habia notado se debe de ajustar a los vaores de entrenamiento

By: petter

petter — Fri, 07 Feb 2020 03:06:22 +0000

He visto que podemos tomar un rango y graficar los scores, para ver en cual es el mas alto: algo asi
scores=[]
for i in range(1,100):
X_train,X_test,y_train,y_test=train_test_split(X,Y,test_size=0.20,random_state=i)
kfold = KFold(n_splits=10, random_state=42)
cv_results = model_selection.cross_val_score(modelo, X_train, y_train, cv=kfold,
scoring=’accuracy’)
predicciones2 = modelo.predict(X_test)
scores.append([i,accuracy_score(y_test, predicciones2)])
for i in range(1,100):
plt.plot(scores[i-1][0],scores[i-1][1],marker=’x’)
el cambio se da por el RANDOM_STATE en el train_split, en el kfold no influye el valor del random:state

By: petter

petter — Fri, 07 Feb 2020 02:28:12 +0000

hola men, gracias por compartir tu conocimiento, una consulta sabes por que el valor que tome el RANDOM_STATE influye mucho en el valor del score?
Por ejemplo usaste un valor de random_state=7 y con ese lograste superar el score que se uso sin dividir la data en train/test, pero si le ponemos otros valores al random_state el valor del score cambia, sabes como influye mucho el valor del random_state? como elegir el mejor valor del random_state? se que si no lo usas te cambia la data por lo que es mecesario darle un valor pero como saber cual es el mejor valor?

By: christian

christian — Thu, 09 Jan 2020 19:39:44 +0000

buenas, te felicito por la pagina. Consulta, el dataset solo tiene que tener variables cuantitativas o dummies?

By: Jorge

Jorge — Sun, 18 Aug 2019 18:57:21 +0000

Hola Juan Ignacio,

Cuando dices “Y ahora hacemos las predicciones -en realidad clasificación- utilizando nuestro «cross validation set», es decir del subconjunto que habíamos apartado. En este caso vemos que los aciertos fueron del 85% pero hay que tener en cuenta que el tamaño de datos era pequeño..”, no veo que escribas:

model.fit(X_train, Y_train)

¿No sería necesario antes de calcular las predicciones y su scoring? De esa manera el modelo no habría aprendido previamente de todo el data set cuando lo hemos hecho .fit() pero con todos los datos.

Gracias

By: DiegoV

DiegoV — Wed, 26 Jun 2019 15:13:19 +0000

Hola Juan Ignacio, que sentencia utilizarías en el ejemplo para hacer un K-S test, y el p-value test? Gracias

By: Na8

Na8 — Wed, 19 Jun 2019 15:03:08 +0000

In reply to iñaki. Hola iñaki, en este caso, ya vienen definidos los tipo de sistema operativo como 0,1 y 2 en el archivo csv de entrada. Si hubiéramos definido otros números serían esos. O si hubieran sido cadenas de texto o por ejemplo "a,b,c" habría que convertirlos a valores categóricos. Saludos y gracias por escribir!

By: iñaki

iñaki — Thu, 13 Jun 2019 16:22:19 +0000

estimado,
hay algo que me cuesta comprender, al ingresar un conjunto de datos y solicitar que nos determine a que clase pertenece, por que nos da solo 3 resultados? bajo qué parametros determina los distintos resultados?