Computational Linguistics, by Lucas Freitas

>> LUCAS FREITAS: Hey. Bienvenidos todos. Mi nombre es Lucas Freitas. Soy un junior en [inaudible] de estudiar ciencias de la computación con un enfoque en lingüística computacional. Así que mi secundaria es en el lenguaje y la teoría lingüística. Estoy muy emocionado de enseñar a chicos un poco sobre el campo. Es una zona muy interesante para estudiar. También con mucho potencial para el futuro. Por lo tanto, estoy muy emocionada de que ustedes están considerando proyectos en lingüística computacional. Y yo estaré más que feliz para asesorar alguno de ustedes si decide perseguir uno de esos. >> Así que en primer lugar cuáles son computacional la lingüística? Así que la lingüística computacional es el intersección entre la lingüística y la ciencias de la computación. Entonces, ¿qué es la lingüística? ¿Qué es la informática? Pues desde la lingüística, lo que tomamos son los idiomas. Así que la lingüística es en realidad el estudio del lenguaje natural en general. Así que el lenguaje natural - se habla de lenguaje que realmente usamos para comunicarse entre sí. Así que no estamos hablando exactamente sobre C o Java. Estamos hablando más acerca de Inglés y Chino y otros idiomas que utilizar para comunicarse entre sí. >> Lo difícil de esto es que en este momento tenemos casi 7.000 idiomas en el mundo. Así que hay una muy alta diversidad de idiomas que podemos estudiar. Y entonces usted piensa que es probable que sea muy difícil de hacer, por ejemplo, traducción de una lengua a la otra, teniendo en cuenta que usted tiene casi 7.000 de ellos. Por lo tanto, si usted piensa de hacer la traducción de una lengua a la otra que tienen casi más de un millón diferentes combinaciones que pueda tener de un idioma a otro. Así que es realmente difícil de hacer algunos tipo de sistema de ejemplo de traducción para todos los idiomas. >> Por lo tanto, la lingüística trata con la sintaxis, la semántica, la pragmática. Ustedes no necesitan exactamente saber lo que se es. Pero lo interesante es que como un hablante nativo, cuando se aprende lenguaje como niño, en realidad se aprende todas esas cosas - la semántica de sintaxis y la pragmática - por sí mismo. Y nadie tiene que enseñar sintaxis para a entender cómo las oraciones son estructurado. Así que es muy interesante porque que es algo que viene muy intuitivamente. >> Y lo que llevas de la ciencia de la computación? Bueno, la cosa más importante que tener en ciencias de la computación es ante todo, la inteligencia artificial y el aprendizaje automático. Por lo tanto, lo que estamos tratando de hacer la lingüística computacional es enseñar su equipo cómo hacer algo con el lenguaje. >> Así, por ejemplo, en la máquina traducción. Estoy tratando de enseñarle a mi equipo cómo saber cómo hacer la transición de un idioma a otro. Así que, como básicamente la enseñanza un informáticos dos idiomas. Si hago el procesamiento del lenguaje natural, que es el caso por ejemplo de De Facebook Graph Search, enseñar su equipo la manera de entender consultas así. >> Por lo tanto, si usted dice "las fotos de mi amigos. "Facebook no trata de que como toda una cadena que tiene sólo un montón de palabras. En realidad, entiende la relación entre las "fotos" y "mis amigos" y entiende que las "fotos" son propiedad de "mis amigos". >> Entonces, eso es parte de, por ejemplo, procesamiento del lenguaje natural. Está tratando de entender lo que es la relación entre las palabras en una oración. Y la gran pregunta es, ¿puede enseñar a una computadora cómo hablar un lenguaje en general? Lo que es una pregunta muy interesante pensar, como si tal vez en el futuro, usted va a ser capaz de hable con su teléfono celular. Algo así como lo que hacemos con Siri, pero algo más parecido, en realidad se puede decir lo que quieras y el teléfono va a entender todo. Y puede tener preguntas de seguimiento y seguir hablando. Eso es algo muy emocionante, en mi opinión. >> Por lo tanto, algo de las lenguas naturales. Algo realmente interesante de lenguajes naturales es que, y esto es crédito a mi profesor de lingüística, Maria Polinsky. Ella da un ejemplo y creo que es realmente interesante. Porque aprendemos el lenguaje de cuando nacemos y luego nuestro nativo tipo de lenguaje crece en nosotros. >> Y, básicamente, a aprender el idioma de participación mínima, ¿no? Usted es sólo el aporte de su los padres de lo que suena su idioma gusta y que acaba de aprender. Así, es interesante porque si nos fijamos en esas frases, por ejemplo. Miras: "María se pone una capa de cada vez que sale de la casa ". >> En este caso, es posible tener la palabra "ella" se refieren a María, ¿no? Usted puede decir "María se pone una capa de cada vez que María deja la casa. ", por lo que está bien. Pero si nos fijamos en la sentencia "Ella se pone una capa cada vez que María sale de la casa. "sabes que es imposible decir que "ella" es refiriéndose a María. >> No hay manera de decir que "María pone en una capa cada vez que María deja la casa ". Así que es interesante porque este es el tipo de la intuición que cada hablante nativo tiene. Y a nadie se le enseñó que esto es la forma en que funciona la sintaxis. Y eso sólo se puede tener este "ella" refiriéndose a María en este primer caso, y en realidad en esta otra también, pero no en éste. Pero todo el mundo se pone tipo de a la misma respuesta. Todos están de acuerdo en eso. Así que es realmente interesante cómo a pesar de usted no sabe todas las reglas en su idioma que tipo de entender cómo funciona el idioma. >> Así que lo interesante de naturales lenguaje es que usted no tiene que conocer cualquier sintaxis para saber si una sentencia es gramatical o gramatical para la mayoría de los casos. ¿Qué te hace pensar que a lo mejor lo que que pasa es que a través de su vida, se vuelven cada vez más y más frases dijeron a usted. Y luego sigues memorización todas las sentencias. Y luego, cuando alguien te dice algo, se escucha esa frase y nos fijamos en su vocabulario de las sentencias y ver si esa frase está ahí. Y si es que hay que dicen que es gramatical. Si no es usted dice que es no gramatical. >> Así que, en ese caso, usted diría, oh, lo que tiene una enorme lista de todos los posibles condenas. Y luego, cuando se escucha una oración, usted sabe si es gramatical o no se basa en eso. La cosa es que si nos fijamos en una frase, por ejemplo, "El cinco cabezas CS50 TFS cocinado los ciegos pulpo utilizando una taza DAPA. "Es definitivamente no es una sentencia de que has escuchado antes. Pero al mismo tiempo, usted sabe que es casi gramatical, ¿verdad? No hay errores gramaticales y se puede decir que es una posible sentencia. >> Por lo que nos hace pensar que en realidad el forma en que aprendemos el lenguaje no es sólo por tener una gran base de datos de posibles palabras o frases, pero más de la comprensión de la relación entre palabras en esas frases. ¿Eso tiene sentido? Así, entonces, la pregunta es, ¿puede ordenadores aprenden idiomas? ¿Podemos enseñar el lenguaje de las computadoras? >> Por lo tanto, vamos a pensar en la diferencia entre un hablante nativo de la lengua y un ordenador. Así que, ¿qué pasa con el altavoz? Pues bien, el hablante nativo aprende una el lenguaje de la exposición a la misma. Normalmente sus primeros años de infancia. Así que, básicamente, que acaba de tener un bebé, y sigues hablando con ella, y sólo aprende a hablar el lenguaje, ¿no? Así que, básicamente está dando de entrada para el bebé. Así que, a continuación, se puede argumentar que un ordenador puede hacer lo mismo, ¿verdad? Usted sólo puede dar idioma como entrada para el ordenador. >> Como por ejemplo, un montón de archivos que tienen los libros en Inglés. Tal vez esa es una manera de que usted posiblemente podría enseñar una computadora Inglés, ¿verdad? Y de hecho, si se piensa en ello, que te lleva quizá un par día para leer un libro. Para un equipo que se necesita un segundo para ver todas las palabras en un libro. Así que usted puede pensar que puede tratarse de esta argumento de entrada de tu alrededor, eso no es suficiente para decir que eso es algo que sólo los seres humanos pueden hacer. Usted puede pensar en los ordenadores También puede obtener la entrada. >> La segunda cosa es que los hablantes nativos también tienen un cerebro que tiene capacidad de aprendizaje de idiomas. Pero si se piensa en ello, un cerebro es una cosa sólida. Cuando naces, ya está establecido - esta es tu cerebro. Y a medida que crecen, que acaba de obtener más entrada de la lengua y quizás los nutrientes y otras cosas. Pero más o menos su cerebro es una cosa sólida. >> Así que usted puede decir, bueno, tal vez usted puede construir un equipo que tiene un montón de funciones y métodos que sólo imitan capacidad de aprendizaje de idiomas. Así que en ese sentido, se podría decir, bueno, puede tener un equipo que tiene todo el cosas que tengo que aprender el lenguaje. Y lo último es que un nativo hablante aprende de ensayo y error. Así que, básicamente, otra cosa importante en el aprendizaje de idiomas es que tipo de aprender cosas por hacer generalizaciones de lo que se oye. >> Así como estás creciendo aprendes que algunas palabras son más parecidos a los sustantivos, algunos otros son adjetivos. Y usted no tiene que tener ninguna conocimiento de la lingüística entender eso. Pero usted acaba de saber que hay algunas palabras están colocados en una parte de la frase y algunos otros en otra partes de la oración. >> Y que cuando haces algo que es como una sentencia que no es correcta - tal vez debido a una generalización sobre por ejemplo. Tal vez cuando estás creciendo, te das cuenta que el plural es generalmente formado por poner en S el final de la palabra. Y a continuación, intenta hacer el plural de "venado" como "venados" o "diente" como "tooths". Así que tus padres o alguien te corrige y dice, no, el plural de "deer" es "ciervo", y el plural de "diente" es "dientes". Y luego a aprender esas cosas. Así se aprende de prueba y error. >> Pero también se puede hacer eso con un ordenador. Usted puede tener algo que se llama aprendizaje por refuerzo. Lo cual es, básicamente, como dar un equipo una recompensa cada vez que lo hace algo correctamente. Y dándole lo contrario de una recompensa y cuando hace algo mal. En realidad se puede ver que si vas al traductor de Google y se intenta traducir una frase, le pide su opinión. Así que si usted dice, oh, hay una mejor traducción de esta frase. Usted puede escribirlo y luego, si una gran cantidad de la gente sigue diciendo que es una mejor traducción, sólo se entera de que ella que debe usar la traducción en lugar de el que estaba dando. >> Así que, es una pregunta muy filosófica para ver si las computadoras van a ser capaz de hablar o no en el futuro. Pero tengo grandes esperanzas de que puedan sólo sobre la base de esos argumentos. Pero es sólo más de un filosófico cuestión. >> Así, mientras que las computadoras todavía no pueden hablar, cuáles son las cosas que podemos hacer? Algunas cosas muy interesantes son clasificación de datos. Así, por ejemplo, que ustedes saben que los servicios de correo electrónico hacen, para ejemplo, el filtrado de correo no deseado. Así que cuando usted recibe spam, se trata de filtrar a otra caja. Entonces, ¿cómo lo hace? No es que el ordenador sólo sabe direcciones de correo electrónico que envían spam. Así que está más basado en el contenido de el mensaje, o tal vez el título, o tal vez algún patrón que usted tiene. >> Así que, básicamente, lo que puedes hacer es conseguir un gran cantidad de datos de mensajes de correo electrónico que son spam, correos electrónicos que no son spam y aprenden lo tipo de patrones que tiene en el los que son SPAM. Y esto es parte del cálculo la lingüística. Se llama la clasificación de datos. Y de hecho vamos a ver un ejemplo de que en las próximas diapositivas. >> La segunda cosa es el lenguaje natural procesamiento, que es lo que el Gráfico Search está haciendo de dejar se escribe una frase. Y confía en que entiende lo es el significado y da Eres un resultado mejor. En realidad, si usted va a Google o Bing y buscar algo como Lady Altura de Gaga, en realidad está pasando para obtener 5 '1 "en lugar de la información de ella, ya que en realidad entiende lo que estás hablando. Así que eso es parte de los recursos naturales el procesamiento del lenguaje. >> O también cuando se utiliza Siri, primero usted tiene un algoritmo que intenta traducir lo que dices en palabras, en el texto. Y entonces se intenta traducir que en significado. Así que eso es parte de los recursos naturales el procesamiento del lenguaje. >> Entonces usted tiene la traducción automática - que es en realidad una de mis favoritos - que se acaba de traducir del un idioma a otro. Así que usted puede pensar que cuando estás haciendo traducción automática, usted tiene infinitas posibilidades de sentencias. Así que no hay manera de simplemente almacenar cada traducción individual. Así que tienes que subir con interesante algoritmos para poder traducir cada frase de algún modo. >> Ustedes tienen alguna pregunta hasta ahora? No? Aceptar. >> Así que lo que vamos a ver hoy? En primer lugar, voy a hablar de el problema de clasificación. Así que el que yo estaba diciendo de spam. Lo que voy a hacer es, letras dadas una canción, se puede tratar de averiguar con alta probabilidad quien es el cantante? Vamos a decir que no tengo canciones de Lady Gaga y Katy Perry, si te doy un nueva canción, ¿puedes averiguar si es Katy Perry o Señora Gaga? >> La segunda, que sólo voy a hablar sobre el problema de la segmentación. Así que no sé si ustedes lo saben, pero Chino, japonés, otro de Asia Oriental idiomas y otras lenguas en general, no tienen espacios entre las palabras. Y luego, si se piensa en la forma en que su amable equipo de intentos para entender el procesamiento del lenguaje natural, se ve en las palabras y trata de comprender las relaciones entre ellos, ¿verdad? Pero entonces, si usted tiene el chino, y usted tiene cero espacios, es muy difícil averiguar cuál es la relación entre Es decir, debido a que no tienen ninguna palabras a primera. Así que tienes que hacer algo que se llama segmentación que sólo significa poner espacios entre lo que nosotros llamaríamos palabras en esos idiomas. Tiene sentido? >> Y luego vamos a hablar de la sintaxis. Así que un poco sobre física el procesamiento del lenguaje. Va a ser sólo un resumen. Así que hoy, básicamente lo que quiero hacer es darle chicos un poco de un dentro de lo que son las posibilidades que usted puede hacer con computacional la lingüística. Y entonces usted puede ver lo que usted piensa es fresco entre las cosas. Y tal vez usted puede pensar en un proyecto y ven a hablar conmigo. Y yo te puedo dar consejos sobre la manera de ponerla en práctica. >> Así sintaxis va a ser un poco Gráfico sobre Búsqueda y máquina traducción. Sólo voy a dar un ejemplo de cómo usted podría, por ejemplo, traducir algo de Portugués al Inglés. Suena bien? >> Así que en primer lugar, el problema de clasificación. Voy a decir que esta parte del seminario va a ser la más difícil uno simplemente porque no va a ser algo de código. Pero va a ser Python. Sé que ustedes no saben Python, por lo que Sólo voy a explicar en el alto nivelo lo que estoy haciendo. Y usted no tiene que preocuparse realmente demasiado mucho acerca de la sintaxis, porque eso es algo que ustedes pueden aprender. ¿De acuerdo? Suena bien. >> Entonces, ¿cuál es el problema de clasificación? Así que te dan algunas letras para una canción y quiere adivinar que se cantaba. Y esto puede ser de cualquier tipo de otros problemas. Así que puede ser, por ejemplo, tiene una campaña presidencial y tiene un el habla y la que desea buscar si lo fue, por ejemplo, Obama o Mitt Romney. O usted puede tener un montón de correos electrónicos y quiere averiguar si son spam o no. Así que es sólo un poco de la clasificación los datos basados en las palabras que usted tiene allí. >> Así que para hacer eso, usted tiene que hacer algunas suposiciones. Así que mucho de la lingüística computacional está haciendo suposiciones, supuestos generalmente inteligentes, de manera que usted puede conseguir buenos resultados. Tratar de crear un modelo para él. Y luego probarlo y ver si funciona, si te da una buena precisión. Y si lo hace, entonces usted tratar de mejorarlo. Si no es así, eres como, OK, tal vez debe hacer una suposición diferente. >> Así que la suposición de que vamos a hacer es que un artista canta generalmente acerca de un tema en múltiples ocasiones, y tal vez usa palabras múltiples veces sólo porque están acostumbrados a ello. Usted sólo puede pensar en su amigo. Estoy seguro de que ustedes todos tienen amigos que dicen que su frase de la firma, literalmente cada frase - como una palabra específica o algunos específicos frase que se suele decir de cada frase. >> ¿Y qué se puede decir es que si usted ve una frase que tiene una firma frase, se puede adivinar que probablemente tu amigo es el que lo dice, ¿no? Así que usted hace esa suposición y luego así es como se crea un modelo. >> El ejemplo que voy a dar es el cómo Lady Gaga, por ejemplo, las personas dice que ella usa "bebé" de todas sus canciones número uno. Y en realidad se trata de un vídeo que muestra ella diciendo la palabra "bebé" de diferentes canciones. >> [REPRODUCCIÓN DE VÍDEO] >> - (CANTO) Bebé. Bebé. Bebé. Bebé. Bebé. Nena. Bebé. Bebé. Bebé. Bebé. >> [FIN REPRODUCCIÓN DE VÍDEO- >> LUCAS FREITAS: Así que hay, creo, 40 canciones aquí en el que dice la palabra "bebé". Así que básicamente se puede adivinar que si ves una canción que tiene la palabra "bebé", que hay algunos de alta probabilidad de que se trata de Lady Gaga. Pero vamos a tratar de desarrollar este aún de manera más formal. >> Así que estas son las letras de las canciones de Lady Gaga y Katy Perry. Así que nos fijamos en Lady Gaga, que se ve que tienen un montón de apariciones de "bebé", un gran cantidad de apariciones de "camino". Y luego Katy Perry tiene una gran cantidad de apariciones de "El", un montón de apariciones de "fuego". >> Así que básicamente lo que queremos hacer es, se obtiene una letra. Digamos que usted recibe una letra para una canción que es "bebé," sólo "bebé". Si que acaba de obtener la palabra "bebé", y esto es que todos los datos que tenga con Lady Gaga y Katy Perry, que haría Puedes adivinar es la persona quien canta la canción? Lady Gaga o Katy Perry? Lady Gaga, ¿verdad? Porque ella es la única que dice "Bebé". Esto suena estúpido, ¿verdad? OK, esto es muy fácil. Sólo estoy mirando las dos canciones y de Por supuesto, ella es la única persona que tiene "Bebé". >> Pero lo que si usted tiene un montón de palabras? Si usted tiene una lírica actual, algo como, "bebé, sólo fue a ver a [? CFT?] conferencia ", o algo así, y entonces usted realmente tiene que averiguar - sobre la base de todas esas palabras - quien es el artista que probablemente cantó esta canción? Así que vamos a tratar de desarrollar esto un poco más. >> OK, así que basado sólo en los datos que nos conseguido, parece que Gaga es probablemente la cantante. Pero ¿cómo podemos escribir de manera más formal? Y va a ser un poco poco de estadísticas. Así que si te pierdes, simplemente intenta para entender el concepto. No importa si usted entiende las ecuaciones perfectamente bien. Todo esto va a estar en línea. >> Así que básicamente lo que estoy calculando es el probabilidad de que esta canción es por Lady Gaga ya que - por lo que este bar significa ya que - Vi la palabra "bebé". ¿Eso tiene sentido? Así que estoy tratando de calcular esa probabilidad. >> Así que hay este teorema llamado el El teorema de Bayes que dice que el probabilidad de A dado B, es la probabilidad de B dado A, veces el probabilidad de A, sobre la probabilidad de B. Esta es una ecuación larga. Pero, ¿qué hay que entender por es decir que esto es lo que quiero calcular, ¿verdad? Por lo tanto la probabilidad de que esa canción es por Lady Gaga ya que vi la palabra "Bebé". >> Y ahora lo que quiero llegar es el probabilidad de que la palabra "bebé", dado que tengo Lady Gaga. Y ¿qué es eso básicamente? Lo que esto significa es, ¿cuál es la probabilidad de ver la palabra "bebé" en Gaga letras? Si quiero calcular que en un tiempo muy manera simple, es sólo el número de veces veo "bebé" sobre el total de las palabras en letras Gaga, ¿verdad? ¿Cuál es la frecuencia que veo esa palabra en el trabajo de Gaga? Tiene sentido? >> El segundo término es la probabilidad de Gaga. ¿Qué significa eso? Eso significa, básicamente, lo que es la probabilidad de clasificar algunas letras como Gaga? Y eso es un poco raro, pero pensemos en un ejemplo. Así que digamos que la probabilidad de tener "bebé" en una canción es la misma por Gaga y Britney Spears. Pero Britney Spears tiene dos veces más canciones que Lady Gaga. Así que si alguien te da justo al azar letra de "bebé", lo primero que mire, es decir, cuál es la probabilidad de tener "bebé" en una canción Gaga, "bebé" en una canción de Britney? Y es la misma cosa. >> Así que la segunda cosa que usted verá es, así, ¿cuál es la probabilidad de esta letra por sí misma ser una letra Gaga, y ¿cuál es la probabilidad de siendo una letra Britney? Así que desde que Britney tiene muchas más letras que Gaga, usted probablemente digamos, bueno, esto es probablemente una letra Britney. Así que es por eso que tenemos esta llamar aquí. Probabilidad de Gaga. Tiene sentido? ¿Lo hace? Aceptar. >> Y el último es la probabilidad de "bebé", que no Realmente importa tanto. Pero es la probabilidad de ver "bebé" en Inglés. Por lo general, no nos importa que mucho de ese término. ¿Eso tiene sentido? Por lo tanto la probabilidad de Gaga es llamado la probabilidad previa de la Gaga clase. Debido a que sólo significa que, lo que es lo probabilidad de tener esa clase - que es Gaga - sólo en general, sólo sin condiciones. >> Y luego cuando tengo probabilidad de Gaga dado "bebé", lo llamamos plus Teary una probabilidad porque es la probabilidad de tener Gaga da algunas pruebas. Así que te voy a dar la evidencia que vi la palabra bebé y la canción tiene sentido? Aceptar. >> Así que si he calculado que por cada de las canciones de Lady Gaga, lo que sería - al parecer, no me puedo mover esto. La probabilidad de Gaga será algo así como: 2 sobre 24, multiplicada por 1/2, más de 2 sobre 53. No importa si usted sabe lo que estos números están viniendo. Pero es sólo un número que se va para ser más que 0, ¿no? >> Y luego cuando lo hago Katy Perry, la probabilidad de "bebé" dada Katy es ya 0, ¿no? Debido a que no hay un "bebé" en Katy Perry. Entonces esto se convierte en 0, y Gaga victorias, lo que significa que Gaga es probablemente el cantante. ¿Eso tiene sentido? Aceptar. >> Así que si quiero hacer esto más oficial, De hecho, me puedo hacer un modelo de varias palabras. Así que vamos a decir que tengo algo como, "nena, yo soy en llamas ", o algo así. Por lo que tiene varias palabras. Y en este caso, se puede ver que "bebé" está en Gaga, pero no es en Katy. Y "fuego" se encuentra en Katy, pero no está en Gaga, ¿verdad? Así que cada vez es más complicado, ¿no? Porque parece que casi tener un lazo entre los dos. >> Así que lo que tienes que hacer es asumir independencia entre las palabras. Así que básicamente lo que eso significa es que Sólo estoy calculando cuál es el probabilidad de ver "bebé", lo que es la probabilidad de ver "yo", y "Am" y "on" y "fuego" todo por separado. Entonces estoy multiplicando todos ellos. Y estoy viendo cuál es la probabilidad de ver a toda la frase. Tiene sentido? >> Así que, básicamente, si tengo una sola palabra, lo que yo quiero saber es el arg max, lo que significa, lo que es la clase que es me da la mayor probabilidad? Entonces, ¿cuál es la clase que está dando me la probabilidad más alta de probabilidad de clase dada palabra. Así que en este caso, dado Gaga "bebé". O Katy dado "bebé". Tiene sentido? >> Y sólo de Bayes, que ecuación que le mostré, creamos esta fracción. La única cosa es que se ve que la probabilidad de la palabra dada la los cambios de clase en función en la clase, ¿verdad? El número de "baby" s que tengo en Gaga es diferente de Katy. La probabilidad de la clase también cambios, porque es sólo el número de canciones de cada uno de ellos tiene. >> Pero la probabilidad de que la palabra en sí va a ser la misma para todos los artistas, ¿no? Por lo tanto la probabilidad de la palabra es simplemente, cuál es la probabilidad de ver esa palabra en el Idioma Inglés? Así que es el mismo para todos ellos. Así que ya que esto es constante, podemos simplemente dejar esto y no se preocupan por él. Así que este será en realidad el ecuación que estamos buscando. >> Y si tengo varias palabras, estoy todavía va a tener la previa probabilidad aquí. La única cosa es que estoy multiplicando la probabilidad de todas las otras palabras. Así que estoy multiplicando todos ellos. Tiene sentido? Parece extraño, pero básicamente significa, calcular el prior de la clase, y luego multiplica por la probabilidad de cada de las palabras que están en esa clase. >> Y usted sabe que la probabilidad de un palabra dada una clase va a ser la número de veces que usted ve esa palabra en esa clase, dividido por el número de palabras que tienen en ese de clases en general. Tiene sentido? Es sólo la forma "bebé" fue de 2 sobre el número de palabras que Tenía en las letras. Así que la frecuencia. >> Pero hay una cosa. Acuérdate que me estaba mostrando que la probabilidad de "baby" ser letras de Katy Perry de 0 sólo porque Katy Perry no tenía "bebé" en absoluto? Pero suena un poco duro a poco Simplemente dicen que las letras no pueden ser de un artista sólo porque no tienen esa palabra en particular en cualquier momento. >> Así que usted podría decir, bueno, si usted no tienen esta palabra, voy a darle una probabilidad más baja, pero estoy simplemente no va a darle 0 enseguida. Debido a que tal vez era algo así como: "Fuego, fuego, fuego, fuego", que es totalmente Katy Perry. Y luego, "bebé", y que sólo sirve para 0 enseguida porque había uno "Bebé". >> Así que básicamente lo que hacemos es algo llamada de Laplace de suavizado. Y esto sólo significa que estoy dando cierta probabilidad incluso a las palabras que no existen. Así que lo que hago es que cuando estoy el cálculo de este, siempre añado 1 a el numerador. Así que incluso si no existe la palabra, en este caso, si esto es 0, sigo siendo el cálculo de este como 1 sobre el número total de palabras. De lo contrario, me sale la cantidad de palabras Tengo y agrego 1. Así que estoy contando en ambos casos. Tiene sentido? >> Así que ahora vamos a hacer algo de código. Voy a tener que hacerlo muy rápido, pero es igual de importante que usted chicos entienden los conceptos. Así que lo que estamos tratando de hacer es exactamente la aplicación del presente Lo que acabo de decir - Quiero que pongas la letra de Lady Gaga y Katy Perry. Y el programa va a ser capaz de decir si estas nuevas letras son de Gaga o Katy Perry. Tiene sentido? Aceptar. >> Así que tengo este programa que voy llamar classify.py. Así que esto es Python. Es un nuevo lenguaje de programación. Es muy similar en algunos aspectos a C y PHP. Es similar, porque si quieres aprender Python después de conocer C, es Realmente no es mucho de un desafío sólo porque Python es mucho más fácil que C, primero de todo. Y un montón de cosas que ya están implementado para usted. Entonces, ¿cómo como PHP tiene funciones que ordenar una lista, o añadir algo a una matriz, o bla, bla, bla. Python tiene todos esos también. >> Así que sólo voy a explicar rápidamente cómo podríamos hacer la clasificación problema para aquí. Así que vamos a decir que en este caso, tengo letras de Gaga y Katy Perry. La manera que tengo esas letras es que la primera palabra de la letra es el nombre del artista, y el resto es la letra. Así que vamos a decir que tengo esta lista en los cuales el primero es letra de Gaga. Así que aquí estoy en el camino correcto. Y el siguiente es Katy, y sino que también tiene la letra. >> Así que así es como se declara una variable en Python. Usted no tiene que dar el tipo de datos. Usted acaba de escribir "letras" Algo así como en PHP. Tiene sentido? >> ¿Cuáles son las cosas que tengo que calcular para ser capaz de calcular la probabilidades? Tengo que calcular las "probabilidades a priori" de cada uno de los diferentes clases que tengo. Tengo que calcular los "traseros" o más o menos las probabilidades de cada una de las diferentes palabras que Yo puedo tener para cada artista. Así que dentro de Gaga, por ejemplo, voy tener una lista de las veces que veo cada una de las palabras. Tiene sentido? >> Y, por último, yo sólo voy a tener un lista llamada "palabras" que sólo va tener el número de palabras que tener para cada artista. Así que para Gaga, por ejemplo, cuando miro a la letra, yo había, creo, 24 palabras en total. Así que esta lista es sólo va a tener Gaga 24, y Katy otro número. Tiene sentido? Aceptar. >> Así que ahora, en realidad, vamos a ir a la codificación. Así que en Python, en realidad se puede devolver un montón de diferentes cosas de una función. Así que yo voy a crear esta función llamada "condicional", que se va para devolver todas esas cosas, la "probabilidades a priori", los "probabilidades", y el "palabras". Así que "condicional", y que es va a poner en "letras". >> Así que ahora quiero que en realidad escribir esta función. Así que la forma en que yo puedo escribir esto función es que me acaba de definir esta funcionar con "def". Así que lo hice "def condicional ", y que está tomando "Letras". Y lo que esto va a hacer es, antes que nada, tengo mis priores que quiero calcular. >> Así que la forma en que yo puedo hacer esto es crear un diccionario en Python, que es más o menos lo mismo que un hash mesa, o que es un proceso iterativo matriz en PHP. Así es como me declaro un diccionario. Y básicamente lo que esto significa es que priores de Gaga es 0.5, por ejemplo, si 50% de las letras son de Gaga, 50% son de Katy. Tiene sentido? Así que tengo que encontrar la manera para calcular los priores. >> Los próximos los que tengo que hacer, también, son las probabilidades y las palabras. Así que las probabilidades de Gaga es la lista de todas las probabilidades de que yo tener para cada una de las palabras para Gaga. Así que si me voy a las probabilidades de Gaga "Bebé", por ejemplo, me dará algo así como 2 sobre 24 en este caso. Tiene sentido? Así que me voy a "probabilidades", vaya a la Cubo "Gaga" que tiene una lista de todos los las palabras Gaga, entonces me van a "bebé" y veo la probabilidad. >> Y finalmente tengo este Diccionario "palabras". Así que aquí, "las probabilidades". Y luego "palabras". Así que si lo hago "palabras", "Gaga" lo que va a suceder es que se trata de me va a dar 24, diciendo que tener 24 palabras en las canciones de Gaga. Tiene sentido? Así que aquí, "palabras" es igual a dah-dah-dah. Bueno >> Así que lo que voy a hacer es que voy a iterar sobre cada una de las letras, de modo cada una de las cadenas que Tengo en la lista. Y yo voy a calcular esas cosas para cada uno de los candidatos. Tiene sentido? Así que tengo que hacer un bucle for. >> Así que en Python lo que puedo hacer es "para la línea en letras. "El mismo que un "Para cada" declaración en PHP. ¿Recuerdas si fue PHP pude decir "por cada letra como la línea. "Tiene sentido? Así que me voy a llevar cada una de las líneas, en este caso, esta cadena y la próxima cadena por lo que para cada una de las líneas de lo que estoy vamos a hacer es en primer lugar, voy a dividir esta línea en una lista de palabras separadas por espacios. >> Así que lo bueno de Python es que usted podría simplemente Google como "¿Cómo puedo dividir una cadena en palabras? "Y es voy a decir cómo hacerlo. Y la manera de hacerlo, es sólo "la línea = Linea.split () "y es básicamente voy a dar una lista con cada una de las palabras aquí. Tiene sentido? Así que ahora que lo hice yo quiero saber quien es el cantante de la canción. Y para hacer eso tengo que conseguir el primer elemento de la matriz, ¿no? Así que sólo puedo decir que "cantante = Línea (0) "Tiene sentido? >> Y entonces, ¿qué tengo que hacer es, en primer lugar todo, voy a actualizar el número de palabras que tienen bajo "Gaga". así que estoy va a calcular el número de palabras que tener en esta lista, ¿verdad? Debido a que este es el número de palabras que tengo en la letra y yo sólo voy a añadirlo a la matriz "Gaga". ¿Eso tiene sentido? No se concentre demasiado en la sintaxis. Piensa más en los conceptos. Esa es la parte más importante. Aceptar. >> Así que lo que puedo hacer es si "Gaga" es Ya en esa lista, por lo que "si el cantante en palabras "lo que significa que ya tener palabras de Gaga. Sólo quiero añadir el adicional palabras a eso. Así que lo que hago es "palabras (cantante) + = Len (line) - 1 ". Y entonces yo puedo hacer lo longitud de la línea. Así que el número de elementos de I tener en la matriz. Y tengo que hacer menos 1 sólo porque el primer elemento de la matriz es sólo un cantante y los que no son letras. Tiene sentido? Aceptar. >> "De otro modo," que significa que quiero en realidad inserte Gaga en la lista. Así que acabo de hacer "las palabras (cantante) = Len (line) - 1 ", lo siento. Así que la única diferencia entre los dos líneas es que éste, no es así todavía existo, así que estoy inicializarlo. Esta realidad estoy agregando. Aceptar. Así que esto se suma a las palabras. >> Ahora quiero añadir a los priores. Entonces, ¿cómo puedo calcular los antecedentes? Los priores se pueden calcular por la cantidad de veces. Entonces, ¿cuántas veces se ve que la cantante entre todos los cantantes que le tener, ¿no? Así que por Gaga y Katy Perry, en este caso, no veo Gaga una vez, Katy Perry una vez. >> Así que, básicamente, los priores de Gaga y para Katy Perry haría sólo uno, ¿verdad? Sólo el número de veces Veo el artista. Así que esto es muy fácil de calcular. Puedo sólo algo similar a como "si cantante en priores, "sólo voy añadir 1 a su cuadro de antecedentes. Por lo tanto, "priores (cantar)" + = 1 "y luego" si no " Yo voy a hacer "probabilidades a priori (cantante) = 1 ". Tiene sentido? >> Así que si no existe Acabo de poner como 1, de lo contrario Acabo de añadir 1. OK, así que ahora lo único que me queda por hacer También es agregar cada una de las palabras a la probabilidades. Así que tengo que contar cuántas veces Veo cada una de las palabras. Así que sólo tengo que hacer otra bucle en la línea. >> Así que lo primero que voy a hacer es comprobar si el cantante ya tiene una probabilidades matriz. Así que estoy comprobando si el cantante no tiene una matriz de probabilidades, yo sólo soy va a inicializar una para ellos. Ni siquiera es una matriz, lo siento, se trata de un diccionario. Así que las probabilidades de que el cantante se va ser un diccionario, así que estoy simplemente inicializar un diccionario para ello. ¿De acuerdo? >> Y ahora puedo realmente hacer un bucle para el cálculo de cada una de las palabras ' probabilidades. Aceptar. Así que lo que puedo hacer es un bucle for. Así que sólo voy a repetir sobre la matriz. Así que la forma en que yo puedo hacer eso en Python es "for i in range". A partir del 1 porque quiero empezar en el segundo elemento porque el primero es el Nombre del cantante. Así que desde uno hasta el longitud de la línea. Y cuando lo hago rango que realmente van desde como aquí del 1 al len del menos la línea 1. Así que ya lo hace eso de hacer n menos 1 para las matrices que es muy conveniente. Tiene sentido? >> Así que para cada uno de ellos, lo que voy a hacer es, al igual que en el otro, Voy a comprobar si la palabra en este posición en la línea ya está en probabilidades. Y luego, como ya he dicho aquí, las probabilidades Es decir, como en puse "probabilidades (cantante)". Así que el nombre de la cantante. Así que si ya está en "Probabilit (cantante)", significa que Quiero añadir 1 a la misma, por lo que voy a hacer "probabilidades (cantante)", y la palabra se llama "línea (i)". Voy a añadir 1 y "si no" yo sólo soy va a inicializar a 1. "Línea (i)". Tiene sentido? >> Por lo tanto, calculé todos los arrays. Así pues, ahora todo lo que tengo que hacer para éste es sólo "volver priores, probabilidades y palabras. "vamos a ver si hay alguno, en Aceptar. Parece que todo está trabajando hasta ahora. Por lo tanto, eso tiene sentido? De alguna manera? Aceptar. Así que ahora tengo todas las probabilidades. Así que ahora lo único que me queda es sólo para tener esa cosa que calcula el producto de todos los probabilidades cuando llegue la letra. >> Así que digamos que yo quiero llamar ahora esta función "clasificar ()" y la cosa que la función de toma es sólo un argumento. Digamos que "Baby, estoy en llamas" y es va a averiguar lo que es la probabilidad de que este es Gaga? ¿Cuál es la probabilidad que este es Katie? Suena bien? Así que sólo voy a tener que crear un nueva función llamada "clasificar ()" y que va a tomar algún letras también. Y además de las letras que también debe enviar los antecedentes, la probabilidades y las palabras. Así que voy a enviar letras, priores, probabilidades, palabras. >> Así que esto está tomando letras, priores, probabilidades, palabras. Entonces, ¿qué hace? Es, básicamente, va a pasar por todo los posibles candidatos que se tener como cantante. ¿Y dónde están los candidatos? Están en los priores, ¿verdad? Así que tengo todos los que estaban allí. Así que voy a tener un diccionario de todos los posibles candidatos. Y a continuación, para cada candidato en la priores, por lo que significa que se va a ser Gaga, Katie si tuviera más sería más. Voy a empezar a calcular esta probabilidad. La probabilidad como hemos visto en el PowerPoint es los tiempos anteriores la producto de cada uno de los otras probabilidades. >> Así que yo puedo hacer lo mismo aquí. Yo sólo puedo hacer probabilidad es inicialmente sólo el anterior. Así priores del candidato. ¿Cierto? Y ahora tengo que iterar sobre todos los palabras que tengo en las letras para ser capaz de añadir la probabilidad para cada uno de ellos, ¿de acuerdo? Así, "por palabra en letras" lo que voy que hacer es, si la palabra está en "probabilidades (candidatos)", que significa que es una palabra que el candidato tiene en sus letras - por ejemplo, "bebé" de Gaga - lo que voy a hacer es que el probabilidad va a ser multiplicado por 1 más las probabilidades de el candidato a esa palabra. Y se llama "palabra". Esta dividido por el número de palabras que tengo por ese candidato. El número total de palabras que tengo para el cantante que estoy mirando. >> "De otro modo". significa que es una nueva palabra por lo que sería como, por ejemplo, "Fuego" de Lady Gaga. Así que sólo quiero hacer más de 1 "Palabra (candidato)". Así que no quiero poner este término aquí. >> Así que va a ser, básicamente, copiar y pegar este. Pero yo voy a borrar esta parte. Así que es sólo va a ser 1 más de eso. Suena bien? Y ahora, al final, yo sólo voy a imprimir el nombre del candidato y la probabilidad de que usted tiene de teniendo el S en sus letras. Tiene sentido? Y yo realmente hago ni siquiera Necesitará este diccionario. Tiene sentido? >> Por lo tanto, vamos a ver si esto realmente funciona. Así que si ejecuto esto, no funcionó. Espere un segundo. "Palabras (candidatos)", "palabras (candidatos)", eso es el nombre de la matriz. Aceptar lo tanto, se dice que hay algún error para el candidato en antecedentes. Permítanme simplemente relajarse un poco. Aceptar. Vamos a tratar. Aceptar. >> Así que da Katy Perry tiene esta probabilidad de que esto veces 10 a la menos 7, y Gaga tiene este veces 10 a la menos 6. Así que ya ves que demuestra que Gaga tiene una probabilidad más alta. Así que "Cariño, estoy en llamas" se probablemente una canción de Gaga. Tiene sentido? Así que esto es lo que hicimos. >> Este código va a ser publicado en Internet, así que ustedes pueden comprobarlo. Tal vez usar una parte para si quieres hacer un proyecto o algo similar. Aceptar. Esto fue sólo para mostrar lo computacional código de la lingüística se parece. Pero ahora vamos a ir a más cosas de alto nivel. Aceptar. >> Así que los otros problemas que estaba hablando - el problema de la segmentación es el primero de ellos. Así que tienes aquí japonés. Y entonces se ve que no hay espacios. Así que esto es básicamente significa que es la parte superior de la silla, ¿no? Hablas japonés? Es la parte superior de la silla, ¿no? >> ESTUDIANTE: No sé lo que el kanji de allí es. >> LUCAS FREITAS: Es [habla japonesa] Aceptar. Así que, básicamente, significa que la silla de la parte superior. Así que si tuviera que poner un espacio sería aquí. Y entonces usted tiene [? Ueda-san. ?] Lo que básicamente significa señor Ueda. Y puedes ver que "Ueda" y tiene una espacio y luego "san". Así que ya ves que aquí "Ue" es como por sí mismo. Y aquí tiene un carácter al lado de él. >> Así que no es como en esos idiomas personajes que significa una palabra, por lo que sólo hay que poner un montón de espacios. Caracteres se relacionan entre sí. Y pueden estar juntos como dos, tres, uno. Así que usted realmente tiene que crear algún tipo de manera de poner esos espacios. >> Y esto es que cada vez que reciba datos de esos idiomas asiáticos, todo viene no segmentado. Porque nadie que escribe japonés o el chino se escribe con espacios. Cada vez que usted está escribiendo china, Japonés que acaba de escribir todo lo que sin espacios. Incluso no tiene sentido poner espacios. Así que cuando llegue a los datos de algunos Idioma de Asia oriental, si quiere realmente hacer algo con eso usted tiene que primer segmento. >> Piense en hacer el ejemplo de las letras sin espacios. Así que las únicas letras que tienes será frases, ¿verdad? Separados por puntos. Pero luego tener sólo la frase se no es realmente ayudar a dar información de que esas letras son en. ¿Cierto? Así que usted debe primero pone espacios. Entonces, ¿cómo puede usted hacer eso? >> Entonces viene la idea de un lenguaje modelo que es algo realmente importante para computacional la lingüística. Por lo que un modelo de lenguaje es básicamente un tabla de probabilidades que los programas de en primer lugar, cuál es la probabilidad de tener la palabra en un idioma? Así muestra la frecuencia con una palabra es. Y a continuación también muestra la relación entre las palabras en una oración. >> Así que la idea principal es que, si se produjo un extraño a ti y dijo una frase para usted, ¿cuál es la probabilidad de que, por ejemplo, "esta es mi hermana [? GTF"?] fue la frase que dijo la persona? Así que, obviamente, algunas frases son más comunes que otros. Por ejemplo, "buenos días" o "buenas noche ", o" Hola, "es mucho más común que la mayoría de las sentencias que tenemos un Inglés. ¿Por qué son esas frases con mayor frecuencia? >> En primer lugar, es porque usted tiene palabras que son más frecuentes. Así, por ejemplo, si usted dice que el perro es grande, y el perro es gigantesca, que por lo general, probablemente oír el perro es grande más a menudo porque "grande" es más frecuente en Inglés de "gigantesco". Así, uno de los cosas es la frecuencia de la palabra. >> La segunda cosa que es realmente importante es sólo el orden de las palabras. Así, es común decir "el gato está dentro de la caja. "pero no suelen ver en "El cuadro interior es el gato." así ves que hay algo de importancia en el orden de las palabras. No se puede simplemente decir que esos dos frases tienen la misma probabilidad sólo porque tienen las mismas palabras. Usted realmente tiene que cuidar sobre el orden también. Tiene sentido? >> Entonces, ¿qué hacemos? Así que lo que yo podría tratar de conseguir que? Estoy tratando de conseguir lo que llamar a los modelos n-gram. Así modelos de n-gram básicamente asumen que para cada palabra que que tiene en una frase. Es la probabilidad de tener que palabra no depende no sólo de la frecuencia de esa palabra en el idioma, pero también en las palabras que se rodea. >> Así, por ejemplo, por lo general cuando se ve algo así como el o por lo que eres probablemente va a ver una sustantivo después de ella, ¿verdad? Porque cuando usted tiene una preposición por lo general se necesita un nombre después de él. O si usted tiene un verbo que es transitiva por lo general, va a tener un sintagma nominal. Por lo tanto, va a tener un nombre en algún lugar alrededor de ella. >> Así que, básicamente, lo que hace es que considera la probabilidad de tener palabras uno junto al otro, cuando usted está calculando la probabilidad de una condena. Y eso es lo que es un idioma modelo es básicamente. Simplemente decir cuál es la probabilidad de tener una específica frase en un idioma? Así que ¿por qué es tan útil, básicamente? Y en primer lugar lo que es un modelo de n-gramas, entonces? >> Así que significa un modelo de n-gramas que cada palabra depende de la siguiente N menos 1 palabras. Así que, básicamente, significa que si miro, Por ejemplo, en el TF CS50 cuando Estoy cálculo de la probabilidad de la sentencia, que será como "la probabilidad de tener la palabra "the" veces la probabilidad de tener "la CS50 veces "la probabilidad de tener "El TF CS50." Así que, básicamente, cuento todas las formas posibles de estirarla. >> Y luego, por lo general cuando usted está haciendo esto, como en un proyecto, se pone N sea un valor bajo. Así que, por lo general tienen bigramas o trigramas. Así que acaba de contar dos palabras, una grupo de dos palabras o tres palabras, sólo por los problemas de rendimiento. Y también porque a lo mejor si tiene algo así como "La TF CS50." Cuando tiene "TF", que es muy importante que "CS50" está al lado de ella, ¿verdad? Esas dos cosas son por lo general uno junto al otro. >> Si usted piensa en "TF", que es probablemente va a tener lo que clase está TF'ing para. También "la" es realmente importante para TF CS50. Pero si usted tiene algo así como "El CS50 TF fue a clase y dio su estudiantes un poco de caramelo. "" Candy "y" el " no tener relación de verdad, ¿no? Son tan distantes entre sí que en realidad no importa lo que palabras que tienen. >> Así que haciendo un bigram o un trigrama, se simplemente significa que usted está limitando usted mismo a algunas palabras que están alrededor. Tiene sentido? Así que cuando usted quiere hacer la segmentación, básicamente, lo que quieres hacer es ver ¿Cuáles son todas las formas posibles que usted puede la frase segmento. >> De tal manera que usted ve lo que es el probabilidad de que cada una de esas frases existente en el idioma? Así que lo que haces es como, bueno, vamos a yo trato de poner un espacio aquí. Así se pone un espacio no y ves lo que es la probabilidad de que la sentencia? Entonces usted es como, OK, tal vez que no era tan bueno. Así que puse un espacio allí y un espacio allí, y se calcula el probabilidad de ahora, y usted verá que que es una probabilidad más alta. >> Así que este es un algoritmo llamado TANGO algoritmo de segmentación, que es en realidad algo que sería muy fresco para un proyecto, que básicamente toma el texto no segmentado que puede ser japonés o chino o quizás Inglés sin espacios y trata de poner espacios entre las palabras y lo hace que mediante el uso de un modelo de lenguaje y tratando de ver cuál es la más alta probabilidad de que usted puede conseguir. Aceptar. Así que esta es la segmentación. >> Ahora sintaxis. Por lo tanto, la sintaxis se utiliza para tantas cosas ahora mismo. Así que para el gráfico de búsqueda, para Siri para casi cualquier tipo de naturales procesamiento del lenguaje que tiene. Entonces, ¿qué son los importantes cosas acerca de la sintaxis? Así, las oraciones en general tienen lo que llamamos constituyentes. ¿Qué son algo así como grupos de palabras que tienen una función en la frase. Y en realidad no pueden ser separados unos de otros. >> Así que, si yo digo, por ejemplo, "Lauren ama Milo. "Yo sé que" Lauren "es un constituyente y luego "amores Milo "es también otro. Porque no se puede decir como "Lauren Milo ama "tener el mismo significado. No va a tener el mismo significado. O yo no puedo decir como "Milo Lauren ama. "No todo tiene el mismo que significa hacer eso. >> Así que las dos cosas más importantes acerca de sintaxis son los tipos léxicos que es básicamente la función que tener para las palabras por sí solas. Así que usted tiene que saber que "Lauren" y "Milo" son sustantivos. "Love" es un verbo. Y la segunda cosa importante es que son tipos con preposición. Así que ya sabes que "ama a Milo" es en realidad una frase verbal. Así que cuando digo "Lauren," yo sé que Lauren está haciendo algo. ¿Qué está haciendo? Ella es amante de Milo. Así que es una cosa totalmente. Pero sus componentes son un sustantivo y un verbo. Pero juntos, hacen una frase verbal. >> Así que, ¿qué podemos hacer realmente con lingüística computacional? Así que, si tengo algo, por ejemplo, "amigos de Allison". Veo si me realizó un árbol sintáctico que sabría que "Amigos" es un sintagma nominal que es un sustantivo y después "de Allison" es una sintagma preposicional en el que "de" es una proposición y "Allison" es un sustantivo. Lo que podría hacer es enseñar a mi equipo que cuando tengo un sintagma nominal y un a continuación, una frase preposicional. Así que en este caso, "amigos" y después "de Milo "Yo sé que esto significa que NP2, la segunda, es propietaria de NP1. >> Así que puede crear algún tipo de relación, algún tipo de función para ello. Así que cada vez que veo esta estructura, que coincide exactamente con "amigos de Allison: "Yo sabía que Allison posee los amigos. Así que los amigos son algo que Allison tiene. Tiene sentido? Así que esto es básicamente lo que Gráfico Search hace. Simplemente crea reglas para un montón de cosas. Así que los "amigos de Allison", "mis amigos que viven en Cambridge "," mis amigos que ir a Harvard ". Crea reglas para todas esas cosas. >> Ahora la traducción automática. Por lo tanto, la traducción automática es también algo estadística. Y en realidad, si te involucras en lingüística computacional, una gran cantidad de tus cosas va a ser estadísticas. Así como yo estaba haciendo el ejemplo con muchas probabilidades de que yo era cálculo, y luego llegar a este número muy pequeño que es la final probabilidad, y eso es lo le da la respuesta. La traducción automática utiliza también un modelo estadístico. Y si se quiere pensar en la máquina traducción en el más simple posible Así, lo que se puede pensar es sólo traducir palabra por palabra, ¿verdad? >> Cuando usted está aprendiendo un idioma para el primera vez, que es por lo general lo lo hace, ¿no? Si desea traducir una oración en su idioma para el idioma usted está aprendiendo, por lo general primero, traducir cada una de las palabras individualmente, a continuación, intenta poner las palabras en su lugar. >> Así que si yo quería traducir esto, [Habla Portuguesa] que significa "el gato blanco se escapó." Si quisiera traducirla del Portugués a Inglés, lo que podríamos hacer es, primero, que acabo de traducir palabra por palabra. Así que "o" es "el", "gato", "gato" "Branco", "blanco", y luego "fugio" es "Se escapó". >> Así que tengo todas las palabras aquí, pero no están en orden. Es como "el gato blanco se escapó" que es gramaticalmente incorrecta. Así, entonces puedo tener un segundo paso, que se va a encontrar el ideal posición para cada una de las palabras. Así que sé que realmente quiero tener "Gato blanco" en lugar de "gato blanco". Así lo que puedo hacer es, el método más ingenua sería la creación de todo el permutaciones posibles de palabras, de posiciones. Y luego ver cuál tiene el probabilidad más alta de acuerdo a mi modelo de lenguaje. Y luego, cuando me encuentro con el que tiene la probabilidad más alta, lo cual es probablemente "la gata blanca se escapó" ese es mi traducción. >> Y esta es una manera sencilla de explicar cómo una gran cantidad de la traducción automática algoritmos funcionan. ¿Eso tiene sentido? Esto también es algo realmente emocionante que ustedes tal vez puede explorar una proyecto final, ¿no? >> Estudiante: Bueno, usted dijo que era la manera ingenua, ¿cuál es la forma no ingenuo? >> LUCAS FREITAS: La forma no ingenuo? Aceptar. Así que la primera cosa que es malo sobre este método es que yo sólo traduje palabras, palabra por palabra. Pero a veces hay palabras que puede tener varias traducciones. Voy a tratar de pensar de algo. Por ejemplo, "manga" en lata Portugués o bien ser "mangle" o "manga". Así cuando usted está tratando de traducir la palabra mediante la palabra, podría estar dando algo que no tiene sentido. >> Así que usted quiere realmente nos fijamos en todos los las posibles traducciones de la palabras y ver, en primer lugar, ¿cuál es el orden. Estábamos hablando de permutación las cosas? Para ver todas las posibles órdenes y elegir el que tenga el más alto la probabilidad? También puede elegir todo lo posible traducciones por palabra y luego ver - combinado con las permutaciones - que uno tiene la probabilidad más alta. >> Además, usted también puede ver no sólo palabras, si las frases. para que pueda analizar las relaciones entre las palabras y luego coger un mejor traducción. También otra cosa, por lo que este semestre De hecho, me estoy haciendo la investigación en Chino-Inglés traducción automática, por lo que la traducción del Chino al Inglés. >> Y algo que hacemos es, además de usar un modelo estadístico, que es justo ver las probabilidades de ver alguna posición en una frase, yo soy en realidad también añadir un poco de sintaxis para mi modelo, diciendo: ¡Oh, si yo veo a este tipo de la construcción, esto es lo que quiero para cambiarlo a cuando traduzco. Así también se puede añadir algún tipo de elemento de la sintaxis para que el una traducción más eficaz y más precisa. Aceptar. >> Entonces, ¿cómo se puede empezar, si quieres hacer algo en cómputo la lingüística? >> En primer lugar, se elige un proyecto que involucra idiomas. Así, hay muchos por ahí. Hay tantas cosas que puedes hacer. Y entonces se puede pensar en un modelo que se puede utilizar. Por lo general, eso significa que el pensamiento de supuestos, según como, oh, cuando yo era como el pensamiento de las letras. Yo estaba como, bueno, si quiero averiguar una que escribió esto, probablemente yo quiero mirar a las palabras que la persona utiliza y ver quién usa esa palabra muy a menudo. Así que trate de hacer suposiciones y trate de pensar en modelos. Y entonces también puede buscar en línea para el tipo de problema que usted tiene, y va a sugerir a ustedes, los modelos que tal vez modelado esa cosa también. >> Y también siempre puedes enviarme un correo electrónico. me@lfreitas.com. Y yo sólo puedo responder a sus preguntas. Podemos incluso podríamos reunirnos de manera que pueda dar sugerencias sobre la forma de la implementación de su proyecto. Y quiero decir que si te involucras con lingüística computacional, que va para ser grande. Vas a ver que hay tanto potencial. Y la industria quiere contratar que tan mal por eso. Así que espero que ustedes hayan disfrutado esto. Si ustedes tienen alguna pregunta, usted me puede preguntar por esto. Pero gracias.