Publicado em 2 de abril de 2007






Vocalize Soluções em Tecnologias da Fala e da Linguagem

Com ajuda do PIPE, protótipo de software que dá voz a palavras escritas em português poderá ser apresentado ao mercado em julho

Evanildo da Silveira

Depois de cinco anos trabalhando em centros de excelência na área de tecnologia da fala e da linguagem na Europa e no Japão, o engenheiro eletricista Edmilson da Silva Morais voltou ao Brasil em janeiro de 2004, trazendo na bagagem, além de experiência técnica, a meta de fundar uma empresa nessa área no Brasil. Objetivo que ele conseguiu concretizar em maio de 2006, quando criou, junto com mais três sócios, a Vocalize — Soluções em Tecnologias da Fala e da Linguagem Ltda. Impulsionados por um financiamento da Fapesp, os sócios acreditam que, em julho de 2007, a empresa já terá um protótipo de seu primeiro produto: um conversor de texto em fala de alta qualidade para o português do Brasil.

Conversores de texto em fala são softwares sofisticados, que transformam as palavras escritas em faladas. Para fazer isso, primeiro é preciso gravar algumas frases faladas por alguém. A partir disso, o software "quebra" essas frases em pequenas unidades de som, que podem ser um fonema ou uma sílaba, por exemplo. Com essas unidades de som, o programa é capaz de sintetizar a voz humana, transformando qualquer texto escrito em falado. Quer dizer, ele junta essas pequenas unidades de som para formar palavras faladas. Mas não é só isso. A fala sintetizada tem ritmo e entonações parecidos com os da voz humana.

Morais está entusiasmado com a empresa que montou. Sua passagem pela Europa e Ásia foi importante para que surgisse a idéia de se tornar um empreendedor. Em agosto de 1997, ele iniciou seu doutorado na Unicamp. "No segundo semestre de 1998, no entanto, fui convidado para trabalhar em um projeto de 18 meses, em minha área de atuação (reconhecimento automático de fala), nos laboratórios da IBM na Europa", conta. "Aceitei o convite e tive de interromper meu doutorado."

A idéia era retornar ao Brasil depois do fim do projeto e retomar o doutorado. Mas os planos foram alterados. "Após o término do projeto na IBM recebi outros convites de universidades e centros de pesquisas na Europa e no Japão para atuar nas áreas de conversão de texto em fala de alta qualidade e sistemas de diálogo falado entre homem-máquina", explica. "Isso me levou a estender minha estada no exterior até janeiro de 2004." Foi uma época de muito trabalho. De janeiro a julho de 2000, ele trabalhou como pesquisador visitante na Universidade de Edimburgo, na Escócia. De julho de 2000 a março de 2002 foi pesquisador na Universidade de Stuttgart, na Alemanha, e entre março de 2002 e janeiro de 2004 desempenhou a mesma função nos laboratórios da Toshiba em Cambridge, na Inglaterra, e em Kawasaki, no Japão.

Equipe interdisciplinar

De volta ao Brasil, em março de 2004, Morais retomou seu doutorado na Unicamp, mas já pensando em criar uma empresa. Segundo ele, o primeiro passo para a criação da Vocalize foi a formação de uma equipe qualificada e interdisciplinar de sócios-empreendedores. Além dele próprio, doutor em engenharia de telecomunicações, a empresa tem mais três sócios: Jussara Melo Vieira, fonoaudióloga e doutora em lingüística; Pablo Arantes, lingüista e aluno de doutorado em lingüística do Instituto de Estudos da Linguagem (IEL); e Jaqueline Vieira Gonçalves, engenheira eletricista e doutoranda da Faculdade de Engenharia Elétrica e de Computação (FEEC), ambos da Unicamp.

O segundo passo foi o estabelecimento de parcerias com instituições de ciência e tecnologia reconhecidas, como a FEEC, o IEL e o Núcleo Inter-Institucional de Lingüística Computacional (NILC), da Universidade de São Paulo (USP) de São Carlos. A última etapa foi procurar se informar sobre áreas como empreendedorismo, plano de negócios, financiamento e gestão de uma microempresa de base tecnológica "A solução que encontramos para adquirir esses conhecimentos foi nos candidatarmos, em março de 2005, a um programa de pré-incubação promovido pela Agência de Inovação da Unicamp (Inova)", lembra Jussara. "Fomos aceitos no programa e entre abril de 2005 e julho de 2006 tivemos assessoria mercadológica de especialistas em gestão, marketing e aspectos jurídicos da Inova."

Durante esse programa, eles participaram de cursos e palestras sobre temas como empreendedorismo, plano de negócios e financiamento à inovação. Foi lá também que tiveram o primeiro contato com o Programa Inovação Tecnológica em Pequenas Empresas (PIPE), por meio de uma palestra de representantes da Fapesp. O tempo e os conhecimentos foram bem aproveitados pelos quatro sócios da Vocalize. Prova disso foi o resultado que obtiveram no concurso sobre plano de negócios promovido pelo Banco Santander Banespa, em 2005. "Neste concurso, a avaliação dos planos de negócios foi realizada, entre outros, pela fundação Dom Cabral, pela Anprotec [Associação Nacional de Entidades Promotoras de Empreendimentos Inovadores] e pelo CNPq [Conselho Nacional de Desenvolvimento Científico e Tecnológico]", conta Jussara. "Nós concorremos com outros 525 planos de negócios e ficamos entre os cinco finalistas."

Depois disso, eles acharam que estavam preparados para fundar uma empresa. Foi o que fizeram. Em maio de 2006 o grupo participou do edital de seleção da Incubadora de Empresas de Base Tecnológica da Unicamp (Incamp) e conseguiu que a empresa fosse incubada, o que ocorreu a partir de agosto de 2006. Desde então, as principais atividades da Vocalize têm sido o desenvolvimento do protótipo de seu primeiro produto, ou seja, o conversor de texto em fala, além da definição do modelo de negócios da empresa, a elaboração de um plano tecnológico e a busca por parceiros comerciais, seu primeiro cliente e novos investimentos públicos de apoio à inovação em pequenas empresas de base tecnológica.

Protótipo deve estar pronto em julho

Segundo Jussara, até julho deste ano a empresa já deverá ter um protótipo do conversor pronto. "Depois do protótipo, dentro de um ano e meio pretendemos estar no mercado", diz. "Já entramos em contato com cinco empresas, que se mostraram interessadas em nosso produto. Mas, como esses contatos estão em fase de negociação, ainda não podemos revelar o nome delas." A Vocalize também ainda não tem estimativa de faturamento, mas a expectativa é de que haja retorno do investimento no terceiro ano de comercialização do produto.

Para chegar até aqui e concluir o estudo de viabilidade do projeto, a Vocalize obteve um financiamento do PIPE Fase I no valor total de R$ 93.916,80. A solicitação à Fapesp foi feita em novembro de 2005 e aprovada no ano seguinte. A liberação do dinheiro começou em setembro de 2006. "Com o dinheiro do PIPE fizemos toda a estruturação do laboratório de pesquisa e desenvolvimento (P&D) da Vocalize", diz Morais. "Os recursos também financiaram bolsas para o coordenador de projeto, ou seja, eu, e a contratação de dois profissionais com mestrado e com mais de quatro anos de experiência no mercado. O PIPE foi muito importante para a formação e os passos iniciais de nossa empresa." Agora, a Vocalize vai solicitar um financiamento para o PIPE Fase II.

Se tudo correr como o planejado, o conversor de texto em fala deverá chegar ao mercado dentro de dois anos. Não deverão faltar interessados em adquiri-lo no Brasil, pois existem poucos similares no mercado. "No País há poucos sistemas de conversão texto-fala desenvolvidos para aplicação comercial", diz o engenheiro eletricista Fábio Violaro, professor titular do Departamento de Comunicações da FEEC da Unicamp, que prestou consultoria para a Vocalize. "O que a Vocalize pretende, entretanto, é um sistema desenvolvido com as tecnologias mais atuais e com o diferencial de a qualidade da fala sintetizada ser praticamente indistinguível da fala natural."

Não há estimativa do mercado brasileiro de tecnologia da fala, mas em termos mundiais ele movimentou US$ 1,404 bilhão em 2006. Esse alto valor se explica pelas variadas aplicações que essa tecnologia tem e pode vir a ter. "O conversor de texto em fala pode ser usado, por exemplo, em sistemas de informação por telefone (saldo bancário, informações meteorológicas, sobre vendas, promoções), desvio de chamadas de um consultório para um sistema de atendimento automático, que pode operar sem necessidade de atendentes, e auxílio a deficientes visuais (leitura de texto)", enumera Violaro. "É importante destacar que algumas dessas aplicações requerem o uso concomitante de sistemas de reconhecimento de fala."

O projeto tem futuro

Essa tecnologia a que Violaro se refere faz o inverso do conversor desenvolvido pela Vocalize, ou seja, transforma fala em texto. As duas interessam a vários tipos de empresas, como, por exemplo, bancos, lojas, consultórios, escritórios, unidades de ensino à distância e companhias telefônicas. Por isso, Violaro acredita que o projeto da Vocalize é viável. "Ele tem futuro e eu vejo este futuro bem próximo", diz. "Creio que ainda neste ano será disponibilizado um protótipo demonstrativo. O pessoal envolvido tem competência e familiaridade com as tecnologias mais avançadas na área. Além disso, trata-se de um projeto que, assim que concluído, vai dar margem para outros projetos relacionados, como, por exemplo, reconhecimento de fala e animação facial sincronizada com a fala."

Usar as duas tecnologias para desenvolver vários produtos é justamente a intenção dos fundadores da Vocalize. "O foco de competências da empresa é a área de ciência e tecnologia da fala e da linguagem, o que a possibilita desenvolver vários produtos e soluções", explica Morais. "Tais como sistemas para reconhecimento e compreensão automática de fala, sistemas para síntese de fala a partir de conceito, para conversão de texto em fala e de diálogo falado entre homem e máquina."

Na verdade, essa tecnologia já existe, mas está mais desenvolvida em outras línguas. Os melhores resultados obtidos até hoje são para o inglês, pois é a língua com maior número de estudos e aplicações de fala no mundo. Também há bons sistemas de síntese para o italiano e o espanhol. Alguns exemplos podem ser ouvidos no endereço www.loquendo.com. "O funcionamento da síntese de fala está melhor para outras línguas, como o inglês, com um resultado próximo do real", diz Jussara. "Mas há muito ainda por se desenvolver nesta área. Ninguém ainda tem o domínio total desta tecnologia."

A fala é uma habilidade exclusivamente humana e altamente complexa. Daí a dificuldade em sintetizá-la. Segundo Violaro, o grande desafio tecnológico para desenvolver um conversor de texto em fala é conseguir uma naturalidade cada vez maior da voz produzida sinteticamente. Jussara lembra ainda que também é preciso dar conta de palavras estrangeiras e siglas, por exemplo, que aparecem no meio de um texto em português e que são de difícil tratamento para serem vocalizadas. "Para isso, hoje existe uma série de algoritmos novos em desenvolvimento", diz Violaro. "Trata-se de uma tecnologia em contínuo desenvolvimento. Já há conversores bem avançados nos Estados Unidos e na França, por exemplo. Mas esses produtos são bastante dependentes da língua."

Trabalho conjunto

Por isso, para desenvolver uma tecnologia dessas é necessário o trabalho conjunto de lingüistas, engenheiros e cientistas da computação. Os primeiros trabalham com as regras lingüísticas, no modelamento da prosódia, do ritmo, da entonação, na caracterização sintática e semântica do texto a ser vocalizado e na escolha dos locutores que fornecerão as vozes a serem sintetizadas. "O lingüista cuida para que a transcrição fonética seja a mais precisa possível", explica Violaro. "Isto é, como o texto deve ser pronunciado. Por exemplo, o x em "sexo" tem som de ks, o x em "extra" tem som de s, o x em "exame" tem som de z."

No caso do engenheiro, ele trabalha, junto com o lingüista na transformação de toda caracterização lingüística da fala e do texto de forma a ser representada matematicamente e ser possível uma construção ou reconstrução da fala original por meio de máquinas. O cientista da computação, por sua vez, coloca tudo o que o lingüista e o engenheiro produziram no formato de programas a serem processados nos computadores para que eles sejam capazes de gerar automaticamente a vocalização de um texto escrito. "Mesmo que cada um tenha um papel assim, definido, eles precisam dialogar, pois não conseguem fazer sua parte sozinhos", ressalva Jussara. "A interdisciplinaridade está em cada detalhe, em cada passagem para se ter um trabalho efetivamente de qualidade."

Apesar de ser um produto inovador, os sócios da Vocalize não pretendem patentear o conversor em si. "Mas há algoritmos (que são rotinas de funcionamento) que são passíveis de patenteamento", explica Jussara. "Estamos avaliando isso, pois patentear é uma forma de publicar e custa caro. Talvez seja mais vantajoso manter mais um tempo de sigilo. Mas temos potencial de gerar patentes e nos interessa fazê-lo."

PIPE Fase II

Nessa primeira fase do projeto foram aprimoradas as técnicas que a Vocalize pretende usar, com testes, avaliação das consultorias, um estudo de viabilidade técnica e econômica e contatos com empresas para avaliar se os produtos derivados do projeto de pesquisa têm viabilidade comercial. "Os resultados se mostram promissores tanto no que diz respeito à validação das técnicas que empregaremos como à viabilidade comercial", anima-se Jussara. "Então, nesta segunda fase queremos o apoio da Fapesp para construir o protótipo, gerarmos seus quatro produtos iniciais e começarmos a comercialização", diz.

Morais tem certeza de que a empresa está preparada para ir em frente. "Ao longo de sua trajetória, a Vocalize conseguiu reunir um corpo técnico interdisciplinar e estabelecer parcerias com instituições de ciência e tecnologia de elevada qualidade técnica", diz. "Isso a coloca em sintonia com a tendência de estruturação de empresas semelhante à do Vale do Silício, na Califórnia, e à da Rota 128, na região de Boston, nos Estados Unidos, e também à dos Parques Tecnológicos de Cambridge e Oxford, na Inglaterra."

Ele vê ainda outra semelhança entre as competências técnicas da Vocalize e de outras empresas de base tecnológica de sucesso no Vale do Silício e na Rota 128. "Assim como lá, a tecnologia desenvolvida por ela é oriunda não somente de universidades, mas também do acúmulo de experiências de seus sócios em centros de P&D de grandes empresas como IBM, Toshiba e Sony", diz. "Também é importante ressaltar que o fato de a Vocalize estar instalada na incubadora de base tecnológica da Unicamp, dentro do campus universitário, facilita significativamente sua capacidade para atrair jovens talentos recém-graduados e pós-graduandos (alunos de mestrado e doutorado)."