Spracherkennung

    Diese Seite verwendet Cookies. Durch die Nutzung unserer Seite erklären Sie sich damit einverstanden, dass wir Cookies setzen. Weitere Informationen

    • Spracherkennung

      Man könnte doch DLLs in den GM einbauen, oder?

      Ich möchte mal ein KI Programm entwickeln.
      Du sprichst dann mit einer Künstlichen Intelligenz (fake).

      Die spracherkennung sollte so wie bei "Dragon" sein.
      Immer bereit, wenn gesprochen wird!

      Beispiel:
      Ein Gesicht im ROOM das sich Menschlich und Klug bewegt... (SCI-FI feeling) .
      Man sagt dessen Namen, vielleicht "Sonny", der dann seine Aufmerksamkeit auf dich richtet.
      Nun kann man Ihn etwas fragen oder sagen.
      Zum Beispiel: "Wie viel Uhr haben wir?". OK, vielleicht muss man kleine Pausen zweischen den Wörtern lassen.
      Entweder das Programm erkennt den Satz, was fehlerhaft sein kann. Oder es erkennt das Wort "Uhr". Und:
      if command="Uhr" {sound_play(wir haben); hh=current_hour; mm=current_minute; time="snd"+string(hh)+string(mm); sound_play(string(time))}; //Nicht getestet! Nur als Gag gedacht! ...

      Ich hoffe Ihr wisst was ich meine und könnt mir helfen. Aber bitte liefert mir keine "Nur DLL". Es ware nicht schlecht, wenn ich eine GM6 Datei dazu hätte. Am besten alles genau erklärt.

      MFG
      57 6F 77 2C 20 64 61 73 20 68 61 73 74 20 64 75 20 67 61 6E 7A 20 61 6C 6C 65 69 6E 20 67 65 73 63 68 61 66 66 74 2E 20

      Dieser Beitrag wurde bereits 2 mal editiert, zuletzt von DanielGM61 ()

    • Was is denn daran dann Fake? Es ist ja sozusagen intelligent, da es die Sprache analysieren kann. Aber auf ne freie DLL kannst wohl nicht hoffen. Normalerweise ist Spracherkennungssoftware nicht gerade billig. Bei Vista ist sowas ja integriert - evtl. kann man das ansteuern und benutzen.
    • bei XP is sowas auch intigriert... aber bei vista is die stimme besser und die sätze hören sich realistischer an...

      (XP - Microsoft Sam)
      (VISTA - Microsoft Anna)
      Alle Rechtschreibfehler sind Copyright (c) by Agent3004.

      Scheisen sollte man mit der maus können!

      Dieser Beitrag wurde bereits 1 mal editiert, zuletzt von Agent3004 ()

    • nein agent das was du meinst ist etwas was text in sprache ausgibt. er will aber das er etwas spricht und dann ein befehl ausgeführt wird


      e: aja mein handy kann sowas auch :D wenn ich basislager sage ruft es zuhause an =)

      Dieser Beitrag wurde bereits 1 mal editiert, zuletzt von Michi ()

    • Genau Michi!

      Gut habs mir überlegt... Muss ja nicht so perfekt sein. Es reicht auch eine DLL die einzelne Wörter erkennt. ZB: Du sagst "Computer" .. Und dann "Uhrzeit"! Daraufhin sagt er sie dir.

      Es wäre auch nicht schlecht wenn der Computer mit dir spricht (dll)!
      Aber die Dll beziehen sich immer auf SAM (XP) oder man muss erst mit glück 101 Programme auf den PC installieren.
      Soetwas gibt es nämlich schon. Aber leider nur für GM5 :( Ich möchte es aber in GM6.1!
      ..
      57 6F 77 2C 20 64 61 73 20 68 61 73 74 20 64 75 20 67 61 6E 7A 20 61 6C 6C 65 69 6E 20 67 65 73 63 68 61 66 66 74 2E 20
    • Ich habe mal "Mircrosoft Speech SDK" heruntergeladen.
      Das ist alles in Verbindung mit C++ und .NET glaube ich.
      Da ist auch ein Programm dabei, bei dem erstmal ein Stimmentest von dir durchgeführt wird (wie du was aussprichst). Dann kannst du im eingebauten Editor Sprache in Text umwandeln.
      Ich selber finde die Idee theorietisch gut, aber praktisch beinahe nicht umsetztbar (jedenfalls momentan).
      Spracherkennung ist im Moment noch nicht ausgereift.

      Da fällt mir jedoch Dr. Kawashimas Gehirnjogging (oder wie das heißt) ein. Da muss man in einer Übung, die ich selbst mal gemacht habe, die Farbe nennen, in welcher ein Wort geschrieben ist. Das Programm erkennt dann diese einprogrammierten Farbbegriffe, ist aber noch nicht genau genug, aber doch so genau, dass man dem Programm Falschverstandenes verzeihen kann.

      Dieser Beitrag wurde bereits 2 mal editiert, zuletzt von domimah ()

    • Das ist ttsächlich so, dass es für XP bereits etws zum Nachinstallieren gab. Aber erst unter Vista ist es integriert und funktioniert auch relativ akzeptabel. Es wäre sogar möglich, die Sprache abzufangen, da es tatsächlich nur Text ausginbt. Du müsstest den dann nur abfangen und in dein Programm eingeben. Da gibt es schon einige Software, die das so macht.
    • Wie arbeiten eigentlich Text-To-Speech Programme?
      Also das Programm hat ein Text, zB:
      "
      Hallo gm-d-Team,
      Es ist hilfreich hier zu sein.
      Doch ich brauche mehr downloads.
      MFG
      "
      Das Programm muss Zeile für Zeile, Wort für Wort "lesen". Und dann Sprechen.
      Aber es spricht ja nicht in Wörtern, sondern Buchstaben (Zeichen).
      Also zB das Wort "Hallo" ist H-a-l-l-o dann erkennt es noch evtl Leerzeichen und Satzzeichen.
      Und wie verbindet er jetzt die Buchstaben Soundteile?

      Das kann man doch irgendwie in GM6 erstellen?
      Keine Ahnung?
      ...
      57 6F 77 2C 20 64 61 73 20 68 61 73 74 20 64 75 20 67 61 6E 7A 20 61 6C 6C 65 69 6E 20 67 65 73 63 68 61 66 66 74 2E 20
    • Genau so funktioniert das. Das spielt einfach für jeden buchstaben nen Sound ab. Allerdings sind die Programm viel komplexer. Unter anderem wird der Pitch, also die Stimmhöhe geregelt, damit die Stimme nicht Melismatisch, also alles auf einem Ton runtergerattert, klingt.
    • Das mit dem Pitch ist doch mit der BASS.dll möglich, oder? Ist da erstmal nicht so wichtig!

      Wenn ich eine GM6 mache:
      1. Muss ich das ganze Alphabet, ohne Mitlaute sprechen? Also anstatt Te, dann T.
      2. Muss das Programm jedes Wort durchgehen und die Länge mässen?
      Aber wieweit muss es vorausrechnen? Ich muss dann ja mehrmals ein Buchstaben sprechen sprechen. Einmal falls ein a nach H kommt: Ha. Und ein i nach H: Hi. ...

      Keine Ahnung!
      57 6F 77 2C 20 64 61 73 20 68 61 73 74 20 64 75 20 67 61 6E 7A 20 61 6C 6C 65 69 6E 20 67 65 73 63 68 61 66 66 74 2E 20
    • Außerdem wird z.B. ein "r" in Arbeit anders als ein "r" in reden ausgesprochen.
      Du müsstest also jede Buchstabenfolge intergrieren.
      Dann noch, dass z.B. nach einem "," eine kleine und nach einem "." eine etwas größere Pause eingelegt wird. So auch bei Absätzen.
    • Man das ist hart!
      Ich versuche mal ein bisschen zu experimentieren.

      Ich schicks dann mal als gm6!
      Eigentlich habe ich soetwas schon mal versucht. Fällt mir gerade ein.
      Man das wird ein Spass ;)

      Aber wir kommen eigentlich leicht vom Thema ab. Obwohl... ich denke es ist nicht möglich (zurzeit) eine Spracherkennung einzubauen.

      Bis Morgen!
      57 6F 77 2C 20 64 61 73 20 68 61 73 74 20 64 75 20 67 61 6E 7A 20 61 6C 6C 65 69 6E 20 67 65 73 63 68 61 66 66 74 2E 20
    • Sprachausgabe ist keine leichte Sache. In den kommerziellen Programmen sind da komplexe Algorithmen und Fallunterscheidungen, denn weder wird jeder Buchstabe immer gleich ausgesprochen, noch ist die Betonung bei allen Wörtern gleich. Da sind sehr genaue und große Regelwerke dahinter. Was professionelle Teams in mehreren Jahrzehnten erarbeitet haben kann man sich nicht einfach mal so eben aus dem Ärmel schütteln. Setze zur Sprachausgabe auf das von Windows angebotene Feature, das ist das einfachste.
      Bei der Spracherkennung kann ich leider keine Tipps geben.
      "Die Erde ist ein Irrenhaus. Dabei könnte das bis heute erreichte Wissen der Menschheit aus ihr ein Paradies machen. Dafür müsste die weltweite Gesellschaft allerdings zur Vernunft kommen."
      - Joseph Weizenbaum
    • Es wird nichtmal jedes Wort immer gleich ausgesprochen, hier mal ein englisches Extrembeispiel:

      They read a book.

      Read wird im Present und im Past gleich geschrieben, aber unterschiedlich ausgesprochen. Der Computer kann in einem solchen Satz aber nicht die Zeit erkennen (wir können es ohne passenden Kontext auch nicht).


      Spracherkennung ist meiner Meinung nach ein noch schwierigereres Thema. Denn das Beispiel kann man auch umdrehen: unterschiedliche Wörter werden teilweise gleich - oder sehr ähnlich - ausgesprochen. Auch Eigennamen dürften ein Problem darstellen.
    • Die Text-to-Speech GM6
      Bitte auch Antwort schreiben! So hamas gern, erst downloaden und dann nix sagen! ;)

      Man sollte beachten, dass ich dieses Programm in 20 Minuten programmiert habe! Und nur ein leichter ansatz eines TTS-Programmes ist!

      (Download steht leider nicht mehr zu verfügung - Speicherplatz ist schließlich wertvoll)
      57 6F 77 2C 20 64 61 73 20 68 61 73 74 20 64 75 20 67 61 6E 7A 20 61 6C 6C 65 69 6E 20 67 65 73 63 68 61 66 66 74 2E 20

      Dieser Beitrag wurde bereits 8 mal editiert, zuletzt von DanielGM61 ()

    • Ich bin nicht ganz zufrieden! Aber für 20min. programmierung...?
      Ich weiß auch nicht ob es da ne bessere Programmiertechnik gibt, als die, die ich verwendet habe.
      Ich programmiere eben auf meiner Weise ;)

      Es ist glaub ich, zumindest ohne dlls, nicht möglich ein nahezu perfektes Sprachprogramm mit GM zu schreiben.
      Ich habe es so programmiert das es Buchstabe für Buchstabe durchgeht, und wenn ein Leerzeichen kommt abschließt. Sodass es immer ein Wort nach dem anderen holt.
      Man könnte irgendwie versuchen, dass es mehrere Wörter vorausließt. Und dann entsprechend handelt. Um eine gute Sprachausgabe zu erreichen, muss man ganze Wörter aufnehmen. So wie ich es beim 2. Modus gemacht habe. 1. muss man wörter mehrmals aufnehmen (Normal, Frage,..). 2. Braucht diese Version eine mänge Spreicherplatz.
      Und wie "domimah" schon sagte, muss man auch die Zeit (ua in Englich) berücksichtigen. Was glaub ich nicht möglich ist? Wie machen das die wahren Programmierer von zB "Dragon" oder "Microsoft"?
      PS: Außerdem wird eine deutsche Spracherkennung im GM (ohne Dll) fast nicht möglich sein. Denn der GM ist Englisch und kann kein Ö, Ä, Ü oder ? anzeigen. Und somit gibt es probleme.
      Aber man kann es auch so programmieren, das wenn "ver ndern" ("verändern") drankommt. das ä trozdem geprochen wird. Also einmal "ver" und dann "ndern" (sind 2 Wörter die dann eine Kette bilden). Aber man sieht dann nur Lücken. Vielleicht kann man mit einer dll das beheben?
      57 6F 77 2C 20 64 61 73 20 68 61 73 74 20 64 75 20 67 61 6E 7A 20 61 6C 6C 65 69 6E 20 67 65 73 63 68 61 66 66 74 2E 20
    • Original von DanielGM61
      [...]
      PS: Außerdem wird eine deutsche Spracherkennung im GM (ohne Dll) fast nicht möglich sein. Denn der GM ist Englisch und kann kein Ö, Ä, Ü oder ? anzeigen. Und somit gibt es probleme.
      [...]


      Kann er, ist für den absolut kein Problem. Die Umlaute liegen bei den Font Ressourcen nur nicht im Bereich von "letters", da muss "all" verwendet werden.
      "Die Erde ist ein Irrenhaus. Dabei könnte das bis heute erreichte Wissen der Menschheit aus ihr ein Paradies machen. Dafür müsste die weltweite Gesellschaft allerdings zur Vernunft kommen."
      - Joseph Weizenbaum