అమెజాన్ నోవా సోనిక్ ఆడియో మోడల్ను ప్రకటించింది, ఓపెనై మరియు గూగుల్ను అధిగమిస్తుందని పేర్కొంది

అమెజాన్ టుడే ప్రకటించారు నోవా సోనిక్, స్టేట్ ఆఫ్ ది ఆర్ట్ స్పీచ్-టు-స్పీచ్ మోడల్, ఇది రియల్ టైమ్, మానవ లాంటి వాయిస్ సంభాషణలను కలిగి ఉన్న అనువర్తనాలను రూపొందించడానికి డెవలపర్లను అనుమతిస్తుంది. అమెజాన్ ఈ కొత్త ఆడియో మోడల్ పరిశ్రమ-ప్రముఖ ధరల పనితీరు మరియు తక్కువ జాప్యాన్ని అందిస్తుందని పేర్కొంది.
సాధారణంగా, వాయిస్-ఎనేబుల్డ్ అనువర్తనాన్ని అభివృద్ధి చేయడానికి డెవలపర్లు బహుళ మోడళ్లతో పనిచేయడానికి అవసరం-ప్రసంగాన్ని టెక్స్ట్గా మార్చడానికి స్పీచ్ రికగ్నిషన్ మోడల్, స్పందనలను అర్థం చేసుకోవడానికి మరియు ఉత్పత్తి చేయడానికి పెద్ద భాషా నమూనాలు మరియు వచనాన్ని తిరిగి ఆడియోగా మార్చడానికి టెక్స్ట్-టు-స్పీచ్ మోడల్. ఈ విధానం సంక్లిష్టమైనది మాత్రమే కాదు, కీలకమైన శబ్ద సందర్భం మరియు స్వరం, ప్రోసోడి మరియు మాట్లాడే శైలి వంటి సూక్ష్మ నైపుణ్యాలను సంగ్రహించడంలో కూడా విఫలమవుతుంది.
నోవా సోనిక్ అవగాహన మరియు ఆడియో జనరేషన్ సామర్థ్యాలను ఒకే మోడల్గా ఏకీకృతం చేయడం ద్వారా ఈ సవాలును పరిష్కరిస్తుంది. ఈ ఇంటిగ్రేటెడ్ విధానం మోడల్ టోన్, స్టైల్ మరియు మాట్లాడే ఇన్పుట్ను అర్థం చేసుకోవడానికి అనుమతిస్తుంది, ఫలితంగా మరింత సహజ సంభాషణ జరుగుతుంది. ఇది ప్రతిస్పందించడానికి తగిన సమయాన్ని కూడా నిర్ణయించగలదు మరియు అంతరాయాలను నిర్వహించడానికి (బార్జ్-ఇన్లు) మెరుగ్గా ఉంటుంది.
నోవా సోనిక్ అమెరికన్ మరియు బ్రిటిష్లతో సహా వివిధ ఆంగ్ల స్వరాలులో పురుష- మరియు స్త్రీ-ధ్వని స్వరాలకు మద్దతు ఇస్తుంది. డెవలపర్లు అమెజాన్ బెడ్రాక్ ద్వారా ద్వి దిశాత్మక స్ట్రీమింగ్ API ద్వారా మోడల్ను యాక్సెస్ చేయవచ్చు, ఫంక్షన్ కాలింగ్కు మద్దతుతో. ఇందులో కంటెంట్ మోడరేషన్ మరియు వాటర్మార్కింగ్ వంటి అంతర్నిర్మిత రక్షణలు కూడా ఉన్నాయి.
దిగువ మోడల్ వివరాలను కనుగొనండి:
అమెజాన్ నోవా సోనిక్ |
|
మోడల్ ఐడి |
అమెజాన్.నోవా-సోనిక్-వి 1: 0 |
ఇన్పుట్ పద్ధతులు |
ప్రసంగం |
అవుట్పుట్ పద్ధతులు |
ట్రాన్స్క్రిప్షన్ మరియు టెక్స్ట్ ప్రతిస్పందనలతో ప్రసంగం |
సందర్భ విండో |
300 కె సందర్భం |
గరిష్ట కనెక్షన్ వ్యవధి |
8 నిమిషాల కనెక్షన్ సమయం ముగిసింది, ప్రతి కస్టమర్కు గరిష్టంగా 20 ఏకకాలిక కనెక్షన్లతో. |
మద్దతు ఉన్న భాషలు |
ఇంగ్లీష్ |
ప్రాంతాలు |
యుఎస్ ఈస్ట్ (ఎన్. వర్జీనియా) |
ద్వి దిశాత్మక స్ట్రీమ్ API మద్దతు |
అవును |
బెడ్రాక్ నాలెడ్జ్ బేస్లు |
సాధనం ఉపయోగం ద్వారా మద్దతు ఉంది (ఫంక్షన్ కాలింగ్) |
సంబంధిత గమనికలో, గత నెల ఓపెనై ప్రకటించారు తరువాతి తరం స్పీచ్-టు-టెక్స్ట్ మోడల్స్, జిపిటి -4-ట్రాన్స్క్రయిబ్ మరియు జిపిటి -4 ఓ-మిని-ట్రాన్స్క్రిబ్లో, దాని ప్రస్తుత విస్పర్ మోడళ్లతో పోలిస్తే పద లోపం రేటు, భాషా గుర్తింపు మరియు ఖచ్చితత్వంలో గణనీయమైన మెరుగుదలలను అందిస్తుంది.