Games

అమెజాన్ నోవా సోనిక్ ఆడియో మోడల్‌ను ప్రకటించింది, ఓపెనై మరియు గూగుల్‌ను అధిగమిస్తుందని పేర్కొంది

అమెజాన్ టుడే ప్రకటించారు నోవా సోనిక్, స్టేట్ ఆఫ్ ది ఆర్ట్ స్పీచ్-టు-స్పీచ్ మోడల్, ఇది రియల్ టైమ్, మానవ లాంటి వాయిస్ సంభాషణలను కలిగి ఉన్న అనువర్తనాలను రూపొందించడానికి డెవలపర్‌లను అనుమతిస్తుంది. అమెజాన్ ఈ కొత్త ఆడియో మోడల్ పరిశ్రమ-ప్రముఖ ధరల పనితీరు మరియు తక్కువ జాప్యాన్ని అందిస్తుందని పేర్కొంది.

సాధారణంగా, వాయిస్-ఎనేబుల్డ్ అనువర్తనాన్ని అభివృద్ధి చేయడానికి డెవలపర్లు బహుళ మోడళ్లతో పనిచేయడానికి అవసరం-ప్రసంగాన్ని టెక్స్ట్‌గా మార్చడానికి స్పీచ్ రికగ్నిషన్ మోడల్, స్పందనలను అర్థం చేసుకోవడానికి మరియు ఉత్పత్తి చేయడానికి పెద్ద భాషా నమూనాలు మరియు వచనాన్ని తిరిగి ఆడియోగా మార్చడానికి టెక్స్ట్-టు-స్పీచ్ మోడల్. ఈ విధానం సంక్లిష్టమైనది మాత్రమే కాదు, కీలకమైన శబ్ద సందర్భం మరియు స్వరం, ప్రోసోడి మరియు మాట్లాడే శైలి వంటి సూక్ష్మ నైపుణ్యాలను సంగ్రహించడంలో కూడా విఫలమవుతుంది.

నోవా సోనిక్ అవగాహన మరియు ఆడియో జనరేషన్ సామర్థ్యాలను ఒకే మోడల్‌గా ఏకీకృతం చేయడం ద్వారా ఈ సవాలును పరిష్కరిస్తుంది. ఈ ఇంటిగ్రేటెడ్ విధానం మోడల్ టోన్, స్టైల్ మరియు మాట్లాడే ఇన్పుట్ను అర్థం చేసుకోవడానికి అనుమతిస్తుంది, ఫలితంగా మరింత సహజ సంభాషణ జరుగుతుంది. ఇది ప్రతిస్పందించడానికి తగిన సమయాన్ని కూడా నిర్ణయించగలదు మరియు అంతరాయాలను నిర్వహించడానికి (బార్జ్-ఇన్లు) మెరుగ్గా ఉంటుంది.

నోవా సోనిక్ అమెరికన్ మరియు బ్రిటిష్లతో సహా వివిధ ఆంగ్ల స్వరాలులో పురుష- మరియు స్త్రీ-ధ్వని స్వరాలకు మద్దతు ఇస్తుంది. డెవలపర్లు అమెజాన్ బెడ్‌రాక్ ద్వారా ద్వి దిశాత్మక స్ట్రీమింగ్ API ద్వారా మోడల్‌ను యాక్సెస్ చేయవచ్చు, ఫంక్షన్ కాలింగ్‌కు మద్దతుతో. ఇందులో కంటెంట్ మోడరేషన్ మరియు వాటర్‌మార్కింగ్ వంటి అంతర్నిర్మిత రక్షణలు కూడా ఉన్నాయి.

దిగువ మోడల్ వివరాలను కనుగొనండి:

అమెజాన్ నోవా సోనిక్

మోడల్ ఐడి

అమెజాన్.నోవా-సోనిక్-వి 1: 0

ఇన్పుట్ పద్ధతులు

ప్రసంగం

అవుట్పుట్ పద్ధతులు

ట్రాన్స్క్రిప్షన్ మరియు టెక్స్ట్ ప్రతిస్పందనలతో ప్రసంగం

సందర్భ విండో

300 కె సందర్భం

గరిష్ట కనెక్షన్ వ్యవధి

8 నిమిషాల కనెక్షన్ సమయం ముగిసింది, ప్రతి కస్టమర్‌కు గరిష్టంగా 20 ఏకకాలిక కనెక్షన్‌లతో.

మద్దతు ఉన్న భాషలు

ఇంగ్లీష్

ప్రాంతాలు

యుఎస్ ఈస్ట్ (ఎన్. వర్జీనియా)

ద్వి దిశాత్మక స్ట్రీమ్ API మద్దతు

అవును

బెడ్‌రాక్ నాలెడ్జ్ బేస్‌లు

సాధనం ఉపయోగం ద్వారా మద్దతు ఉంది (ఫంక్షన్ కాలింగ్)

సంబంధిత గమనికలో, గత నెల ఓపెనై ప్రకటించారు తరువాతి తరం స్పీచ్-టు-టెక్స్ట్ మోడల్స్, జిపిటి -4-ట్రాన్స్క్రయిబ్ మరియు జిపిటి -4 ఓ-మిని-ట్రాన్స్క్రిబ్లో, దాని ప్రస్తుత విస్పర్ మోడళ్లతో పోలిస్తే పద లోపం రేటు, భాషా గుర్తింపు మరియు ఖచ్చితత్వంలో గణనీయమైన మెరుగుదలలను అందిస్తుంది.




Source link

Related Articles

Back to top button